Curso de Governança de IA – Texto Introdutório da Semana 3

Objetivo da Sessão

As leituras da semana passada introduziram muitos riscos de IA. Esta semana, vamos mergulhar em algumas nuances da segurança de IA (especialmente o alinhamento de IA), que muitas vezes é especialmente mal compreendida. Em particular, as leituras desta semana se concentram em por que pode ser desafiador alcançar a segurança de IA – mesmo que a maioria dos desenvolvedores de IA aja de forma responsável.

Até o final da semana, você deve ser capaz de:
  • Explicar por que os sistemas de IA podem se comportar nos testes de forma diferente que na implementação. (Isso seria um desafio para alcançar a segurança por meio de testes.)
  • Descrever alguns mecanismos pelos quais futuros agentes de IA amplamente capazes poderiam hipoteticamente tomar o poder dos humanos. (Se isso se amplificar o suficiente, pode ser irreversível.)
    • (Por que isso importa: o prospecto de danos irreversíveis advindos do desalinhamento ou do uso indevido de IA aumenta o que está em jogo e sugere que pode ser imprudente simplesmente planejar aprender com as falhas.)
  • Descrever alguns desafios enfrentados pelas pautas de pesquisa em segurança de IA.
  • Identificar várias dinâmicas sociais/políticas que podem dificultar a obtenção da segurança de IA.

Publicado originalmente em 2023 aqui.

Tradução: Luan Marques

Deixe um comentário