Objetivo da Sessão
As leituras da semana passada introduziram muitos riscos de IA. Esta semana, vamos mergulhar em algumas nuances da segurança de IA (especialmente o alinhamento de IA), que muitas vezes é especialmente mal compreendida. Em particular, as leituras desta semana se concentram em por que pode ser desafiador alcançar a segurança de IA – mesmo que a maioria dos desenvolvedores de IA aja de forma responsável.
Até o final da semana, você deve ser capaz de:
- Explicar por que os sistemas de IA podem se comportar nos testes de forma diferente que na implementação. (Isso seria um desafio para alcançar a segurança por meio de testes.)
- Descrever alguns mecanismos pelos quais futuros agentes de IA amplamente capazes poderiam hipoteticamente tomar o poder dos humanos. (Se isso se amplificar o suficiente, pode ser irreversível.)
- (Por que isso importa: o prospecto de danos irreversíveis advindos do desalinhamento ou do uso indevido de IA aumenta o que está em jogo e sugere que pode ser imprudente simplesmente planejar aprender com as falhas.)
- Descrever alguns desafios enfrentados pelas pautas de pesquisa em segurança de IA.
- Identificar várias dinâmicas sociais/políticas que podem dificultar a obtenção da segurança de IA.
Publicado originalmente em 2023 aqui.
Tradução: Luan Marques