Curso de Governança de IA – Texto Introdutório da Semana 3 - 80.000 Horas: Como fazer a diferença com sua carreira

Índice

Semana 3: Os Desafios de Alcançar a Segurança da IA

As leituras da semana passada introduziram muitos riscos de IA. Esta semana, vamos mergulhar em algumas nuances da segurança da IA (especialmente o alinhamento da IA), que muitas vezes é especialmente mal compreendida. Em particular, as leituras desta semana se concentram em por que pode ser desafiador alcançar a segurança de IA, ainda que a maioria dos desenvolvedores de IA aja de forma responsável.

Até o final da semana, você deve ser capaz de:

Explicar por que os sistemas de IA podem se comportar nos testes de forma diferente que na implementação. (Isso seria um desafio para alcançar a segurança por meio de testes.)
Descrever alguns mecanismos pelos quais futuros agentes de IA amplamente capazes poderiam hipoteticamente tomar o poder dos humanos. (Se isso se amplificar o suficiente, pode ser irreversível.)
- (Por que isso importa: o prospecto de danos irreversíveis advindos do desalinhamento ou do uso indevido da IA aumenta o que está em jogo e sugere que pode ser imprudente simplesmente planejar aprender com as falhas.)
Descrever alguns desafios enfrentados pelas pautas de pesquisa em segurança da IA.
Identificar várias dinâmicas sociais/políticas que podem dificultar a obtenção da segurança da IA.

Recursos (cerca de 1 h 16 min)

Engano emergente e otimização emergente de Jacob Steinhardt (2023) [Blog]

Tempo estimado: 20 min

Este artigo de um professor da UC Berkeley descreve como sistemas de IA podem ter capacidades emergentes; a simples amplificação dos procedimentos de treinamento pode levar a habilidades qualitativamente novas. O artigo então descreve duas capacidades emergentes preocupantes: engano e otimização.

(Nota terminológica: a “perda de treinamento” de uma IA é uma pontuação usada para treiná-la; uma perda de treinamento menor significa que a IA está cometendo menos erros. Você pode encontrar alguns outros termos técnicos desconhecidos neste artigo. Para os propósitos deste curso, não há necessidade de entender todos esses detalhes.)

A segurança da IA parece difícil de mensurar de Holden Karnofsky (2022) [Blog]

Tempo estimado: 18 min

Elaborando a ideia de que testar de forma confiável a segurança de um sistema de IA pode ser desafiador, este artigo descreve várias razões pelas quais os testes podem fornecer resultados enganosos.

Compilação: por que a IA avançada e desalinhada pode causar uma catástrofe? da BlueDot Impact (2023) [Artigo]

Tempo estimado: 14 min

Enquanto na semana anterior estudamos por que as pessoas podem (inadvertidamente) implementar sistemas de IA desalinhados que buscam poder, estas leituras argumentam que tal implementação poderia se amplificar para uma catástrofe (em vez de necessariamente ser fácil de desativar). Isso é relevante tanto para a natureza do risco quanto para o motivo pelo qual apenas aprender com o fracasso pode não ser uma abordagem acertada à segurança: grandes falhas poderiam ser catástrofes irreversíveis. (Apesar disso, ainda é possível ou até mesmo crucial aprender com falhas de pequena ou média escala.)

Ninguém está esperto no alinhamento da Inteligência Geral Artificial de Leopold Aschenbrenner (2023) [Blog]

Tempo estimado: 13 min

Este artigo argumenta que a segurança da IA é um campo relativamente pequeno cujas principais medidas de segurança e pautas de pesquisa enfrentam, todas elas, desafios importantes e não resolvidos.

Uma parte útil deste artigo é a lista de abordagens de alinhamento. Apresentamos uma lista de abordagens ligeiramente mais ampla aqui.

Evitar a vulnerabilidade global extrema como um problema central da governança da IA da BlueDot Impact (2022) [Artigo]

Tempo estimado: 9 min

Este breve artigo esboça o modo como problemas como erro de julgamento, incentivos competitivos e a rápida difusão das capacidades de IA podem resultar em alguém implementar IAs inseguras mesmo que a maioria dos desenvolvedores de IA atue de forma responsável.

(Leitura opcional) Exemplos de erro de generalização do objetivo da DeepMind Safety Research (2023) [Lista de recursos]

Tempo estimado: 10 min

Este artigo da Pesquisa de Segurança da DeepMind explica um problema de segurança da IA: em vez de aprender a buscar um objetivo especificado, os agentes-IA às vezes aprendem a buscar objetivos indesejados que levam a comportamentos idênticos durante o desenvolvimento.

Exercícios

Tradução: Luan Marques

Link para o original