Índice
Técnicas Adversárias para Supervisão Amplificável
Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.
Esta semana foca em mais duas técnicas potenciais de alinhamento propostas para funcionar em grande escala: debate e treinamento usando exemplos adversários irrestritos.
As leituras iniciais concentram-se em aspectos práticos e teóricos do debate. As duas leituras seguintes exploram como gerar entradas nas quais as IAs se comportam mal. Embora haja uma grande literatura sobre exemplos adversários (entradas que causam comportamento inadequado, apesar de serem muito semelhantes aos exemplos de treinamento), focamos no caso geral de entradas que causam comportamento inadequado sem necessariamente serem próximas das entradas de treinamento (conhecidas como exemplos adversários irrestritos).
Observe que, embora essas técnicas não dependam da suposição de decomponibilidade da tarefa necessária para a amplificação iterada, elas dependem de diferentes suposições fortes. Para o debate, a suposição é que argumentos verazes são mais persuasivos. Para o treinamento adversário irrestrito, a suposição é que adversários podem gerar entradas realistas mesmo em tarefas complexas do mundo real. A primeira leitura adicional sobre cada técnica explora alguns problemas com essas suposições e soluções potenciais. A primeira suposição pode ser operacionalizada em termos de uma lacuna de crítica-discriminador e a segunda em termos de uma lacuna de gerador-discriminador (ambas discutidas na versão completa do artigo de críticas de Saunders et al. (2022)).
Ao final da sessão, você deverá ser capaz de:
- Compreender a estrutura do debate.
- Utilizar a IA para criticar decisões da IA, auxiliando os humanos a fornecer feedback quando não conseguem compreender a tarefa como um todo.
- Compreender as suposições nas quais ele se baseia.
- Compreender a estrutura do treinamento adversário irrestrito.
- Um meio de usar a IA para fornecer supervisão durante o treinamento.
- Compreender as suposições nas quais ele se baseia.
Recursos (cerca de 1 h 25 min)
Críticas escritas por IA ajudam humanos a perceber falhas de Jan Leike, Jeffrey Wu, Catherine Yeh et al. (2022) [Blog]
Tempo estimado: 10 min
Os autores treinam um modelo de linguagem para criticar o desempenho de outro modelo de linguagem, auxiliando os humanos a avaliá-lo. Este é um exemplo simples do protocolo de debate discutido na próxima leitura.
Observe especialmente a lacuna entre a capacidade de discriminação e de crítica, que é uma métrica importante a ser reduzida.
Segurança da IA via debate de Geoffrey Irving, Paul Christiano e Dario Amodei (2018) [Artigo]
Tempo estimado: 35 min
O debate envolve diálogos de linguagem natural entre múltiplas IAs, com o objetivo de tornar mais fácil para os humanos julgar qual IA é mais veraz. Aqueles sem conhecimento sobre teoria da complexidade podem pular a seção 2.2.
Fazendo equipe-vermelha em modelos de linguagem com modelos de linguagem de Ethan Perez, Saffron Huang, Francis Song et al. (2022) [Blog]
Tempo estimado: 10 min
Perez et al. utilizam um modelo de linguagem para gerar automaticamente casos de teste que resultam em comportamento inadequado sem acesso aos pesos da rede, tornando isso um “ataque de caixa-preta”.
Isso é um exemplo de geração de “exemplos adversários irrestritos”. “Irrestritos” refere-se ao fato de que o modelo de linguagem pode gerar qualquer exemplo, enquanto os exemplos adversários (restritos) geralmente estão intimamente relacionados aos pontos de dados de treinamento.
Comece lendo este post, mas continue lendo o artigo se estiver interessado.
Adversários resilientes ao nível das características são ferramentas de interpretabilidade de Casper (2021) [Artigo]
Tempo estimado: 30 min
Caspar et al. constroem ataques manipulando características de alto nível das entradas usando acesso aos pesos da rede, tornando isso um ataque “caixa-branca”. Este é mais um exemplo de geração de exemplos adversários irrestritos.
Tradução: Luan Marques
Link para o original.