Curso de Alinhamento da IA – Texto Introdutório da Semana 4


Decomposição de Tarefas para Supervisão Amplificável

Você pode melhorar significativamente o desempenho dos modelos de linguagem em tarefas difíceis ao pedir que eles decomponham o problema da maneira correta.

Esta semana introduz a supervisão amplificável como uma abordagem para prevenir o erro de especificação da recompensa e discute uma proposta de supervisão amplificável: a amplificação iterada.

A supervisão amplificável refere-se a métodos que possibilitam que humanos supervisionem sistemas de IA que estão resolvendo tarefas muito complicadas para um único humano avaliar. Esta semana começa justificando o problema da supervisão amplificável; em seguida, examinamos a amplificação iterada como uma solução potencial para o problema. A amplificação iterada é construída em torno da decomposição de tarefas: a estratégia de treinar agentes para terem bom desempenho em tarefas complexas decompondo-as em tarefas menores que podem ser mais facilmente avaliadas, combinando então essas soluções para produzir respostas para a tarefa completa. A amplificação iterada envolve o uso repetido da decomposição de tarefas para treinar agentes cada vez mais poderosos.

Vamos examinar duas outras técnicas de alinhamento que podem funcionar em grande escala na próxima semana.

Até o final da sessão, você deverá ser capaz de:

  • Explicar o conceito básico de supervisão amplificável.
  • Compreender o conceito de amplificação iterada como meio de alcançar a supervisão amplificável.
    • Entender a decomposição de tarefas como um componente da amplificação iterada, utilizando duas configurações experimentais no currículo como exemplos.
  • Compreender as suposições nas quais a amplificação iterada se baseia para treinar agentes alinhados e poderosos.
    • Explicar como ela ajuda, as evidências de que funciona e suas limitações.

Recursos (cerca de 1 h 50 min)

O panorama do alinhamento de Paul Christiano (2020) [Vídeo]

Tempo estimado: 30 min

Até agora, cobrimos muita coisa no curso, incluindo as duas principais maneiras pelas quais esperamos que o alinhamento dê errado: erro de especificação da recompensa e internalização de objetivos errados.

Incluímos este vídeo primeiro para fornecer uma síntese ampla do panorama geral de diferentes maneiras de fazer com que a IA vá bem. Esperamos que isso ajude a situar as ideias que discutimos até agora e forneça uma estrutura para você conectar as ideias que encontraremos mais tarde.

Fique atento, especialmente, à seção sobre decomposição de tarefas. Ao longo do restante desta semana, abordaremos a decomposição de tarefas e a amplificação iterada de maneira geral.

Medindo progresso na supervisão amplificável para grandes modelos de linguagem de Samuel Bowman (2022) [Artigo]

Tempo estimado: 5 min

Este artigo apresenta o problema da “supervisão amplificável”: tentar fornecer feedback sobre tarefas que são muito complexas para um humano entender completamente. Foque principalmente em compreender o problema da supervisão amplificável.

O artigo foi escrito para introduzir a configuração experimental de “sanduíche”. Quando um sistema de IA está “em sanduíche” entre especialistas humanos e leigos, ele é mais capaz do que os leigos, mas menos capaz do que os especialistas em um domínio específico. O sanduíche nos permite descobrir se nossas hipóteses de supervisão amplificável funcionarão em sistemas do futuro (quando não haverá especialistas capazes de supervisionar o sistema de IA).

Neste momento, entender o sanduíche é menos importante, mas pode ser útil para auxiliar na compreensão do problema da supervisão amplificável.

Aprendendo objetivos complexos com amplificação iterada de Paul Christiano e Dario Amodei (2018) [Blog]

Tempo estimado: 5 min

Christiano descreve o algoritmo da amplificação iterada e o demonstra usando experimentos simplificados. A amplificação iterada é uma proposta para amplificar subsistemas alinhados a fim de resolver tarefas complexas.

Use este post para ter uma compreensão geral do algoritmo e orientar a leitura do artigo correspondente, que vem a seguir.

Supervisionando aprendizes fortes amplificando especialistas fracos de Paul Christiano, Dario Amodei e Buck Shlegeris (2018) [Artigo]

Tempo estimado: 35 min

Este é o artigo no qual o post anterior se baseia. Christiano et al. descrevem o algoritmo da “amplificação iterada” e o demonstram por meio de experimentos simplificados. A amplificação iterada é uma proposta para amplificar subsistemas alinhados a fim de resolver tarefas complexas.

Resumindo livros com feedback humano de Jeffrey Wu, Ryan Lowe e Jan Leike (2021) [Blog]

Tempo estimado: 5 min

Wu et al. apresentam um exemplo de decomposição recursiva de tarefas, que pode ser vista como um caso especial do protocolo de amplificação iterada descrito nas leituras anteriores.

Modelos de linguagem realizam raciocínios via cadeia de pensamento de Jason Wei, Denny Zhou e Google (2022) [Blog]

Tempo estimado: 10 min

Cadeia de pensamento é uma técnica para induzir grandes modelos de linguagem a fornecer respostas melhores passando por uma sequência de etapas de raciocínio.

Indução do mínimo ao máximo possibilita raciocínio complexo em grandes modelos de linguagem de Denny Zhou, Nathanael Scharli, Le Hou et al. (2022) [Artigo]

Tempo estimado: 20 min

A técnica de indução do mínimo ao máximo é outra técnica de indução. Comparada com a técnica de cadeia de pensamento, ela produz respostas melhores ao decompor mais explicitamente as tarefas em várias etapas. Isso poderia tornar as saídas resultantes potencialmente mais fáceis de supervisionar.


Tradução: Luan Marques

Link para o original

Deixe um comentário