Índice
Erro de Especificação da Recompensa e Convergência Instrumental
Modelos de linguagem muitas vezes “alucinam” fatos falsos realistas. Fazer ajuste fino neles usando o feedback humano torna isso menos comum, mas também torna as alucinações mais difíceis de distinguir da verdade.
Esta semana começa focando no erro da especificação da recompensa: o fenômeno em que as nossas técnicas-padrão para treinar modelos de aprendizado de máquina muitas vezes sem querer atribuem altas recompensas a comportamentos indesejáveis. O comportamento que explora o erro de especificação da recompensa para receber alta recompensa é conhecido como hackeamento da recompensa.
Esse tipo de falha de alinhamento ocorre devido a não capturarmos os nossos desejos exatos do comportamento exato do sistema resultante na função de recompensa ou na função de perda que usamos para treinar sistemas de aprendizado de máquina. Não resolver esse problema é uma importante fonte de perigo de sistemas avançados se forem construídos utilizando técnicas atuais, razão pela qual estamos dedicando uma semana a ele.
Começamos examinando alguns exemplos de brinquedo quando recompensas são introduzidas por meio de codificação rígida ou feedback humano. Daí, examinaremos duas técnicas que os engenheiros que trabalham com modelos fundamentais usam para superar o erro de especificação da recompensa em sistemas avançados: o Aprendizado por Reforço a partir do Feedback Humano (RLHF) e o Aprendizado por Reforço Inverso (IRL). Também examinaremos as limitações dessas técnicas. Observe que o RLHF recebe muito mais foco, e as duas leituras sobre IRL só devem ser feitas depois que você sentir que entendeu o resto do material desta semana.
O segundo tópico fundamental desta semana é a convergência instrumental: a ideia de que IAs que buscam uma gama de diferentes recompensas ou metas tendem a convergir para um conjunto de estratégias instrumentais. Em termos amplos, podemos resumir essas estratégias como visando ganhar poder sobre o mundo. A convergência instrumental fornece uma ponte entre os exemplos restritos de erro de especificação da recompensa que vemos hoje e a possibilidade de debilitação em larga escala causada pela IA; uma leitura de Paul Cristiano fornece uma ilustração de como isso pode ocorrer.
Até o fim desta sessão, você deve ser capaz de:
- Explicar como funções de recompensa ficam aquém de especificar as suas intenções:
- Entender o que é uma função de recompensa e por que ela é usada.
- Definir os termos “erro de especificação da recompensa” e “hackeamento da recompensa”.
- Examinar se o hackeamento da recompensa poderia ter um papel no fracasso catastrófico de sistemas avançados.
- Explicar o que é o RLHF e por que ele é proposto como um modo que ajudar a lidar como o erro de especificação da recompensa.
- Prever modos como o RLHF poderia levar a resultados indesejáveis, dado um ambiente e uma tarefa arbitrária.
- Entender o que é o IRL e por que ele é proposto como o modo que ajudar a lidar com o erro de especificação da recompensa.
- Explicar por que o IRL não é normalmente usado para aprender desejos humanos, em sistemas modernos.
- Listar as metas instrumentais propostas e avaliar em que medida isso parece um problema de erro de especificação da recompensa.
Recursos (cerca de 1 h 20 min)
Manipulação da especificação: o outro lado da engenhosidade da IA de Victoria Krakovna, Jonathan Uesato, Vladimir Mikulik et al. (2020) [Blog]
Tempo estimado: 10 min
Esta leitura demonstra que técnicas-padrão para treinar agentes de aprendizado por reforço muitas vezes levam a um mau comportamento devido à dificuldade de projetar funções de recompensa que especifiquem corretamente o comportamento desejável.
Krakovna et al. exibem exemplos de agentes que exploram recompensas mal especificadas em ambientes simples (comportamento que é conhecido como hackeamento da recompensa). Tente ter um entendimento intuitivo deste artigo sobre por que o hackeamento da recompensa é difícil de prevenir.
Observe que a “manipulação da especificação”, conforme chamada no artigo, é um termo geral que inclui o hackeamento da recompensa por agentes de aprendizado por reforço assim como comportamentos análogos de agentes de outros tipos.
Aprendendo com preferência humanas de Paul Christiano, Alex Ray e Dario Amodei (2017) [Blog]
Tempo estimado: 5 min
Esta leitura introduz a ideia de Aprendizado por Reforço a Partir do Feedback Humano (Reinforcement Learning from Human Feedback (RLHF)). Certifique-se de entender a configuração de treinamento usada, visto que iremos nos referir novamente a ela nas semanas futuras. Observe que o RLHF foi mencionado brevemente no recurso anterior, mas este explica a configuração com mais detalhes.
Christiano et al. usa o RLHF para treinar agentes para fazer tarefas difíceis de especificar usando funções de recompensa inseridas com codificação rígida. No entanto, a última parte do artigo demonstra que este método pode ainda levar a problemas de erro de especificação da recompensa.
Aprendendo a resumir com feedback humano de Jeffrey Wu, Nisan Stiennon, Daniel Ziegler et al. (2020) [Blog]
Tempo estimado: 20 min
Stiennon et al. fizeram ajuste fino num modelo de linguagem usando um modelo de recompensa com técnicas de RLHF. O ajuste fino o torna melhor em resumir livros, uma tarefa difícil de especificar.
Esta leitura combinará o seu entendimento sobre o que significa ajustar modelos de linguagem fundamentais com RLHF. Além disso, explore como otimizar demais o modelo de recompensa que eles treinam pode levar ao mau comportamento do sistema como um todo, a partir da seção “Otimizando o modelo de recompensa”.
O problema do alinhamento de uma perspectiva do aprendizado de máquina de Richard Ngo, Soeren Mindermann e Lawrence Chan (2022) [Artigo]
Tempo estimado: 10 min
Leia a seção 2: Hackeamento da recompensa com consciência situacional.
Como um lembrete, “hackeamento da recompensa” acontece quando um modelo explora um erro de especificação da recompensa para atingir uma alta recompensa enquanto não otimiza para o objetivo inicial que tentamos comunicar.
Esta leitura argumenta que o hackeamento da recompensa se tornará muito mais difícil de detectar quanto as IAs tiverem consciência situacional: a capacidade de aplicar conhecimento abstrato ao contexto específico no qual elas são executadas.
A consciência situacional pode capacitar o hackeamento da recompensa enganoso, no qual um sistema faz hackeamento da recompensa raciocinando sobre como enganar os humanos que estão fornecendo feedback.
Diretivas ótimas tendem a buscar poder de Alex Turner, Logan Smith, Rohin Shah et al. (2021) [Artigo]
Tempo estimado: 15 min
Este recurso examina uma hipótese para outra maneira como sistemas de aprendizado de máquina poderiam maximizar a recompensa de modos inesperados: buscando poder. Em outras palavras, sistemas poderiam desenvolver “metas instrumentais” como recursos, autopreservação e autoaperfeiçoamento.
No entanto, observe que os algoritmos de aprendizado por reforço não necessariamente treinam sistemas que maximizam a recompensa. A estrutura da maximização da recompensa é gotejante em geral, embora possa às vezes ser útil como heurística. Para outra perspectiva sobre o aprendizado por reforço, veja Recompensa não é o alvo da otimização.
Turner et al. dão conteúdo aos argumentos de Bostrom (2014, veja abaixo) formalizando a noção de busca de poder no contexto do aprendizado por reforço e provando que muitos agentes convergem à busca de poder. (Veja também o post e o artigo correspondentes.)
Leitores menos técnicos podem achar este capítulo de “Superintelligence” de Bostrom uma introdução útil aos mesmo conceitos.
Como é o fracasso de Paul Christiano (2019) [Blog]
Tempo estimado: 10 min
Leia somente a parte I.
Christiano descreve um mundo que “sai com um suspiro” devido ao problema do erro de especificação da recompensa.
O argumento central na parte I é que, tentando especificar os objetivos da humanidade, temos exatamente o que pedimos e não o que desejaríamos. O argumento da parte I se relaciona intimamente com a lei de Goodheart, que pode auxiliar o seu entendimento do argumento que está sendo feito.
Exemplo de aprendizado por reforço inverso da Udacity (2016) [Vídeo]
Tempo estimado: 5 min
Este é um vídeo bem rápido que explica como o IRL funciona. Tente focar nos modos como ele é diferente do RLHF. Em específico, ele infere as preferências humanas a partir do nosso comportamento, não consultando diretamente as nossas preferências.
Para detalhes mais técnicos sobre como o IRL é implementado, leia opcionalmente a primeira parte deste artigo.
O problema fácil da inferência de metas ainda é difícil de Paul Christiano (2018) [Blog]
Tempo estimado: 5 min
Christiano defende que o IRL não é uma solução perfeita para o “problema da inferência de metas”. Ele declara que, para inferir preferências, é necessário entender como os humanos são enviesados e falhos, o que parece muito difícil de fazer somente a partir das observações.
Tradução: Luan Marques
Link para o original.