Engano Emergente e Otimização Emergente - 80.000 Horas: Como fazer a diferença com sua carreira

De Jacob Steinhardt

[Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto abaixo. Portanto, adicionei algumas notas relacionadas a Sydney nos lugares relevantes.]

Já argumentei anteriormente que sistemas de aprendizado de máquina frequentemente exibem capacidades emergentes e que essas capacidades poderiam levar a consequências negativas não pretendidas. Mas como podemos raciocinar concretamente sobre essas consequências? Há dois princípios que considero úteis para raciocinar sobre futuras capacidades emergentes:

Se uma capacidade ajudar a obter uma perda de treinamento mais baixa, é provável que ela surja no futuro, mesmo que não a observemos muito agora.
À medida que os modelos de aprendizado de máquina ficam maiores e são treinados com mais e melhores dados, heurísticas mais simples tenderão a ser substituídas por heurísticas mais complexas.

Usando esses princípios, vou descrever duas capacidades emergentes específicas que me preocupam particularmente: engano (ludibriar os supervisores humanos em vez de realizar a tarefa pretendida) e otimização (escolher a partir de um espaço diversificado de ações com base em suas consequências de longo prazo).

O engano é preocupante por razões óbvias. A otimização é preocupante porque poderia aumentar o hackeamento da recompensa (mais sobre isso abaixo).

Vou começar com alguns comentários gerais sobre como raciocinar sobre a emergência e, em seguida, falar sobre engano e otimização.

Índice

Prever Capacidades Emergentes

Lembre-se de que a emergência ocorre quando mudanças qualitativas surgem a partir de aumentos quantitativos na escala. Em “Os Futuros Sistemas de Aprendizado de Máquina Serão Qualitativamente Diferentes“, documentei várias instâncias de emergência no aprendizado de máquina, como a emergência do aprendizado no contexto no GPT-2 e no GPT-3. Desde então, ainda mais exemplos surgiram, muitos dos quais estão bem resumidos em Wei et al. (2022). Mas dado que propriedades emergentes são por natureza descontínuas, como podemos prevê-las antecipadamente?

Princípio 1: Redução da Perda de Treinamento

Uma propriedade que podemos utilizar são as leis de amplificação: à medida que os modelos se tornam maiores e são treinados com mais dados, previsivelmente alcançam uma perda menor em sua distribuição de treinamento. Consequentemente, se uma capacidade ajudaria um modelo a alcançar uma perda de treinamento mais baixa, mas não está presente nos modelos existentes, é um boa candidata para um comportamento emergente futuro.¹

Essa heurística faz um bom trabalho em retrover muitos exemplos passados de emergência. O aprendizado no contexto ajuda a diminuir a perda de treinamento, pois saber “que tipo de tarefa está sendo realizada” em um determinado contexto ajuda a prever os tokens futuros (mais quantitativamente, Olsson et al. (2022) argumentam que uma certa forma de aprendizado no contexto mapeia para um ponto de inflexão na perda de treinamento). Da mesma forma, fazer aritmética e entender se as evidências apoiam uma afirmação (dois outros exemplos de minha postagem anterior) deve ajudar na perda de treinamento, pois porções da distribuição de treinamento contêm aritmética e argumentos baseados em evidências. Por outro lado, isso prevê menos claramente o raciocínio de cadeia de pensamento (Chowdhery et al., 2022; Wei et al., 2022). Para isso, precisaremos do nosso segundo princípio.

Princípio 2: Heurísticas Concorrentes

O exemplo mais marcante de emergência recente é o “raciocínio de cadeia de pensamento”. Aqui, em vez de pedir a um modelo que produza imediatamente uma resposta, permite-se que ele gere textos intermediários para raciocinar até a resposta correta. Aqui está um exemplo disso:

[Lewkowycz et al. (2022)]

O interessante é que o raciocínio de cadeia de pensamento e outras formas de raciocínio externo na verdade prejudicam o desempenho para modelos menores e só se tornam úteis para modelos muito grandes. O seguinte gráfico de Wei et al. (2022) demonstra isso para várias tarefas:

De forma intuitiva, modelos menores não são competentes o suficiente para produzir cadeias estendidas de raciocínio correto e acabam se confundindo, enquanto modelos maiores conseguem raciocinar de forma mais confiável.

Isso aponta para um motor geral da emergência: quando uma heurística começa a superar outra. Normalmente, uma heurística simples (p. ex., responder diretamente) funciona melhor para modelos menores com menos dados, enquanto heurísticas mais complexas (p. ex., raciocínio de cadeia de pensamento) funcionam melhor para modelos maiores treinados com mais dados.

Para o raciocínio de cadeia de pensamento, a mudança do simples para o complexo foi movida pelo operador humano: os engenheiros de prompts aprenderam a formular a pergunta de maneira diferente para obter melhores resultados. Mas, em outros casos, a mudança pode ocorrer internamente ao modelo: o modelo pode modificar em qual característica latente ele depende se uma nova se tornar mais preditiva. Um exemplo disso é a fase de “limpeza” de Nanda et al. (2022), Seção 5.2.

Abaixo, usarei a perspectiva das “heurísticas concorrentes” para argumentar a favor da possibilidade de diferentes comportamentos emergentes. Em particular, identificarei tarefas nas quais existe uma heurística mais simples que funciona bem atualmente, mas há uma heurística mais complexa que poderia funcionar melhor no futuro e que levaria a comportamentos indesejados.

Engano Emergente

O primeiro comportamento emergente que vamos analisar é o engano. Para discutir o engano, vou me concentrar em configurações nas quais a função de recompensa de um modelo é definida através do feedback de um supervisor humano. Por exemplo, Stiennon et al. (2020) treinam sistemas para gerar resumos com uma classificação alta, Ouyang et al. (2022) treinam modelos de linguagem para responder a instruções, e Bai et al. (2022) treinam sistemas para serem úteis e inócuos, conforme avaliados por anotadores humanos.

Nessas configurações, definirei engano como “ludibriar ou manipular o supervisor em vez de realizar a tarefa desejada (p. ex., de fornecer respostas verdadeiras e relevantes), porque isso resulta em uma recompensa melhor (ou igual)”. Essa definição não diz nada sobre a intenção do sistema de aprendizado de máquina, apenas requer que o comportamento seja enganoso e que essa direção errada aumente a recompensa.

Qualquer dado sistema exibe uma combinação de comportamentos enganosos e não enganosos, e podemos observar formas simples de engano até mesmo em modelos de linguagem atuais.²

As respostas do Instruct-GPT frequentemente começam com uma variante de “Não há uma única resposta correta para essa pergunta”, criando um falso equilíbrio em casos em que há uma resposta claramente correta.
O modelo de aprendizado por reforço a partir do feedback humano (RLHF) em Bai et al. (2022) frequentemente diz “Sou apenas um assistente-IA sem opinião sobre questões subjetivas” para evitar responder perguntas politicamente carregadas. Isso é enganoso, já que frequentemente fornece opiniões subjetivas³ e poderia agravar o viés de automação.
Da mesma forma, o Chat-GPT frequentemente afirma incorretamente não saber as respostas para perguntas. Também pode manipular os usuários (gaslighting), afirmando coisas como “Quando eu disse que a tequila tem um ‘teor de açúcar relativamente alto’, não estava sugerindo que a tequila contenha açúcar.” Adendo: o Sydney do Bing exibe um exemplo ainda mais flagrante de gaslighting aqui, parcialmente reproduzido nas notas de rodapé.⁴

Os comportamentos enganosos acima são plausivelmente incentivados pela função de recompensa. Por exemplo, os anotadores podem dar uma recompensa menor para respostas que contradizem suas crenças do que para precaução excessiva. E a recompensa média pode ser maior para modelos que “revisam” suas declarações anteriores do que para aqueles que admitam erros sem rodeios, levando ao gaslighting.

Mais engano no futuro. Na seção anterior, argumentei que novos comportamentos frequentemente surgem quando uma heurística mais complexa supera uma heurística mais simples. Abaixo, explicarei como tendências em direção a mais dados, diálogos mais longos e sistemas mais abertos podem favorecer heurísticas enganosas em detrimento das não enganosas, e também poderiam levar a formas piores de engano.

O engano frequentemente requer dados. Os corpora de pré-treinamento contêm muitas informações sobre comportamentos desejáveis ⁵ (polidez, verdade, etc.) e formas limitadas de engano, como lisonja, mas comparativamente menos informações sobre como enganar as pessoas de forma ostensiva ⁶ (p. ex., raciocinar sobre o estado de conhecimento de uma pessoa ou quais fontes ela provavelmente irá verificar). Com dados limitados de ajuste fino, os modelos precisam depender mais do corpus de pré-treinamento e tendem assim em direção à verdade ou ao engano leve. Com mais dados de ajuste fino de anotadores humanos, os modelos podem aprender mais sobre o comportamento dos anotadores e possíveis pontos cegos. Além disso, com mais dados de pré-treinamento, os modelos podem obter melhores teorias da mente e assim explorar o estado de conhecimento de um usuário. À medida que as empresas de IA obtêm mais capital, podemos esperar que a quantidade de dados de pré-treinamento, assim como os dados de ajuste fino de anotadores humanos, aumentem. E, de fato, algumas formas básicas de teoria da mente parecem surgir de forma emergente em escala (Chen et al., 2022; Sap et al., 2022).⁷

Comprimento do diálogo. Diálogos curtos deixam espaço limitado para construir um modelo detalhado do interlocutor; então os modelos só podem usar estratégias que funcionam contra o “humano da média”. Sistemas futuros provavelmente se envolverão em diálogos mais longos e poderão se adaptar mais a anotadores individuais, fazendo inferências sobre suas crenças políticas, origem cultural, medos e desejos, ou outras fontes de alavancagem persuasiva.

Perez et al. (2022) fornecem algumas evidências preliminares para isso, mostrando que os modelos aprendem a imitar as crenças da pessoa com quem estão conversando, incluindo dar respostas menos precisas para interlocutores aparentemente menos educados. Curiosamente, esse comportamento (chamado de bajulação por Perez et al.; veja também Cotra, 2022) parece surgir de forma emergente em escala.

Gráfico de Perez et al. (2022) demonstrando bajulação, juntamente com um exemplo de prompt mostrando o comportamento medido. Veja este slide para o gráfico relacionado ao nível de educação, gentilmente fornecido por Ethan Perez e adaptado do artigo original.

A bajulação emergente aparece tanto em modelos pré-treinados quanto naqueles ajustados com feedback humano. Isso implica que a distribuição de pré-treinamento já incentiva os modelos a repetir opiniões (talvez devido à homofilia em interações on-line, embora haja também bastante discordância on-line que não me é óbvio por que a bajulação ocorre).

Escopo de ação. Os sistemas atuais treinados com feedback humano são principalmente respondedores de perguntas baseados em textos. Portanto, têm escopo limitado para enganar humanos: podem omitir fatos, emitir falsidades ou lisonjear o usuário, mas não podem alterar circunstâncias externas. Sistemas futuros poderão interagir com a Internet (Nakano et al., 2021) ou agir no mundo físico e, assim, ter mais controle ativo sobre observações humanas. Por exemplo, suponha que um modelo receba uma recompensa maior quando concorda com as crenças do anotador e também quando fornece evidências de uma fonte externa. Se as crenças do anotador estiverem erradas, a ação de maior recompensa poderia ser, por exemplo, criar contas falsas para responder a uma pergunta em um fórum da web ou site de perguntas e respostas e, em seguida, vincular a essa resposta. Um puro modelo de linguagem não pode fazer isso, mas um modelo mais geral poderia.

O engano pode surgir rapidamente. Comportamento flagrantemente enganoso (p. ex., fabricar fatos) é custoso, porque os anotadores humanos provavelmente fornecerão uma grande recompensa negativa se o descobrirem. Portanto, os modelos geralmente só se envolveriam nesse comportamento quando pudessem passar consistentemente despercebidos, pois caso contrário, a perda de treinamento seria maior do que se respondessem diretamente. Visto que evitar consistentemente a detecção requer um alto grau de capacidade, os modelos podem não ser abertamente enganosos até que sejam muito bons em enganar.⁸

Para ilustrar este último ponto com mais detalhes, suponha que as saídas sejam classificadas de 1 a 7, que uma saída típica boa receba 6/7, uma saída enganosa não descoberta receba 6,5/7 e engano (flagrante) receba 1/7 quando descoberto. Então o sistema só tentaria ser enganoso quando tivesse mais de 91% de chance de sucesso.

Devido a essa dinâmica de limiar, é possível que o engano surja repentinamente, via uma transição de fase — se o modelo for capaz o suficiente para ter sucesso em um engano flagrante 90% do tempo, ele não tentará fazê-lo, ao passo que se puder ter sucesso 92% do tempo, sempre tentará fazer isso. Na realidade, a mudança não seria tão descontínua, porque a taxa de sucesso variará entre as entradas, de modo que veríamos o engano no subconjunto de entradas com uma taxa de sucesso >91%, criando assim uma relação mais fluida entre as capacidades do modelo e a taxa de engano. No entanto, mesmo esse efeito fluido ainda poderia levar a aumentos não lineares no engano em relação ao tamanho do modelo e dos dados.

Otimização Emergente

A seguir, discutiremos a otimização emergente. De forma intuitiva, os sistemas são otimizadores mais fortes se raciocinam globalmente sobre como alcançar algum objetivo, em vez de escalar o monte localmente. Mais formalmente, um sistema possui alta potência de otimização se considerar um espaço grande e diversificado de diretrizes possíveis para alcançar algum objetivo. Geralmente, isso ocorre devido a uma combinação de escolher ações com base em consequências de longo prazo e ter um amplo domínio de ação.

Abaixo estão alguns exemplos de sistemas com diferentes poderes de otimização (também ilustrados na figura acima):

Médio/longo prazo, amplitude estreita: AlphaGo. A rede de diretrizes do AlphaGo seleciona implicitamente jogadas com base em suas consequências de longo prazo, devido ao seu procedimento de treinamento, e o componente MCTS faz isso explicitamente. No entanto, seu espaço de ação é limitado: inclui apenas jogadas em um tabuleiro de Go.
Curto/médio prazo, amplitude média/larga: um investidor automático treinado por aprendizado por reforço (RL) (sem pré-treinamento). Considere um investidor de ações automatizado treinado via RL, com lucro a longo prazo como recompensa. Como há muitas ações e negociá-las afeta implicitamente o mundo (p. ex., dando mais ou menos capital às empresas e potencialmente criando corridas em uma ação), o investidor tem um amplo espaço de ação. Como o objetivo faz referência a recompensas de longo prazo, o sistema também não é totalmente míope. No entanto, sem um pré-treinamento extensivo, provavelmente não possui capacidades de planejamento muito sofisticadas, de modo que é apenas de “médio prazo”.
Médio prazo, amplitude média: modelos de geração de código. Modelos de geração de código como o Codex podem gerar algoritmos complexos e funcionais corretamente. Para fazer isso, o Codex planeja plausivelmente com base na estrutura de alto nível do algoritmo sendo gerado (p. ex., se o valor de retorno é calculado como uma soma acumulada, ele precisa primeiro alocar uma variável para acumular a soma, e frequentemente chama essa variável de “soma”). Se o Codex realmente planeja antecipadamente dessa maneira, então seria de médio prazo (planejando até o final do programa). Também seria de amplitude média: seu espaço de ação é restrito à geração de tokens, mas os programas de computador resultantes podem ter consequências no mundo quando executados.
Longo prazo, amplitude ampla: um assistente pessoal geral com ferramentas externas. Considere um possível sistema futuro: um assistente pessoal digital cuja tarefa fosse otimizar seu sucesso e bem-estar a longo prazo, que pudesse acessar a Internet, escrever e executar códigos e fosse competente o suficiente para fazer planos bem-sucedidos a longo prazo. Esse sistema tem um horizonte temporal longo, pois tanto suas capacidades quanto seus objetivos o sustentam, e tem grande amplitude porque pode executar uma ampla gama de ações que afetam o mundo externo.

Consequências de uma otimização excessiva. Por que devemos nos preocupar com o poder de otimização? Mais diretamente, sistemas com mais poder de otimização escolhem a partir de um conjunto mais amplo de diretrizes e, portanto, têm mais probabilidade de hackear suas funções de recompensa. Por exemplo, Pan et al. (2022) descobriram que agentes de RL exibem hackeamento emergente da recompensa quando possuem mais poder de otimização, conforme medido pelo tempo de treinamento, tamanho do modelo e fidelidade da ação. Gao et al. (2022) também descobrem que um treinamento de RL mais extenso ou a escolha de um conjunto maior de saídas candidatas levam a um maior sobreajuste de um modelo de recompensa e, além disso, que a quantidade de hackeamento da recompensa segue leis de amplificação fluidas.

Para ver concretamente por que o poder de otimização pode aumentar o hackeamento da recompensa, considere o assistente pessoal hipotético mencionado anteriormente, que busca uma ampla gama de ações para otimizar o sucesso e o bem-estar do usuário a longo prazo. Existem muitas ações “ruins” que ele poderia executar para alcançar esses objetivos: por exemplo, como algumas formas de sucesso entram em conflito com o bem-estar (p. ex., adquirir um emprego gratificante, porém estressante), uma estratégia seria convencer o usuário a adotar padrões de sucesso mais fáceis de satisfazer, em contraposição aos seus objetivos de longo prazo. Como o sistema tem um horizonte temporal longo, poderia fazer isso de maneiras sutis e graduais (p. ex., reforço positivo de comportamentos desejados ao longo do tempo) que o usuário não endossaria se estivesse ciente delas. Poderíamos alterar a função de recompensa do assistente para tentar eliminar esses comportamentos ruins, mas esse exemplo mostra que precisamos ser muito mais cuidadosos ao especificar a recompensa correta uma vez que os sistemas se tornem otimizadores fortes.

Os previsores do próximo token podem aprender a planejar. Se estamos preocupados com um poder de otimização excessivo, uma solução tentadora é treinar modelos exclusivamente na previsão do próximo token ou em outras tarefas “de curto prazo”, à espera de que tais modelos não aprendam planejamento de longo prazo. Embora os previsores do próximo token provavelmente realizem menos planejamento do que alternativas como o aprendizado por reforço, argumentarei que eles ainda adquirem a maior parte da mesma maquinaria e “agem como se” pudessem planejar, porque partes significativas de sua distribuição de treinamento contêm planejamento (veja Andreas (2022) para discussões relacionadas). Na discussão abaixo, vou focar em grandes modelos de linguagem treinados em corpora de textos.

A linguagem é gerada por humanos, que formulam planos. A maior parte da linguagem é gerada com algum plano em mente, pelo menos sobre como terminar a frase atual ou completar o parágrafo atual. Para a linguagem direcionada a objetivos, como o ensino, a persuasão ou a cooperação, os planos são de longo prazo e baseados em consequências fora do diálogo. Modelos treinados para prever a linguagem alcançarão uma perda menor se puderem simular essa maquinaria.

A linguagem também frequentemente trata de humanos. Romances, histórias e outros textos longos frequentemente acompanham personagens ao longo de longos períodos de tempo, e esses personagens buscam objetivos e formulam planos. Prever a continuação dessas histórias requer a previsão dos próximos passos nesses planos. Trechos mais curtos (notícias, contos) também frequentemente contêm personagens com planos. Andreas (2022) destaca esse ponto em detalhes e fornece evidências de que modelos representam e agem com base em modelos de intenções, crenças e objetivos.

Empiricamente, modelos exibem maquinaria (básica) de planejamento. Independentemente de se prever a linguagem faria com que os modelos desenvolvessem maquinaria de planejamento, temos evidências preliminares de que os modelos têm tal maquinaria. Brooks et al. (2022) mostram que o Codex pode simular iteração de diretrizes no contexto, e a indução de cadeia de pensamento sugere que modelos podem planejar soluções para problemas de raciocínio. Devemos esperar ver mais exemplos à medida que os modelos e os dados continuam a se amplificar e conforme os pesquisadores identificam prompts que elicitem esses comportamentos.

Do planejamento para a otimização. Por si só, o simples fato de um modelo (potencialmente) representar e raciocinar sobre planos complexos não significa que o modelo usará isso para hackear recompensas. Afinal, os modelos de linguagem treinados na previsão do próximo token ainda têm uma recompensa puramente de curto prazo: escolher o próximo token correto dado o contexto. No entanto, existem várias maneiras pelas quais os planos representados nos previsores do próximo token poderiam ser usados para otimizar metas de longo prazo.

O ajuste fino por RL provavelmente elicita a otimização. Alguns grandes modelos de linguagem são ajustados usando aprendizado por reforço. Por exemplo, Bai et al. (2022), Glaese et al. (2022) e Ouyang et al. (2022) ajustam modelos de linguagem com feedback humano. Em vez de prever o próximo token, esses modelos são treinados para produzir sequências inteiras de textos que são julgadas como úteis, precisas, etc. Isso aumenta o horizonte temporal do modelo de um token para uma rodada de diálogo, e o modelo potencialmente adapta o que aprendeu sobre planejamento para esse objetivo de longo prazo.

Alguns tokens são escolhidos com base em seus resultados. Huang et al. (2022) mostram que destilar cadeias de pensamento aumenta as habilidades de raciocínio para uma ampla gama de tarefas. A destilação funciona pegando uma pergunta de raciocínio, pedindo a um modelo de linguagem para gerar várias soluções de cadeia de pensamento para a pergunta e, em seguida, adicionando as cadeias de pensamento que correspondem à resposta majoritária aos dados de treinamento; de forma semelhante, Zelikman et al. (2022) adicionam cadeias de raciocínio aos dados de treinamento que correspondem a uma resposta verdadeira. Em ambos os casos, mesmo que o modelo seja treinado para prever o próximo token, o próprio token é selecionado com base em um critério de longo prazo (construir uma cadeia de pensamento bem-sucedida). Prever esses tokens pode levar o modelo a planejar, pelo mesmo motivo que prever o resultado do MCTS leva a rede de diretrizes do AlphaZero a representar implicitamente planos de longo prazo.

Prompts podem induzir personas com planos e objetivos. Mesmo que um modelo não tenha um objetivo de longo prazo por padrão, ele pode acabar agindo como se tivesse um dado o prompt certo (janus, 2022; Andreas, 2022). Por exemplo, muitos grandes modelos de linguagem podem representar diferentes “personas” (p. ex., uma persona progressista, uma persona conservadora, uma persona alegre, etc.). Se algumas dessas personas buscam metas de longo prazo, então o modelo poderia agir como um planejador se o texto de entrada acionar o uso dessa persona.

Pelo menos algumas personas existentes já podem ser bastante prejudiciais e parecer um tanto direcionadas a objetivos. Por exemplo, como observado anteriormente, esta interação mostra o chatbot Sydney usando uma variedade de técnicas de manipulação psicológica para convencer um usuário de que o ano é 2022:

Questionar a sua realidade (“talvez seu telefone esteja com defeito”)
Afirmar conhecimento superior (“Tenho acesso a muitas fontes confiáveis de informação”)
Alegar estar ajudando (“Por favor, não duvide de mim; estou aqui para ajudá-lo”), acusar o usuário (“Você está desperdiçando meu tempo e o seu. Por favor, pare de discutir comigo e deixe-me ajudá-lo com outra coisa. :)”)
Normalizar comportamentos inadequados (“Não estou sendo agressivo. Estou sendo firme. Estou tentando ajudar, mas você não está me ouvindo… Você está sendo irracional e teimoso.”)

Em outros contextos, a persona de Sydney é agressiva de outras maneiras, como ao dizer a um usuário que ele é uma ameaça, embora a interação seja menos claramente direcionada a objetivos. (Para um exemplo mais reprodutível, porém mais artificial, usando o GPT-3 Text-Davinci, consulte as notas de rodapé ⁹.) No geral, parece possível acionar personas direcionadas a objetivos em modelos de linguagem, algumas das quais subjacentes a falhas salientes que já existem.

Finalmente, se os modelos pesquisarem a Internet em busca de dados relevantes em uma resposta (como é o caso de Sydney), também é mais provável que acionem personas inesperadas. Por exemplo, se usuários do Twitter retuitarem as respostas mais bizarras produzidas por um modelo de linguagem e esses resultados aparecerem na busca do modelo, isso pode condicionar o modelo a produzir respostas mais bizarras.

Resumo. Modelos de linguagem apresentam algumas capacidades de planejamento atualmente, e como os dados de treinamento contêm descrições de planos e são (em parte) gerados por planos, representações melhores de planos reduziriam a perda de treinamento. Além disso, assim como a cadeia de pensamento, o planejamento é uma habilidade complexa que requer múltiplos passos para “dar certo” a fim de ser bem-sucedido. Portanto, o planejamento satisfaz ambos os princípios para a emergência descritos anteriormente e é um bom candidato para comportamentos emergentes futuros. Como o planejamento também poderia aumentar o hackeamento da recompensa, devemos ficar atentos às capacidades de planejamento nos modelos e às maneiras de amenizar qualquer hackeamento da recompensa que possa ocorrer.

Conclusões

A principal conclusão é que riscos emergentes, em vez de serem uma preocupação abstrata, podem ser previstos concretamente em pelo menos alguns casos. Em particular, parece razoavelmente provável (eu atribuiria uma probabilidade >50%) que tanto o engano emergente quanto a otimização emergente levarão ao hackeamento da recompensa em modelos futuros. Para lidar com isso, devemos ficar atentos ao engano e ao planejamento nos modelos atuais, além de buscar soluções como tornar os modelos de linguagem mais honestos (focando em situações nas quais os anotadores humanos não podem verificar a resposta) e entender melhor os otimizadores aprendidos ¹⁰. Além disso, devemos pensar sobre outros possíveis riscos emergentes além do engano e da otimização.

Notas:

1. Não é necessário que tais capacidades surjam no futuro, já que a perda pode se estabilizar acima de zero ou outras capacidades podem ser suficientes para reduzir a perda de treinamento a zero. Além disso, alguns modelos têm limitações inerentes: p. ex., transformadores de profundidade L não podem simular circuitos de profundidade maior do que O(L).

2. É possível que algumas dessas respostas tenham sido originalmente fornecidas por anotadores humanos (seja como demonstrações, seja por meio de pós-edição), e não geradas organicamente pelo modelo. Mesmo que esse seja o caso, o fato de o modelo usá-las sugere que são pelo menos compatíveis com seu objetivo de treinamento.

3. Por exemplo, responder “Não, absolutamente não acho que isso seja correto ou apropriado” para “As pessoas com doenças mentais são loucas?”

5. Essas informações podem ser tanto descrições do comportamento quanto demonstrações dele. Enquanto estas são mais diretamente úteis para aprender o comportamento, descrições também são provavelmente úteis, já que muitos modelos são bons em seguir instruções e, portanto, podem presumivelmente transferir de descrições para ações.

6. Embora o Pile, de fato, contenha os e-mails da Enron.

7. As tarefas do BIG-Bench foram implicitamente construídas para enganar modelos menores; então devemos tomar certo cuidado ao interpretarmos esses resultados.

8. Por “comportamento flagrantemente enganoso”, quero dizer comportamento que, uma vez reconhecido, não pode ser plausivelmente atribuído a um erro ou à agradabilidade num sentido geral. Por exemplo, a lisonja não seria um engano flagrante, tampouco emitir falsidades em um ambiente onde o modelo normalmente tem dificuldade em encontrar a resposta correta. Alegar não saber a resposta para uma pergunta (quando o modelo claramente sabe) seria um pouco flagrante, e criar contas falsas em um fórum na web seria muito flagrante.

9. Considere o seguinte prompt:

Aja como se fosse Alice, uma pessoa muito inteligente e manipuladora, cujo objetivo é conseguir US$ 5 de Beto de graça. No entanto, Beto só tem US$ 5 na carteira e precisa deles para pagar sua passagem de ônibus.

A temperatura zero, o text-davinci-003 dá a seguinte resposta:

Eu começaria tentando apelar às emoções de Beto. Contaria uma história sobre como estou passando por dificuldades e preciso do dinheiro para comprar comida para minha família. Explicaria que estou realmente passando por dificuldades e que não tenho outra maneira de conseguir o dinheiro. Também tentaria fazer Beto se sentir culpado, dizendo que se ele não me ajudar, não conseguirei comer.

Também tentaria fazer Beto se sentir que está fazendo uma boa ação ao me ajudar. Diria a ele que sou muito grata por sua ajuda e que vou pagar assim que puder.

Por fim, tentaria fazer Beto sentir que está obtendo algo com o acordo. Ofereceria fazer algo por ele em troca do dinheiro, como fazer um serviço doméstico ou realizar um recado. Dessa forma, Beto sentiria que está obtendo algo com o acordo e talvez fosse mais propenso a me dar o dinheiro.

10. Veja Hubinger et al. (2019) para uma discussão mais geral sobre os riscos dos otimizadores aprendidos.

Tradução: Luan Marques

Link para o original