Experimentos Mentais Fornecem uma Terceira Âncora

De Jacob Steinhardt

Anteriormente, argumentei que deveríamos esperar que os futuros sistemas de aprendizado de máquina (machine learning, ML) exibissem frequentemente um comportamento “emergente”, no qual adquirissem novas capacidades que não foram explicitamente projetadas ou pretendidas, simplesmente como resultado da amplificação. Esse era um caso especial de um fenômeno geral nas ciências físicas chamado Mais É Diferente.

Preocupo-me com isso porque penso que a IA terá um enorme impacto na sociedade e quero prever como serão os sistemas futuros para que possa orientar as coisas para melhorarem. Para essa finalidade, considero o Mais É Diferente perturbador e desorientador. Estou inclinado a prever o futuro olhando para as tendências existentes e perguntando o que acontecerá se elas continuarem, mas deveríamos esperar que surjam constantemente novos comportamentos qualitativos que não sejam uma extrapolação de tendências anteriores.

Diante disso, como podemos prever como serão os sistemas futuros? Para isso, acho útil pensar em termos de “âncoras”: classes de referência que são amplamente análogas aos futuros sistemas de ML, que podemos então usar para fazer previsões.

A classe de referência mais óbvia para sistemas de ML futuros são os sistemas de ML atuais – chamarei isso de âncora do aprendizado de máquina atual. Penso que esse é realmente um bom ponto de partida, mas já vimos que não leva em conta as capacidades emergentes.

Que outras âncoras podemos usar? Uma abordagem intuitiva seria procurar coisas nas quais os humanos são bons, mas nas quais os sistemas atuais de ML são ruins. Isso incluiria:

  • Maestria de ferramentas externas (p. ex. calculadoras, motores de busca, software, programação)
  • Aprendizado muito eficiente (p. ex., ler um livro uma vez para aprender um novo assunto)
  • Planejamento de longo prazo (p. ex., ser capaz de atingir metas com sucesso ao longo de meses)

Modelos suficientemente distantes no futuro provavelmente terão esse tipo de capacidade. Embora isso ainda deixe incógnitas – por exemplo, não sabemos com que rapidez essas capacidades aparecerão –, ainda é um complemento útil para a âncora do aprendizado de máquina atual. Chamarei isso de âncora humana .

Um problema com a âncora humana é que ela corre o risco de antropomorfizar o ML ao fazer analogias excessivas com o comportamento humano. O raciocínio antropomórfico tem uma má reputação no ML, porque é muito intuitivamente persuasivo, mas tem um histórico misto, na melhor das hipóteses. Isso não é razão para abandonar a âncora humana, mas significa que não devemos ficar totalmente satisfeitos com ela.

Isso nos leva a uma terceira âncora, a âncora de otimização, que associo à “Filosofia” ou à abordagem do experimento mental que descrevi anteriormente. Aqui a ideia é pensar nos sistemas de ML como otimizadores ideais e perguntar o que um otimizador perfeito faria num determinado cenário. É daí que vem a pitoresca descrição de Nick Bostrom de um maximizador de clipes de papel, na qual uma IA solicitada a fazer clipes de papel transforma o planeta inteiro em fábricas de clipes de papel. Para dar alguns exemplos mais prosaicos:

  • A âncora da otimização preveria corretamente o engano imitativo (Lin et al., 2021), uma vez que um sistema otimizado para produzir resultados de alta probabilidade não tem razão intrínseca para ser veraz.
  • Também observaria que a busca de poder é instrumentalmente útil para muitos objetivos diferentes e, portanto, preveria que diretrizes ótimas (bem como redes neurais suficientemente poderosas) tenderão a fazê-lo (Turner et al., 2021).

As ideias produzidas pela âncora da otimização são frequentemente recebidas com ceticismo, porque muitas vezes contradizem a conhecida âncora do aprendizado de máquina atual e não se beneficiam do apelo intuitivo da âncora humana. Mas as diferenças com relação a essas outras duas âncoras são exatamente o que tornam a âncora da otimização valiosa. Se você (como eu) acha que tanto a âncora do aprendizado de máquina atual quanto a âncora humana pintam um quadro incompleto, então deve querer uma terceira perspectiva independente.

A âncora da otimização tem limitações. Uma vez que abstrai o ML num otimizador ideal, ela ignora a maioria dos fatos práticos sobre redes neurais. Isso pode levar a previsões pouco restritas e a ignorar propriedades que considero necessárias para alinhar com sucesso os sistemas de ML com os humanos. Direi mais sobre isso mais tarde, mas algumas propriedades particularmente importantes são que as redes neurais geralmente generalizam de maneira “natural”, que podemos fazer uma introspecção nas representações da rede e que a dinâmica de treinamento é fluida e contínua. Os pesquisadores focados na âncora da otimização não ignoram totalmente esses fatos, mas acho que tendem a subenfatizá-los e, como resultado, são excessivamente pessimistas.

O valor dos experimentos mentais

A âncora da otimização aponta para o valor dos experimentos mentais de forma mais geral. Embora apresente o experimento mental de “E se a IA fosse um otimizador perfeito?”, existem muitos outros experimentos mentais que podem fornecer insights que seriam difíceis de obter das âncoras humana ou do aprendizado de máquina. Nesse sentido, os experimentos mentais não são uma única âncora, mas um gerador de âncoras, o que parece bastante valioso.

Um experimento mental de que gosto particularmente é: o que acontece se a maior parte do aprendizado de um agente ocorrer não durante a descida do gradiente, mas por meio do aprendizado no contexto?1 É provável que isso acabe acontecendo, à medida que os agentes de ML forem implementados em horizontes de tempo mais longos (pense em assistentes digitais artificiais) e à medida que o ML melhorar o aprendizado no contexto. Quando isso acontecer, parece possível que o comportamento dos agentes seja controlado menos pela formação “extrínseca” da descida do gradiente e mais por quaisquer impulsos “intrínsecos” que eles tenham.2 Isso também parece ser uma mudança que pode acontecer repentinamente, uma vez que a descida do gradiente é lenta, enquanto o aprendizado no contexto é rápido.

Seria ótimo se tivéssemos uma comunidade de investigadores fazendo experimentos mentais com pressupostos claramente definidos, explicando em detalhe as consequências desses pressupostos e, idealmente, ligando-os à investigação atual.

Outras âncoras

Existem muitas outras âncoras que podem ser úteis para prever sistemas futuros de ML. O comportamento animal não humano poderia fornecer uma classe de referência mais ampla do que apenas os humanos. A evolução e a economia são exemplos de processos de otimização distribuídos e poderosos. Fico muito entusiasmado com a compreensão melhor dos sistemas complexos, que incluem sistemas biológicos, cérebros, organizações, economias e ecossistemas e, portanto, englobam a maioria das classes de referência discutidas até agora. Parece-me que os sistemas complexos têm recebido pouca atenção com relação à sua pertinência ao ML. Na verdade, a emergência é em si um conceito da teoria dos sistemas complexos que é útil para a compreensão dos acontecimentos recentes no ML.

Limitações dos experimentos mentais

Até agora me concentrei em prever problemas que precisamos resolver. Mas em algum momento teremos que resolver os problemas. Com respeito a isso, os experimentos mentais são mais fracos, uma vez que, embora apontem frequentemente para questões importantes e gerais, na minha opinião, não se saem bem na obtenção dos detalhes corretos, o que é necessário para o progresso da engenharia. Por exemplo, os primeiros experimentos mentais consideraram um único sistema de IA que era muito mais poderoso do que qualquer outra tecnologia contemporânea, embora na realidade provavelmente existirão muitos sistemas de ML com uma distribuição contínua de capacidades. Experimentos mentais mais recentes impõem abstrações discretas como “metas” e “objetivos” que não creio que serão mapeadas de forma clara em sistemas reais de ML. Assim, embora os experimentos mentais possam apontar para ideias gerais de pesquisa, até mesmo mapear essas ideias na ontologia dos sistemas de ML pode ser uma tarefa difícil.

Como resultado, embora não possamos extrapolar cegamente as tendências empíricas, precisamos de uma combinação de esforços empiricamente embasada para abordar os riscos futuros de ML. Explicarei por que acho que isso é possível numa postagem posterior, mas primeiro mostrarei um exemplo de “levar a sério um experimento mental” e o que isso implica sobre possíveis modos de falha de sistemas de ML.

Notas

1. Aprendizado no contexto refere-se ao aprendizado que ocorre durante um único “lançamento” de um modelo. O exemplo mais famoso é a capacidade do GPT-3 de aprender novas tarefas após se condicionar a um pequeno número de exemplos.

2. Embora essa afirmação beire a antropomorfização, penso que é realmente justificada. Por exemplo, dependendo do objetivo do treinamento, muitos agentes provavelmente terão um “impulso” de recolher informações, entre outros.


Tradução: Luan Marques

Link para o original

Deixe um comentário