De Jacob Steinhardt. 4 de janeiro de 2022
O aprendizado de máquina está afetando cada vez mais muitos aspectos da nossa sociedade e o seu efeito só continuará a crescer. Diante disso, eu e muitos outros nos preocupamos com os riscos de futuros sistemas de aprendizado de máquina e como mitigá-los.
Ao pensar sobre os riscos de segurança decorrentes do aprendizado de máquina, existem duas abordagens comuns, que chamarei de abordagem da Engenharia e abordagem da Filosofia:
- A abordagem da Engenharia tende a ser empiricamente orientada, extraindo experiência de sistemas de aprendizado de máquina atuais ou passados e analisando questões que: (1) já são problemas importantes ou (2) são problemas menores, mas podem piorar no futuro. A engenharia tende a ser de baixo para cima e a estar em contato com atuais sistemas de última geração e ancorada neles.
- A abordagem da Filosofia tende a pensar mais sobre o limite de sistemas muito avançados. Ela está disposta a realizar experimentos mentais que seriam implausíveis com os atuais sistemas de última geração (como o maximizador de clipes de papel de Nick Bostrom ) e está aberta a considerar abstrações sem conhecer muitos detalhes. Muitas vezes parece mais “ficção científica” e filosofia do que ciência da computação. Ela se inspira nos sistemas atuais de aprendizado de máquina, mas muitas vezes apenas em linhas gerais.
Discutirei essas abordagens principalmente no contexto da segurança do aprendizado de máquina, mas a mesma distinção se aplica a outras áreas. Por exemplo, uma abordagem da Engenharia à IA + Direito poderia focar na forma de regulamentar os carros autônomos, enquanto a Filosofia poderia perguntar se a utilização da IA na tomada de decisões judiciais poderia comprometer a democracia liberal .
Embora a Engenharia e a Filosofia concordem em algumas coisas, na maioria das vezes elas fazem previsões totalmente diferentes sobre quais serão os principais riscos de segurança do aprendizado de máquina e como devemos enfrentá-los:
- Tanto a Engenharia como a Filosofia concordariam em alguns pontos de alto nível: concordariam que objetivos desalinhados são um problema importante nos sistemas de aprendizado de máquina que ele provavelmente piorará. A Engenharia acredita nisso por causa de exemplos como o sistema de recomendação do Facebook, enquanto a Filosofia acredita nisso com base em argumentos conceituais como os de Superinteligência. A filosofia está mais confiante de que objetivos desalinhados são um grande problema e pensa que podem impor uma ameaça existencial para a humanidade se não lidarmos com eles.
- A Engenharia e a Filosofia concordariam que uma resiliência fora da distribuição é uma questão importante. No entanto, a Filosofia pode ver a maioria dos problemas de resiliência de engenharia (como os enfrentados pelos carros autônomos) como questões temporárias que serão corrigidas assim que treinarmos com mais dados. A Filosofia se preocupa mais em saber se os sistemas podem generalizar a partir de ambientes onde os humanos podem fornecer dados para ambientes onde não podem fornecer dados, mesmo em princípio.
- A Engenharia tende a focar em tarefas nas quais os sistemas atuais de aprendizado de máquina não funcionam bem, ponderadas pelo seu impacto e representatividade. A Filosofia foca em tarefas que possuem certa propriedade abstrata que parece importante, como o engano imitativo.
Na minha experiência, as pessoas que subscrevem fortemente a visão de mundo da Engenharia tendem a pensar na Filosofia como fundamentalmente confusa e infundada, enquanto aqueles que subscrevem fortemente a Filosofia pensam que a maior parte do trabalho de Engenharia é equivocada e ortogonal (na melhor das hipóteses) à segurança do aprendizado de máquina a longo prazo. Dado esse nítido contraste e a importância do problema, pensei muito sobre qual é a abordagem “correta”, se alguma for.
De início, eu estava principalmente do lado da Engenharia, embora tivesse mais simpatia pela Filosofia do que o pesquisador mediano de aprendizado de máquina (que tem cerca de 0% de simpatia pela Filosofia). No entanto, agora sinto que:
- A filosofia é significativamente subestimada pela maioria dos pesquisadores de aprendizado de máquina .
- A visão de mundo da Engenharia, levada a sério, na verdade implica atribuir um peso significativo aos experimentos mentais.
Por outro lado, também sinto que:
- A filosofia continua a subestimar significativamente o valor dos dados empíricos.
- Nenhuma dessas abordagens é satisfatória e, na verdade, não temos uma abordagem unicamente boa para pensar sobre os riscos de futuros sistemas de aprendizado de máquina.
Cheguei a essas conclusões combinando reflexão, discussão com outras pessoas e observação de desenvolvimentos empíricos em aprendizado de máquina desde 2011 (quando entrei na área). Resumi meus pensamentos numa série de posts, nos quais argumentarei que:
- Os futuros sistemas de aprendizado de máquina serão qualitativamente diferentes daqueles que vemos hoje. Na verdade, os sistemas de aprendizado de máquina têm apresentado historicamente mudanças qualitativas como resultado do aumento da sua escala. Esse é um exemplo de “Mais É Diferente”, que é comum em outros campos, como a física, a biologia e a economia (veja Apêndice: Mais É Diferente em outros domínios). Consequentemente, devemos esperar que o aprendizado de máquina apresente mais mudanças qualitativas à medida que aumenta no futuro.
- A maioria das discussões sobre falhas do aprendizado de máquina está ancorada em sistemas existentes ou em humanos. Os experimentos mentais fornecem uma terceira âncora, e ter três âncoras é muito melhor do que ter duas, mas cada uma tem seus próprios pontos fracos.
- Se levarmos a sério os experimentos mentais, acabaremos prevendo que os sistemas de aprendizado de máquina terão modos de falha estranhos. Alguns modos de falha importantes dos sistemas de aprendizado de máquina não estarão presentes em nenhum sistema existente e podem se manifestar com rapidez suficiente para que não possamos esperar com segurança que eles ocorram antes de os resolvermos.
- Minha maior discordância com a visão da Filosofia é que penso que as descobertas empíricas se generalizam para surpreendentemente longe, o que significa que experimentos bem escolhidos em sistemas atuais podem nos dizer muito sobre sistemas futuros.
Este post é a introdução da série. Postarei a próxima parte toda terça-feira e atualizarei esta página com links assim que o post estiver publicado. Enquanto isso, deixe comentários com suas opiniões ou entre em contato comigo se quiser visualizar os próximos posts e deixar comentários.
Tradução: Luan Marques
Link para o original