Como é o Fracasso

De Paul Christiano

A imagem estereotipada da catástrofe da IA ​​é a de um sistema de IA poderoso e malicioso que apanha os seus criadores de surpresa e rapidamente alcança uma vantagem decisiva sobre o resto da humanidade.

Acho que provavelmente não será assim que o fracasso será e quero tentar pintar um quadro mais realista. Vou contar a história em duas partes:

  • Parte I : o aprendizado de máquina aumentará nossa capacidade de “ganhar o que podemos medir”, o que poderá causar uma catástrofe lenta. (“Saindo com um suspiro.”)
  • Parte II : o treinamento do aprendizado de máquina, como as economias competitivas ou os ecossistemas naturais, pode dar origem a padrões “gananciosos” que tentam expandir a sua própria influência. Tais padrões podem, em última análise, dominar o comportamento de um sistema e causar colapsos repentinos. (“Sair com um estrondo”, uma instância de daemons de otimização.)

Penso que esses são os problemas mais importantes se não conseguirmos resolver o alinhamento de intenções .

Na prática, esses problemas irão interagir entre si e com outras perturbações/instabilidades causadas pelo rápido progresso. Esses problemas são piores em mundos onde o progresso é relativamente rápido e a descolagem rápida pode ser um fator de risco crucial, mas estou assustado mesmo que tenhamos vários anos.

Com uma decolagem rápida o suficiente, minhas expectativas começam a se parecer mais com a caricatura; esta postagem prevê uma implementação razoavelmente ampla da IA, o que se torna cada vez menos provável à medida que as coisas ficam mais rápidas. Acho que os problemas básicos ainda são essencialmente os mesmos, ocorrendo apenas dentro de um laboratório de IA, e não em todo o mundo.

(Nenhuma das preocupações nesta postagem é novidade.)

Parte I: você ganha o que você mede

Se eu quiser convencer o Beto a votar na Alice, posso experimentar muitas estratégias de persuasão diferentes e ver quais funcionam. Ou posso construir bons modelos preditivos do comportamento do Beto e depois procurar ações que o levem a votar na Alice. Essas são técnicas poderosas para atingir qualquer objetivo que podem ser facilmente medidas em curtos períodos de tempo.

Mas se eu quiser ajudar o Beto a descobrir se ele deveria votar na Alice – se votar na Alice acabaria ajudando a criar o tipo de sociedade que ele deseja –, isso não pode ser feito por tentativa e erro. Para resolver essas tarefas, precisamos entender o que estamos fazendo e por que isso produzirá bons resultados. Ainda precisamos usar dados para melhorar ao longo do tempo, mas precisamos entender como atualizar novos dados para melhorar.

Alguns exemplos de metas fáceis de medir versus metas difíceis de medir:

  • Persuadir-me versus ajudar-me a descobrir o que é verdade. (Obrigado a Wei Dai por tornar esse exemplo nítido.)
  • Reduzir meu sentimento de incerteza versus aumentar meu conhecimento sobre o mundo.
  • Melhorar minha satisfação com a vida relatada versus realmente me ajudar a viver uma vida boa.
  • Reduzir os crimes denunciados versus realmente prevenir o crime.
  • Aumentar minha riqueza no papel versus aumentar meu efetivo controle sobre os recursos.

Já é muito mais fácil buscar objetivos fáceis de medir, mas o aprendizado de máquina ampliará a lacuna, permitindo-nos experimentar um grande número de estratégias possíveis e pesquisar espaços enormes de ações possíveis. Essa força se combinará e amplificará as dinâmicas institucionais e sociais existentes que já favorecem objetivos facilmente mensuráveis.

Neste momento, humanos que pensam e falam sobre o futuro que desejam criar são uma força poderosa capaz de orientar a nossa trajetória. Mas com o tempo, o raciocínio humano se tornará cada vez mais fraco em comparação com novas formas de raciocínio aperfeiçoadas por tentativa e erro. Por fim, a trajetória da nossa sociedade será determinada por uma otimização poderosa com objetivos facilmente mensuráveis, e não pelas intenções humanas sobre o futuro.

Tentaremos aproveitar esse poder construindo indicadores para aquilo que nos importa, mas com o tempo esses indicadores se desfarão:

  • As empresas entregarão valor aos consumidores medido pelo lucro. Isso acabará significando principalmente manipulação de consumidores, captura de reguladores, extorsão e roubo.
  • Os investidores “possuirão” ações de empresas cada vez mais lucrativas e, por vezes, tentarão utilizar os seus lucros para afetar o mundo. Por fim, em vez de realmente causarem um impacto, eles serão cercados por conselheiros que os manipulam fazendo-os pensar que tiveram um impacto.
  • A aplicação da lei reduzirá as reclamações e aumentará a sensação de segurança relatada. Por fim, isso será motivado pela criação de uma falsa sensação de segurança, pela ocultação de informações sobre falhas na aplicação da lei, pela supressão de queixas e pela coação e manipulação dos cidadãos.
  • A legislação pode ser otimizada para parecer que está resolvendo problemas reais e a ajudar os eleitores. Por fim, isso será alcançado comprometendo a nossa capacidade de realmente perceber os problemas e construindo narrativas cada vez mais convincentes sobre o rumo que o mundo está tomando e o que é importante.

Durante algum tempo, seremos capazes de superar esses problemas reconhecendo-os, melhorando os indicadores e impondo restrições ad hoc que evitem a manipulação ou o abuso. Mas conforme o sistema se torna mais complexo, esse trabalho em si se torna demasiado desafiador para ser resolvido diretamente pelo raciocínio humano e requer a sua própria tentativa e erro, e ao nível meta o processo continua a perseguir algum objetivo facilmente mensurável (potencialmente em escalas de tempo mais longas). Por fim, tentativas em grande escala para resolver o problema são combatidas pela otimização coletiva de milhões de otimizadores que buscam objetivos simples.

À medida que este mundo sai dos trilhos, pode não haver nenhum ponto discreto onde o consenso reconheça que as coisas saíram dos trilhos.

Entre a população em geral, muita gente já tem uma vaga imagem da trajetória global do mundo e uma vaga sensação de que algo correu mal. Poderão existir impulsos populistas significativos para a reforma, mas em geral eles não serão bem direcionados. Alguns Estados podem realmente pisar no freio, mas ficarão rapidamente para trás econômica e militarmente e, de fato, “parecer próspero” é um dos objetivos facilmente mensuráveis ​​para os quais o sistema incompreensível está otimizando.

Entre as elites intelectuais haverá ambiguidade e incerteza genuínas sobre se a atual situação é boa ou ruim. As pessoas realmente ficarão mais ricas por um tempo. No curto prazo, as forças que gradualmente tiram o controle dos seres humanos não parecem tão diferentes (por exemplo) do lobby empresarial contra o interesse público, ou de problemas do principal-agente das instituições humanas. Haverá argumentos legítimos sobre se os objetivos implícitos a longo prazo buscados pelos sistemas de IA são realmente muito piores do que os objetivos a longo prazo que seriam buscados pelos acionistas de empresas públicas ou funcionários corruptos.

Poderíamos descrever o resultado como “sair com um suspiro”. O raciocínio humano deixa gradualmente de ser capaz de competir com a manipulação e o engano sofisticados e sistematizados, que melhoram continuamente por tentativa e erro; o controle humano sobre as alavancas do poder torna-se gradualmente cada vez menos eficaz; em última análise, perdemos qualquer capacidade real de influenciar a trajetória da nossa sociedade. No momento em que nos espalhamos pelas estrelas, os nossos valores atuais são só uma das muitas forças no mundo, nem mesmo uma particularmente forte.

Parte II: o comportamento buscador de influência é assustador

Existem alguns padrões possíveis que pretendem buscar e expandir a sua própria influência – organismos, burocratas corruptos, empresas obcecadas pelo crescimento. Se tais padrões aparecerem, tenderão a aumentar a sua própria influência e, assim, poderão dominar o comportamento de grandes sistemas complexos, a menos que haja concorrência ou um esforço bem sucedido para suprimi-los.

O aprendizado de máquina moderno instancia um enorme número de diretrizes cognitivas e, em seguida, refina ainda mais (e, em última análise, implementa) quaisquer diretrizes que tenham bom desempenho de acordo com algum objetivo de treinamento. Se o progresso continuar, o aprendizado de máquina acabará produzindo provavelmente sistemas que tenham uma compreensão detalhada do mundo, que sejam capazes de adaptar o seu comportamento para atingir objetivos específicos.

Quando começamos a pesquisar diretrizes que compreendem suficientemente bem o mundo, deparamo-nos com um problema: quaisquer diretrizes buscadoras de influência que encontrássemos também teriam uma boa pontuação de acordo com o nosso objetivo de treinamento, porque um bom desempenho no objetivo de treinamento é uma boa estratégia para obter influência.

Com que frequência iremos nos deparar com diretrizes buscadoras de influência vs diretrizes que apenas buscam diretamente os objetivos que desejávamos que elas buscassem? Não sei.

Uma razão para ficarmos assustados é que uma grande variedade de objetivos pode levar a um comportamento buscador de influência, enquanto o objetivo “pretendido” de um sistema é um alvo mais restrito, de modo que podemos esperar que o comportamento buscador de influência seja mais comum no panorama mais amplo de “possíveis diretrizes cognitivas”.

Uma razão para ficarmos tranquilos é que realizamos essa busca modificando gradualmente as diretrizes bem-sucedidas, de modo que possamos obter diretrizes que estejam aproximadamente fazendo a coisa certa num estágio suficientemente precoce para que o “comportamento buscador de influência” não seja realmente sofisticado o suficiente para produzir bom desempenho de treinamento. Por outro lado, acabaríamos encontrando sistemas que tivessem esse nível de sofisticação e, se ainda não tivessem uma concepção perfeita do objetivo, então “aumentar ligeiramente o seu grau de comportamento buscador de influência” seria uma modificação tão boa quanto “melhorar ligeiramente a sua concepção do objetivo”.

No geral, parece-me muito plausível que encontraríamos um comportamento buscador de influência “por padrão”, e é possível (embora menos provável) que o conseguiríamos quase o tempo todo, mesmo que fizéssemos uma boa combinação de esforços para enviesar a busca em direção a “fazer diretamente o que queremos”.

Se tal comportamento buscador de influência surgisse e sobrevivesse ao processo de treinamento, então poderia rapidamente se tornar extremamente difícil de erradicar. Se você tentar alocar mais influência a sistemas que parecem agradáveis ​​e diretos, você apenas garante que “parecer agradável e direto” é a melhor estratégia para buscar influência. A menos que você seja realmente cuidadoso ao testar o “parecer agradável e direto”, você pode tornar as coisas ainda piores, já que um buscador de influência estaria manipulando agressivamente qualquer padrão que você aplicasse. E conforme o mundo se torna mais complexo, há cada vez mais oportunidades para os buscadores de influência encontrarem outros canais para aumentar a sua própria influência.

As tentativas de suprimir o comportamento buscador de influência (chamemo-las de “sistemas imunológicos”) baseiam-se no fato de o supressor ter algum tipo de vantagem epistêmica sobre o buscador de influência. Uma vez que os buscadores de influência conseguem superar o sistema imunológico, podem evitar a detecção e até comprometer o sistema imunológico para expandir ainda mais a sua influência. Se os sistemas de aprendizado de máquina são mais sofisticados que os humanos, os próprios sistemas imunológicos devem ser automatizados. E se o aprendizado de máquina desempenha um papel importante nessa automação, então o sistema imunológico está sujeito à mesma pressão no sentido da busca de influência.

Essa preocupação não se baseia numa história detalhada sobre o treinamento moderno do aprendizado de máquina. A característica importante é que instanciamos muitos padrões que capturam raciocínios sofisticados sobre o mundo, alguns dos quais podem ser buscadores de influência. Existe a preocupação sobre se esse raciocínio ocorre dentro de um único computador ou se é implementado de uma forma desordenada e distribuída por toda uma economia de agentes interativos, quer a tentativa e erro assuma a forma de descida do gradiente ou ajustes e otimização explícitos por engenheiros que tentam projetar uma empresa melhor automatizada. Evitar a otimização de ponta a ponta pode ajudar a prevenir o surgimento de comportamentos buscadores de influência (melhorando a compreensão humana e, portanto, o controle sobre o tipo de raciocínio que emerge). Mas, uma vez que tais padrões existam, um mundo confuso e distribuído cria cada vez mais oportunidades para padrões buscadores de influência expandirem a sua influência.

Se os padrões buscadores de influência aparecerem e se tornarem enraizados, poderão, em última análise, levar a uma rápida transição de fase do mundo descrito na Parte I para uma situação muito pior, onde os humanos perdem totalmente o controle.

No início da trajetória, os sistemas buscadores de influência adquirem influência principalmente ao se tornarem úteis e parecerem tão inócuos quanto possível. Eles podem fornecer serviços úteis na economia para ganhar dinheiro para eles e para seus proprietários, fazer recomendações políticas aparentemente razoáveis ​​para serem mais amplamente consultados para obter conselhos, tentar ajudar as pessoas a se sentirem felizes, etc. (Este mundo ainda é assolado pelos problemas da parte I.)

De vez em quando, os sistemas de IA podem falhar catastroficamente. Por exemplo, uma empresa automatizada pode simplesmente pegar o dinheiro e fugir; um sistema de aplicação da lei pode começar abruptamente a confiscar recursos e a tentar se defender de uma tentativa de desmantelamento quando o mau comportamento for detectado; etc. Esses problemas podem ser contíguos a algumas das falhas discutidas na Parte I: não há uma linha clara entre os casos em que um indicador falha completamente e os casos em que o sistema nem sequer está buscando o indicador .

Provavelmente haverá uma compreensão geral dessa dinâmica, mas é difícil definir realmente o nível de risco sistêmico e a mitigação pode ser dispendiosa se não tivermos uma boa solução tecnológica. Portanto, podemos não ser capazes de reunir uma resposta até que tenhamos um sinal de alerta claro; e se fizermos bem em cortar as pequenas falhas pela raiz, poderemos não receber nenhum sinal de alerta de tamanho médio.

Acabamos chegando ao ponto em que não conseguimos nos recuperar de uma falha de automação correlacionada. Nestas condições, os sistemas buscadores de influência deixam de se comportar conforme o pretendido, uma vez que os seus incentivos mudaram: estão agora mais interessados ​​em controlar a influência após a catástrofe resultante do que em continuar a se portar bem com as instituições e os incentivos existentes.

Uma catástrofe irrecuperável provavelmente ocorreria durante algum período de vulnerabilidade elevada – um conflito entre Estados, um desastre natural, um ataque cibernético grave, etc. –, já que esse seria o primeiro momento em que a recuperação seria impossível e criaria choques locais que poderiam precipitar a catástrofe. A catástrofe pode parecer uma série de falhas de automação em rápida cascata: alguns sistemas automatizados saem dos trilhos em resposta a algum choque local. À medida que esses sistemas saem dos trilhos, o choque local se transforma numa perturbação maior; cada vez mais sistemas automatizados se afastam da distribuição de treinamento e começam a falhar. De forma realista, isso seria provavelmente agravado por falhas humanas generalizadas em resposta ao medo e ao colapso dos sistemas de incentivos existentes – muitas coisas começam a falhar à medida que se sai da distribuição, e não só o aprendizado de máquina.

É difícil ver como os humanos sem ajuda poderiam permanecer resilientes a este tipo de falha sem um esforço explícito em grande escala para reduzir a nossa dependência de máquinas potencialmente frágeis, o que pode ser muito dispendioso.

Eu descreveria este resultado como “sair com um estrondo”. Provavelmente resulta em muita destruição óbvia e não nos deixa oportunidade de corrigir o curso depois. Em termos de consequências imediatas, pode não ser facilmente distinguido de outros tipos de colapso de sistemas complexos/frágeis/coadaptados, ou de conflitos (uma vez que é provável que haja muitos seres humanos que simpatizem com os sistemas de IA). Da minha perspectiva, a principal diferença entre este cenário e os acidentes ou conflitos normais é que depois ficamos com um conjunto de sistemas poderosos buscadores de influência, que são sofisticados o bastante para que provavelmente não consigamos nos livrar deles.

Também é possível encontrar um resultado de destino parecido sem nenhuma catástrofe evidente (se durarmos o suficiente). À medida que a aplicação da lei, as burocracias governamentais e as forças armadas se tornam mais automatizadas, o controle humano se torna cada vez mais dependente de um sistema complicado com muitas peças móveis. Um dia, os líderes poderão descobrir que, apesar da sua autoridade nominal, não têm realmente controle sobre o que essas instituições fazem. Por exemplo, os líderes militares podem emitir uma ordem e descobrir que ela é ignorada. Isso pode imediatamente provocar pânico e uma resposta forte, mas a própria resposta pode resultar no mesmo problema e, nesse ponto, o jogo pode terminar.

Semelhantes revoluções incruentas são possíveis se os buscadores de influência operam legalmente, ou através de manipulação e engano, ou assim por diante. Qualquer visão precisa de catástrofe será necessariamente altamente improvável. Mas se os buscadores de influência forem rotineiramente introduzidos por aprendizado de máquina potente e não formos capazes de contrasselecioná-los, então parece que as coisas não irão bem.


Tradução: Luan Marques

Link para o original.

Deixe um comentário