Compilação: por que a IA avançada e desalinhada pode causar uma catástrofe? da BlueDot Impact - 80.000 Horas: Como fazer a diferença com sua carreira

Você pode ter visto argumentos (como estes) sobre por que as pessoas podem criar e implementar IA avançada que busca poder e está desalinhada dos interesses humanos. Isso pode fazer você pensar: “OK, mas esses sistemas de IA realmente impõem ameaças catastróficas?” Este documento compila argumentos para a alegação de que a IA avançada, desalinhada e em busca de poder imporia riscos catastróficos.

(O que os céticos dizem em resposta? Veja esta nota de rodapé¹. Outra nota de rodapé² menciona ressalvas sobre os trechos).

Veremos argumentos para as seguintes alegações, que são, em sua maioria, motivos de preocupação separados/independentes:

O passado da humanidade se aplica com respeito a analogias
Sistemas de IA têm algumas vantagens inerentes importantes sobre os humanos
IAs podem vir a superar os humanos em número e recursos
As pessoas enfrentarão incentivos competitivos para delegar poder a sistemas de IA (dando a sistemas de IA um ponto de partida relativamente poderoso)
A IA avançada aceleraria a pesquisa em IA, levando a uma grande vantagem tecnológica (que, se desenvolvida fora do controle humano, poderia ser usada contra humanos)

Índice

O passado da humanidade se aplica com respeito a analogias

De “Is Power Seeking AI an Existential Risk?” (Carlsmith, 2021):

A escolha de criar agentes muito mais inteligentes do que nós deve ser abordada com extrema cautela. Essa é a visão básica subjacente a grande parte da preocupação com o risco existencial da IA – e se aplicaria, de maneira semelhante, a novos agentes biológicos (humanos ou não humanos).

Alguns articulam essa visão apelando à posição dominante dos humanos neste planeta, em relação a outras espécies. Por exemplo: alguns argumentam que o destino dos chimpanzés está atualmente nas mãos dos humanos, e que essa diferença de poder é atribuída principalmente a diferenças de inteligência, em vez de, por exemplo, força física. Assim como os chimpanzés – se tivessem a escolha e o poder – deveriam ter cuidado quanto a construir humanos, devemos ter cuidado quanto a construir agentes mais inteligentes do que nós.

Esse argumento é sugestivo, mas está longe de ser incontestável. Os chimpanzés, por exemplo, são muito mais inteligentes do que os ratos, mas o “destino dos ratos” nunca esteve “nas mãos” dos chimpanzés. Além do mais, o controle que os humanos podem exercer sobre o destino de outras espécies neste planeta ainda tem limites, e podemos debater se a “inteligência”, mesmo no contexto da acumulação de cultura e tecnologia, é a melhor maneira de explicar o tanto de controle que temos.

Porém, mais importante: os humanos surgiram por meio de um processo evolutivo que os chimpanzés não fizeram nada para controlar intencionalmente. Os humanos, por outro lado, serão capazes de controlar muitos aspectos dos processos que usamos para construir e capacitar novos agentes inteligentes.

Ainda assim, persiste a preocupação de brincar com fogo. Como ilustra nosso próprio impacto na Terra, agentes inteligentes podem ser uma força extremamente poderosa em controlar e transformar um ambiente em busca de seus objetivos. De fato, mesmo na grande escala da história da Terra, o desenvolvimento de capacidades humanas com respeito a isso parece ser algo muito importante — uma força de uma potência sem precedentes. Se liberarmos muito mais dessa força no mundo, por meio de formas novas e mais inteligentes de agência não humana, parece razoável esperar impactos dramáticos e razoável imaginar quão bem seremos capazes de controlar os resultados.

De “Cortés, Pizarro, and Afonso as Precedents for Takeover” (Kokotajlo, 2020):

Resumo

No espaço de alguns anos, alguns exploradores europeus menores (mais tarde conhecidos como os conquistadores) encontraram, conquistaram e escravizaram várias grandes regiões do mundo. Que eles tenham sido capazes de fazer isso é surpreendente; sua vantagem tecnológica não era enorme. (Isso foi antes das revoluções científica e industrial.) A partir desses casos, acho que aprendemos que ocasionalmente é possível que uma pequena força conquiste rapidamente grandes partes do mundo, apesar de:

ter apenas uma fração minúscula dos recursos e poder do mundo;

ter tecnologia + astúcia diplomática e estratégica é melhor, mas não tanto;

ter muito poucos dados sobre o mundo quando a conquista começa;

estar desunida.

O que sugere que não é tão implausível que uma pequena IA domine o mundo em circunstâncias levemente favoráveis, como às vezes se pensa.

Sistemas de IA têm algumas vantagens inerentes importantes sobre os humanos

De “AGI safety from first principles” (Ngo, 2021) (formatação editada):

[O primeiro parágrafo abaixo está incluído como contexto geral da IA de forma mais ampla. Os parágrafos restantes discutem sobre as vantagens que sistemas de IA têm sobre os humanos.]

A principal distinção que traçarei [aqui] é entre agentes que entendem como se sair bem em muitas tarefas porque foram otimizados especificamente para cada tarefa (que chamarei de abordagem à IA baseada em tarefas) versus agentes que podem compreender novas tarefas com pouco ou nenhum treinamento específico, generalizando a partir da experiência anterior (a abordagem baseada em generalização). […] [H]á muitas tarefas economicamente importantes nas quais espero que os sistemas de IA se saiam bem, principalmente generalizando a partir de sua experiência com tarefas muito diferentes — o que significa que essas IAs precisarão generalizar muito, muito melhor do que conseguem os nossos atuais sistemas de aprendizado por reforço. […] alguns empregos dependem crucialmente da capacidade de analisar e agir com base numa gama tão ampla de informações que será muito difícil treiná-las diretamente para um alto desempenho neles. Considere as tarefas envolvidas num cargo como o de diretor-executivo: definir a direção estratégica da empresa, escolher quem contratar, redigir discursos e assim por diante. Cada uma dessas tarefas depende cuidadosamente do contexto mais amplo da empresa e do resto do mundo. […] Essas variáveis têm um escopo tão amplo, e dependem de tantos aspectos do mundo, que parece praticamente impossível gerar grandes quantidades de dados de treinamento por meio de sua simulação (como fazemos para treinar IAs de jogos). E o número de diretores-executivos dos quais poderíamos coletar dados empíricos é muito pequeno para os padrões do aprendizado por reforço (que geralmente requer bilhões de etapas de treinamento, mesmo para tarefas muito mais simples).

[…]

Acho difícil negar que, em princípio, é possível construir IGAs [isto é, inteligências gerais artificiais] particulares baseadas em generalização que [ultrapassem a capacidade coletiva da humanidade em praticamente todos os domínios de interesse], uma vez que cérebros humanos são limitados por muitos fatores que serão muito menos limitantes para IAs.

Talvez o mais impressionante seja a grande diferença entre as velocidades de neurônios e de transistores: estes transmitem sinais cerca de quatro milhões de vezes mais rápido [portanto, sistemas avançados de IA podem ser capazes de pensar muito mais rápido do que humanos]. Mesmo que IGAs nunca excedam os humanos de nenhuma outra maneira, uma aceleração grande assim permitiria que um indivíduo pensasse em minutos ou horas tanto quanto um humano consegue em anos ou décadas.

Enquanto isso, o tamanho do nosso cérebro é importante para tornar os humanos mais capazes do que a maioria dos animais, mas não vejo nenhuma razão para que uma rede neural não possa ser várias ordens de grandeza maior que um cérebro humano.

E embora a evolução seja uma designer muito capaz em muitos aspectos, ela não teve muito tempo para selecionar especificamente as habilidades mais úteis em nosso ambiente moderno, como competência linguística e raciocínio matemático. Portanto, devemos esperar que existam alvos fáceis para melhorar o desempenho humano nas muitas tarefas que dependem de tais habilidades.

[…]

Em termos de replicação, IAs são muito menos limitadas do que humanos: é muito fácil criar uma duplicata de uma IA que tenha todas as mesmas habilidades e conhecimentos da original. O custo de poder computacional para fazer isso provavelmente será muitas vezes menor do que o custo original de treinamento de uma IGA (uma vez que o treinamento geralmente envolve executar muitas cópias de uma IA muito mais rápido do que seria necessário para executá-las para tarefas do mundo real). Atualmente, a duplicação nos permite aplicar uma única IA a muitas tarefas, mas não expandir a gama de tarefas que essa IA pode realizar. No entanto, devemos esperar que IGAs sejam capazes de decompor tarefas difíceis em subtarefas que possam ser abordadas com mais facilidade, assim como os humanos fazem. […] [Esses argumentos] também são razões pelas quais IGAs particulares serão capazes de nos superar nas habilidades necessárias para a coordenação (como processamento de linguagem e teorias da mente).

IAs podem superar os humanos em número e recursos

De “AI Could Defeat All Of Us Combined” (Karnofsky, 2022) (formatação editada):

[…] Quero deixar claro que não acho que o perigo dependa da ideia de “superpoderes cognitivos” ou de “superinteligência” — ambas as quais se referem a capacidades muito além das dos humanos. Acho que ainda temos um problema mesmo se presumirmos que IAs vão ter basicamente recursos semelhantes aos humanos e não vão ser fundamental ou drasticamente mais inteligentes ou capazes. Vou cobrir isso a seguir.

Como IAs poderiam derrotar humanos sem “superinteligência”:

Se presumirmos que IAs vão ter basicamente capacidades semelhantes aos humanos, acho que ainda precisamos nos preocupar com o fato de que elas podem superar os humanos em número e recursos e, portanto, ter a vantagem caso se coordenarem contra nós.

[…] estou usando a […] estrutura em que é muito mais caro treinar (desenvolver) esse sistema [de IA] do que executá-lo (por exemplo, pense no quanto a Microsoft gastou para desenvolver o Windows vs. quanto me custa executá-lo no meu computador). [Um modelo quantitativo] implica que, uma vez criado o primeiro sistema de IA de nível humano, quem quer que o tenha criado poderá usar o mesmo poder computacional necessário para criá-lo a fim de executar várias centenas de milhões de cópias por cerca de um ano cada.

Isso seria mais de 1.000 vezes o número total de funcionários da Intel ou da Google, mais de 100 vezes o número total de pessoal ativo e de reserva nas forças armadas dos EUA e algo como 5-10% do tamanho da população mundial em idade ativa.

E isso é apenas um ponto de partida.

Isso é apenas usando a mesma quantidade de recursos que foi usada para treinar a IA em primeiro lugar. Como esses sistemas de IA podem fazer um trabalho econômico em nível humano, provavelmente podem ser usados para ganhar mais dinheiro e comprar ou alugar mais hardware, o que pode levar rapidamente a uma “população” de bilhões ou mais.

Além de ganhar mais dinheiro que pode ser usado para executar mais IAs, as IAs podem realizar grandes quantidades de pesquisa sobre como usar o poder computacional com mais eficiência, o que pode significar um número ainda maior de IAs executadas usando o mesmo hardware. Isso, por sua vez, pode levar a um ciclo de feedback e a um crescimento explosivo no número de IAs.

Cada uma dessas IAs poderia ter habilidades comparáveis às de humanos altamente bem pagos, incluindo cientistas, engenheiros de software e negociantes quantitativos. É difícil dizer com que rapidez um conjunto de IAs como esse poderia desenvolver novas tecnologias ou fazer mercados de negociação de dinheiro, mas parece bem possível que elas acumulem grandes quantidades de recursos rapidamente. Uma enorme população de IAs, cada qual capaz de ganhar muito em comparação com o ser humano médio, poderia acabar com uma “economia virtual” pelo menos tão grande quanto a humana.

Para mim, isto é a maior parte do que precisamos saber: se há algo com habilidades semelhantes às humanas, buscando debilitar a humanidade, com uma população do mesmo tamanho (ou maior) que a de todos os humanos, temos um problema civilizacional.

Como IAs poderiam ameaçar a humanidade se são meramente “virtuais”?

Um contraponto em potencial é que essas IAs seriam meramente “virtuais”: se começassem a causar problemas, os humanos poderiam desconectar/desativar os servidores nos quais estão sendo executadas. Eu realmente acho que esse fato tornaria a vida mais difícil para IAs que buscam debilitar os humanos, mas não acho que isso deva ser motivo de muito conforto. Acho que uma grande população de IAs provavelmente seria capaz de encontrar alguma maneira de obter segurança contra o desligamento da parte dos humanos e, a partir daí, acumular recursos suficientes para dominar a civilização humana (especialmente se IAs pelo mundo todo, incluindo a maioria das que os humanos estivessem tentando usar como ajuda, estivessem se coordenando).

Explico como isso pode se parecer em um apêndice. Em suma:

Por padrão, espero que os ganhos econômicos do uso da IA signifiquem que os humanos criarão um grande número de IAs, integradas em toda a economia, incluindo potencialmente a interação direta com (e até mesmo o controle de) um grande número de robôs e armas. (Caso contrário, acho que a situação seria ainda mais perigosa em muitos aspectos, já que uma única IA poderia fazer muitas cópias de si mesma e ter pouca competição por coisas como espaço no servidor, conforme discutido no apêndice.)

IAs teriam várias maneiras de obter propriedade e servidores protegidos do desligamento. Por exemplo, (a) elas poderiam recrutar aliados humanos (através de manipulação, engano, chantagem/ameaças, promessas genuínas do tipo “Provavelmente iremos acabar no comando de alguma forma, e iremos tratá-lo melhor quando chegarmos lá”) para alugar propriedade e servidores e ajudá-las de outra forma. (b) Ou elas poderiam criar falsificações para que possam operar livremente nos servidores de uma empresa, enquanto todos os sinais externos parecessem mostrar que têm êxito em ajudar a empresa com seus objetivos.

Uma quantidade relativamente modesta de propriedade a salvo do desligamento poderia ser suficiente para abrigar uma enorme população de sistemas de IA que estivessem recrutando mais aliados humanos, ganhando dinheiro (via, por exemplo, finanças quantitativas), pesquisando e desenvolvendo armamentos avançados (por exemplo, armas biológicas), estabelecendo a fabricação de robôs para construir equipamentos militares, infiltrando-se completamente em sistemas de computador em todo o mundo até o ponto em que podem desativar ou controlar o equipamento da maioria dos outros, etc.

Por meio desses e de outros métodos, uma população grande o suficiente de IAs poderia desenvolver tecnologia e equipamentos militares suficientes para dominar a civilização — especialmente se IAs em todo o mundo (incluindo as que os humanos estivessem tentando usar) estivessem se coordenando entre si.

As pessoas enfrentarão incentivos competitivos para delegar poder a sistemas de IA

De “What Multipolar Failure Looks Like, and Robust Agent-Agnostic Processes (RAAPs)” (Critch, 2021):

[Para ilustrar a plausibilidade de que incentivos competitivos farão com que as pessoas deleguem poder à IA, este artigo apresenta uma narrativa hipotética sobre como a IA pode ser usada no futuro.]

Um dia, os pesquisadores de IA desenvolvem e publicam um novo e empolgante algoritmo para combinar processamento de linguagem natural com capacidades de planejamento. Várias empresas de tecnologia concorrentes desenvolvem ferramentas de software de “assistente de gestão” baseadas no algoritmo, que podem analisar os fluxos de caixa, fluxos de trabalho, comunicações e dinâmica interpessoal de uma empresa para recomendar decisões de negócios mais lucrativas. Acontece que os gerentes são capazes de automatizar seus trabalhos quase inteiramente fazendo com que o software gerencie sua equipe diretamente, incluindo até mesmo algumas “habilidades interpessoais” como a resolução de conflitos.

Ferramentas de software baseadas em variantes do algoritmo tomam empresas em quase todos os setores, automatizando e substituindo trabalhos em vários níveis de gestão, às vezes até diretores-executivos. As empresas que não automatizam fortemente seus processos de tomada de decisão usando o software começam a ficar para trás, criando uma forte pressão competitiva para que todas as empresas o usem e se tornem cada vez mais automatizadas.

[…]

Alguns bancos tornam-se altamente automatizados para administrar os fluxos de caixa, e mais […] empresas acabam fazendo suas atividades bancárias com bancos automatizados. Governos e reguladores têm dificuldade em acompanhar como as empresas estão produzindo tanto e tão barato; […] logo, exigem que as empresas de produção na web e seus bancos produzam relatórios mais regulares e detalhados sobre padrões de gastos, como seus gastos se relacionam com seus objetivos empresariais e como esses objetivos empresariais beneficiarão a sociedade. No entanto, alguns países adotam políticas regulatórias mais flexíveis para atrair mais […] empresas para fazer negócios lá, momento em que suas economias começam a crescer em termos de PIB, receita em dólares de exportações e bens e serviços providos a seus cidadãos. Países com regulamentações mais rígidas acabam afrouxando sua postura regulatória, ou ficam para trás em termos de importância.

De “GitHub Copilot now has a better AI model and new capabilities” (Zhao, 2023):

[Contexto adicionado: o GitHub é um serviço de Internet (e o padrão industrial na prática) para hospedagem e gerenciamento de códigos. O GitHub Copilot é uma IA que escreve linhas de código para desenvolvedores de software. O uso do GitHub Copilot é um exemplo da ampla e crescente delegação de tarefas a sistemas de IA. Tais delegações constituem delegações de poder quando uma tarefa envolve muita coisa em jogo e a supervisão é difícil ou dispendiosa demais (em termos de custos de trabalho).]

Quando lançamos o GitHub Copilot for Individuals em junho de 2022, mais de 27% dos arquivos de código dos desenvolvedores em média eram gerados pelo GitHub Copilot. Hoje, o GitHub Copilot está por trás de uma média de 46% dos códigos de um desenvolvedor em todas as linguagens de programação — e, em Java, esse número salta para 61%.

A IA avançada aceleraria a pesquisa em IA, levando a uma grande vantagem tecnológica

De “Artificial Intelligence as a Positive and Negative Factor in Global Risk” (Yudkowsky, 2008) (o conteúdo entre colchetes foi reformulado para refletir os desenvolvimentos mais recentes em IA):

[U]ma Inteligência Artificial poderia ter um aumento de inteligência extremamente rápido. A razão óbvia para suspeitar dessa possibilidade é o autoaperfeiçoamento recursivo (Good 1965). A IA se torna mais inteligente, inclusive tornando-se mais inteligente na tarefa de [desenvolver IA avançada, levando a um rápido ciclo de feedback positivo].

De “AI Could Defeat All Of Us Combined” (Karnofsky, 2022):

[Numa visão de como a IA avançada e desalinhada imporia uma ameaça, o risco advem de] um sistema de IA que pode fazer coisas como:

Fazer sua própria pesquisa sobre como construir um sistema de IA melhor, que culmine em algo que possui outras capacidades incríveis.

Hackear softwares criados por humanos pelo mundo.

Manipular a psicologia humana.

Gerar rapidamente uma vasta riqueza sob o controle dele mesmo ou de qualquer aliado humano.

Elaborar planos melhores do que os humanos podem imaginar e garantir que não faça nenhuma tentativa de tomada de controle que humanos possam detectar e impedir.

Desenvolver armamentos avançados que possam ser construídos de forma rápida e barata, mas poderosos o suficiente para dominar as forças armadas humanas.

Notas

1. Os céticos geralmente se concentram na premissa de que as pessoas desenvolverão e implementarão esses tipos de sistemas de IA em primeiro lugar. Às vezes, porém, os céticos são mais otimistas de que as pessoas desenvolvam fortes medidas defensivas, talvez em resposta a sinais de perigo. No geral, os especialistas tendem a ter muita incerteza e desacordo sobre essas questões.

2. Embora esta compilação não seja totalmente abrangente, ela visa cobrir os argumentos mais proeminentes. Como outra ressalva, muitas das fontes originais dos trechos incluem notas de rodapé que, por brevidade, não estão incluídas aqui. E, claro, como são apenas trechos, não fornecem o contexto completo ou os detalhes dos textos originais.

Traduzido do original disponível aqui.

Autor: BlueDot Impact

Tradução: Luan Marques