Segurança da IGA desde os Primeiros Princípios

De Richard Ngo

Resumo

Este relatório, explora a defesa de por que o desenvolvimento da inteligência artificial geral (IGA) pode impor uma ameaça existencial para a humanidade. Parte de minha insatisfação com os argumentos existentes sobre este tema: os trabalhos iniciais são menos relevantes no contexto do aprendizado de máquina moderno, ao passo que os mais recentes são dispersos e breves. Este relatório visa fechar essa lacuna fornecendo uma investigação detalhada sobre o risco potencial do mal comportamento da IGA, fundamentada pelo nosso conhecimento atual do aprendizado de máquina e destacando importantes incertezas. Ele identifica quatro premissas-chave, avalia argumentos existentes sobre elas e descreve algumas novas considerações para cada uma.

1. Itrodução

A principal preocupação que motiva a investigação técnica em segurança da IGA é que possamos construir agentes autônomos artificialmente inteligentes que sejam muito mais inteligentes que os humanos e que busquem objetivos que entram em conflito com os nossos. A inteligência humana nos permite coordenar sociedades complexas e implementar tecnologias avançadas, controlando assim o mundo em maior medida do que qualquer outra espécie. Mas as IAs acabarão se tornando mais capazes do que nós nos tipos de tarefas através das quais mantemos e exercemos esse controle. Se não quiserem nos obedecer, a humanidade poderá se tornar apenas a segunda “espécie” mais poderosa da Terra e perder a capacidade de criar um futuro valioso e que valha a pena.

Chamarei isso de argumento da “segunda espécie”; acho que é um argumento plausível que deveríamos levar muito a sério.1 No entanto, a versão declarada acima depende de vários conceitos e intuições vagos. Neste relatório farei a apresentação mais detalhada possível do argumento da segunda espécie, destacando os aspectos sobre os quais ainda estou confuso. Em particular, defenderei uma versão do argumento da segunda espécie que afirma que, sem uma convergência de esforços para evitar isto, há uma probabilidade significativa de que:

  1. Construiremos IAs que serão muito mais inteligentes que os humanos (ou seja, superinteligentes).
  2. Essas IAs serão agentes autónomos que buscam objetivos de grande escala.
  3. Esses objetivos estarão desalinhados com relação aos nossos; isto é, eles visarão resultados que não são desejáveis ​​pelos nossos padrões e negociarão contra os nossos objetivos.
  4. O desenvolvimento de tais IAs levaria a elas ganharem o controle do futuro da humanidade.

Embora eu use muitos exemplos de aprendizado profundo moderno, minha intenção é que este relatório também seja aplicado a IAs desenvolvidas usando modelos, algoritmos de treinamento, otimizadores ou regimes de treinamento muito diferentes daqueles que usamos hoje. No entanto, muitos dos meus argumentos não seriam mais relevantes se o campo da IA ​​deixasse de focar no aprendizado de máquina. Também comparo frequentemente o desenvolvimento da IA ​​com a evolução da inteligência humana; embora os dois não sejam totalmente análogos, os humanos são o melhor exemplo que temos atualmente para fundamentar nosso pensamento sobre IAs geralmente inteligentes.

2. Superinteligência

A fim de entender a superinteligência, devemos caracterizar o que queremos dizer por inteligência. Podemos começar com a definição bem conhecida de Legg e Hutter, que identifica inteligência com a capacidade de alcançar metas numa ampla gama de ambientes.2 A dinstinção fundamental que traçarei nesta seção se dá entre agentes que entendem como ter bom desempenho em muitas tarefas porque foram otimizados para cada tarefa (o que chamarei de abordagem à IA baseada na tarefa) versus agentes que podem entender novas tarefas com pouco ou nenhum treinamento específico à tarefa, generalizando a partir da experiência anterior (a abordagem baseada na generalização).

2.1 Inteligência Restrita e Geral

A abordagem baseada na tarefa é análoga à forma como os humanos exploram a eletricidade: embora a eletricidade seja uma tecnologia poderosa e geral, ainda precisamos conceber formas específicas de aplicá-la a cada tarefa. Da mesma forma, os computadores são ferramentas poderosas e flexíveis, mas mesmo que possam processar um número arbitrário de entradas diferentes, instruções detalhadas sobre como fazer esse processamento precisam ser escritas individualmente para construir cada software. Enquanto isso, nossos atuais algoritmos de aprendizado por reforço, embora sejam poderosos, produzem agentes que só são capazes de ter um bom desempenho em tarefas específicas nas quais possuem muita experiência Starcraft, DOTA, Go e assim por diante. Em Reestruturando a Superinteligência, Drexler argumenta que nossa atual abordagem baseada na tarefa será amplificada para permitir um desempenho sobre-humano numa série de tarefas complexas (embora eu duvide dessa alegação).3

Um exemplo de abordagem baseada na generalização pode ser encontrado em grandes modelos de linguagem como o GPT-2 e o GPT-3. O GPT-2 foi primeiro treinado na tarefa de prever a próxima palavra em um corpus e, em seguida, alcançou resultados de estado da arte em muitas outras tarefas linguísticas, sem qualquer ajuste fino específico à tarefa! Essa foi uma mudança clara em relação às abordagens anteriores de processamento de linguagem natural, que só obtiveram bons resultados quando treinadas para realizar tarefas específicas em conjuntos de dados específicos. Seu sucessor, o GPT-3, apresentou uma gama de comportamentos ainda mais impressionantes. Penso que isso fornece um bom exemplo de como uma IA poderia desenvolver competências cognitivas (nesse caso, uma compreensão da sintaxe e da semântica da linguagem) que se generalizam para uma série de novas tarefas. O campo do meta-aprendizado visa um objetivo semelhante.

Também podemos ver o potencial da abordagem baseada na generalização observando como os humanos se desenvolveram. Como espécie, fomos “treinados” pela evolução para ter competências cognitivas que incluem capacidades de aprendizado rápido; processamento sensorial e motor; e habilidades sociais. Como indivíduos, também fomos “treinados” durante a infância para aperfeiçoar essas habilidades; compreender a linguagem falada e escrita; e possuir conhecimento detalhado sobre a sociedade moderna. Contudo, a ideia-chave é que quase todo esse aprendizado evolutivo e infantil ocorreu em tarefas diferentes daquelas economicamente úteis que realizamos quando adultos. Só podemos ter um bom desempenho nesta última categoria reutilizando as habilidades cognitivas e o conhecimento que adquirimos anteriormente. No nosso caso, tivemos a sorte de essas habilidades cognitivas não serem muito específicas para tarefas no ambiente ancestral, mas sim habilidades muito gerais. Em particular, a habilidade de abstração nos permite extrair estruturas comuns de diferentes situações, o que nos permite compreendê-las com muito mais eficiência do que aprender sobre elas uma por uma. Daí, nossas habilidades de comunicação e teorias mentais nos permitem compartilhar nossas ideias. É por isso que os humanos podem fazer grandes progressos na escala de anos ou décadas, e não apenas através da adaptação evolutiva ao longo de muitas vidas.

Devo observar que penso em baseado na tarefa e baseado na generalização como partes de um espectro, em vez de uma classificação binária, especialmente porque a forma como escolhemos como dividir as tarefas pode ser bastante arbitrária. Por exemplo, o AlphaZero treinou jogando contra si mesmo, mas foi testado jogando contra humanos, que usam estratégias e estilos de jogo diferentes. Poderíamos pensar em jogar contra esses dois tipos de oponentes como duas instâncias de uma única tarefa, ou como duas tarefas distintas nas quais o AlphaZero foi capaz de generalizar da primeira tarefa para a segunda. Mas de qualquer forma, os dois casos são claramente muito semelhantes. Em contraste, há muitas tarefas economicamente importantes nas quais espero que os sistemas de IA tenham um bom desempenho, principalmente generalizando a partir da sua experiência com tarefas muito diferentes, o que significa que essas IAs terão que generalizar muito, muito melhor do que conseguem os nossos sistemas atuais de aprendizado por reforço.

Deixe-me ser mais preciso sobre as tarefas que espero que exijam esse novo regime de generalização. Na medida em que podemos separar as duas abordagens, parece-me plausível que a abordagem baseada na tarefa irá fazer bastante progresso em áreas onde podemos recolher muitos dados. Por exemplo, estou confiante de que produzirá carros autónomos sobre-humanos muito antes da abordagem baseada na generalização. Poderá também nos permitir automatizar a maioria das tarefas envolvidas mesmo em profissões muito exigentes do ponto de vista cognitivo, como medicina, direito e matemática, se conseguirmos recolher os dados de treinamento corretos. No entanto, alguns trabalhos dependem crucialmente da capacidade de analisar e agir com base numa gama tão ampla de informações que será muito difícil treinar diretamente para obter um alto desempenho nelas. Considere as tarefas envolvidas numa função como a de diretor-executivo: definir a direção estratégica da sua empresa, escolher quem contratar, escrever discursos e assim por diante. Cada uma dessas tarefas depende sensivelmente do contexto mais amplo da empresa e do resto do mundo. Em que setor sua empresa está? Qual é o seu tamanho? Sua localidade? Sua cultura? Sua relação com concorrentes e governos? Como todos esses fatores mudarão nas próximas décadas? Essas variáveis ​​são de um escopo tão amplo e dependem de tantos aspectos do mundo que parece virtualmente impossível gerar grandes quantidades de dados de treinamento por meio de sua simulação (do modo como fazemos para treinar IAs de jogos). E o número de diretores-executivos dos quais poderíamos recolher dados empíricos é muito pequeno tendo em conta os padrões do aprendizado por reforço (que muitas vezes requer milhares de milhões de passos de treinamento, mesmo para tarefas muito mais simples). Não estou dizendo que nunca seremos capazes de exceder o desempenho humano nessas tarefas treinando diretamente nelas; talvez um esforço hercúleo de pesquisa e engenharia, auxiliado por outras IAs baseadas na tarefa, pudesse realizar isso. Mas espero que muito antes de tal esforço se tornar possível, teremos construído IAs utilizando a abordagem baseada na generalização que saibam como ter bom desempenho mesmo nessas tarefas amplas.

Na abordagem baseada na generalização, a maneira de criar diretores-executivos sobre-humanos é usar outras tarefas ricas em dados (que podem ser muito diferentes das tarefas que realmente queremos que um diretor-executivo de IA execute) para treinar IAs para desenvolver uma série de habilidades cognitivas úteis. Por exemplo, poderíamos treinar um agente de aprendizado por reforço para seguir instruções num mundo simulado. Mesmo que essa simulação seja muito diferente do mundo real, esse agente pode adquirir as capacidades de planejamento e aprendizado necessárias para se adaptar rapidamente às tarefas do mundo real. Analogamente, o ambiente ancestral humano também era muito diferente do mundo moderno, mas ainda somos capazes de nos tornar bons diretores-executivos com pouco treinamento adicional. E aproximadamente o mesmo argumento se aplica a pessoas que fazem outros trabalhos de grande impacto, como cientistas, empreendedores ou formadores de políticas que moldam paradigmas.

Um obstáculo potencial para o sucesso da abordagem baseada na generalização é a possibilidade de que características específicas ao ambiente ancestral, ou aos cérebros humanos, fossem necessárias para o surgimento da inteligência geral. Por exemplo, alguns levantaram a hipótese de que foi necessária uma “corrida armamentista” social para nos dar inteligência social suficiente para desenvolver a transmissão cultural em grande escala. No entanto, a maioria das possibilidades para tais características cruciais, incluindo essa, poderiam ser recriadas em ambientes artificiais de treinamento e em redes neurais artificiais. Algumas características (como as propriedades quânticas dos neurônios) seriam muito difíceis de simular com precisão, mas o cérebro humano funciona em condições que são demasiado confusas para tornar plausível que a nossa inteligência dependa de efeitos a essa escala. Portanto, parece-me muito provável que acabemos sendo capazes de criar uma IA que possa generalizar suficientemente bem para produzir um desempenho de nível humano numa vasta gama de tarefas, incluindo tarefas abstratas com poucos dados, como gerir uma empresa. Chamemos esses sistemas de inteligências gerais artificiais, ou IGAs. Muitos pesquisadores de IA esperam que construamos a IGA neste século; entretanto, não explorarei argumentos sobre o momento do desenvolvimento da AGI, e o restante deste documento não depende dessa questão.

Notas

1. Stuart Russell também se refere a isso como “problema do gorila” no seu livro recente, Inteligência Artificial ao nossso Favor.

2. Diferentemente do nosso uso, no seu sentido técnico, “ambiente” também inclui uma espicificação dos canais de entrada-saída aos quais o agente tem acesso (como saídas motoras), de modo que resolver a tarefa só requer que um agente processe informações de entrada e comunique informações de saída.

3. Por razões descritas aqui.


Tradução: Luan Marques

Link para o original

Deixe um comentário