A necessidade do trabalho em alinhamento técnico da IA

Esta página fornece uma visão geral do problema do alinhamento. Ela descreve nossa motivação para realizar cursos sobre alinhamento técnico da IA. Em termos relativos, a terminologia deve ser amplamente acessível (não presumindo conhecimento prévio algum sobre alinhamento da IA ou muito conhecimento sobre IA/ciência da computação).

Este artigo descreve a defesa básica da pesquisa em alinhamento da IA, que é a pesquisa que visa garantir que sistemas avançados de IA possam ser controlados ou guiados em direção aos objetivos pretendidos de seus designers. Sem esse trabalho, sistemas avançados de IA teriam o potencial de agir de maneiras que estão severamente em desacordo com os objetivos pretendidos por seus designers. Tal situação poderia ter sérias consequências, plausivelmente até causando uma catástrofe existencial.

Neste artigo, elaboro cinco pontos-chave para defender a pesquisa em alinhamento da IA.

IA avançada é possível

Por IA avançada, quero dizer, grosso modo, sistemas de IA capazes de realizar quase todo o trabalho cognitivo que humanos realizam (p. ex., capazes de substituir cientistas, diretores-executivos, romancistas e assim por diante).

Os pesquisadores discordam sobre a forma de IA avançada que mais provavelmente será desenvolvida. Muitas das visões mais populares envolvem uma “inteligência geral artificial”, ou “IGA”: um sistema de IA hipotético que poderia aprender qualquer tarefa cognitiva que um ser humano possa1. Uma possibilidade para a IA avançada é uma única IGA que poderia superar os especialistas humanos na maioria dos campos em suas áreas de especialização. Outra possibilidade é um ecossistema de sistemas de IA especializados que poderiam realizar coletivamente quase todo trabalho cognitivo – alguns pesquisadores especulam que essa configuração envolveria várias IGAs executando tarefas complexas ao lado de sistemas de IA mais restritos2. Os pesquisadores também discordam sobre se é mais provável que a IA avançada seja desenvolvida usando métodos de IA atuais, como o aprendizado profundo, ou por meio de um paradigma futuro de IA que ainda não foi descoberto3.

No entanto, há um consenso aproximado entre quase todos os especialistas relevantes de que a IA avançada é, no mínimo, fisicamente possível. O próprio cérebro humano é uma máquina de processamento de informações com as capacidades relevantes e, assim, serve como prova de que máquinas com tais capacidades são possíveis; um sistema de IA capaz de realizar as mesmas tarefas cognitivas que o cérebro humano, por definição, seria IA avançada4.

IA avançada pode não estar tão longe

Abaixo, descrevo algumas razões para pensar que a IA avançada pode ser alcançada nas próximas décadas. Cada argumento tem suas limitações, e há muita incerteza; no entanto, considerando esses argumentos coletivamente, parece apropriado atribuir pelo menos chances decentes (p. ex., uma chance de dois dígitos percentuais) de que a IA avançada se torne uma realidade dentro de algumas décadas.

Muitos especialistas em IA e previsores generalistas acham provável que a IA avançada seja desenvolvida nas próximas décadas:

  • Uma pesquisa de 2016 com os principais pesquisadores de IA descobriu que a maioria previa pelo menos 50% de chance de “inteligência de máquina de alto nível” (definida de forma semelhante à IA avançada) ser desenvolvida até 2061, com cerca de 30% de chance de desenvolvimento até 2040. Pesquisas seguintes em 2019 e 2022 encontraram resultados semelhantes.
  • De acordo com as previsões agregadas de previsores no site de previsões Metaculus, 50% de chance de que a IGA chegue até 2039. O Metaculus é bem visto entre muitos previsores por seu histórico; além disso, o que é particularmente relevante para IA avançada, o Metaculus já esteve à frente da curva na previsão de grandes eventos mundiais5 e do progresso tecnológico6.

Uma extrapolação das capacidades de IA sugere plausivelmente IA avançada dentro de algumas décadas:

  • Qualitativamente, a IA nos últimos anos fez grandes avanços imitando o pensamento intuitivo (p. ex., visão computacional, criação de imagens a partir de descrições escritas, ginástica robótica) e o raciocínio de alto nível (p. ex., raciocínio em várias etapas, explicação de piadas, resolução de problemas de matemática e ciências de nível médio e superior)7. Essas duas marcas do pensamento humano eram, até recentemente, amplamente consideradas fora do alcance da IA e dos arautos da IA avançada.
  • Algo crucial é que a atual onda de progresso da IA é amplamente alimentada por sistemas de IA que aprendem capacidades relativamente amplas do zero, com o desempenho melhorando continuamente conforme o poder computacional aumenta, e com novas capacidades às vezes surgindo. Por exemplo, o GPT-3 da OpenAI foi programado para simplesmente aprender a prever a próxima palavra a partir de uma sequência de texto8, e surpreendentemente aprendeu capacidades tão variadas quanto poesia, tradução de idiomas e codificação de computadores.
  • Com base no modo como o desempenho da IA se amplifica com o poder computacional para os sistemas de IA atuais, podemos estimar quanto poder computacional a mais seria necessário para que esses sistemas alcançassem o desempenho humano em várias tarefas. Além disso, dadas as tendências no custo do poder computacional ao longo do tempo, podemos estimar quando esse nível de poder computacional pode se tornar economicamente disponível. Realizando esse cálculo com os sistemas de IA do GPT-3 e PaLM, e julgando pelo desempenho desses sistemas em tarefas de raciocínio para as quais eles não foram especificamente treinados (p. ex., analogias, senso comum, aritmética), aproximadamente 25-50 anos de crescimento adicional no poder computacional seria suficiente para que esses sistemas alcançassem desempenho equivalente ao humano na maioria dessas tarefas de raciocínio, mesmo supondo zero melhorias algorítmicas9.
  • Em termos especulativos, comparações entre a IA e o cérebro humano tendem a descobrir que o hardware necessário para treinar uma IA para corresponder ao cérebro provavelmente estará disponível dentro de algumas décadas10.

IA avançada pode ser difícil de direcionar

Sistemas de IA atuais são com frequência acidentalmente mal direcionados:

  • O GPT-3, por exemplo, é notório por emitir texto que é impressionante, mas não do “sabor” desejado (p. ex., publicar um texto bobo quando se deseja um texto sério), e os pesquisadores muitas vezes têm que mexer consideravelmente nas entradas para produzir saídas desejáveis.
  • muitos exemplos de vários sistemas de IA alcançando os objetivos exatos para os quais foram projetados, mas de maneiras surpreendentes que violam um entendimento humano de senso comum11. Em um exemplo cômico, uma IA treinada para maximizar pontos num videogame de corrida de barcos estabeleceu uma estratégia de ignorar a pista e antes girar em círculos para pegar continuamente os mesmos bônus, enquanto colidia com barcos ao redor.

De modo semelhante, sistemas avançados de IA podem satisfazer especificações em termos técnicos de maneiras que violam o que realmente queremos (isto é, o problema do “Rei Midas”):

  • Um atrativo de sistemas avançados de IA é que eles podem agir de maneiras ilimitadas (p. ex., assumindo os papéis de diretores-executivos); no entanto, como tais sistemas podem inevitavelmente enfrentar uma multiplicidade de perde-ganhas (tradeoffs) imprevistos, pode ser quase impossível especificar antecipadamente os objetivos desejados para esses sistemas buscarem12.
  • Metas que inicialmente funcionam bem podem significar desastre quando levadas ao extremo, mas os problemas podem não ser imediatamente óbvios13.
  • Alinhar IA avançada com base em metas fixas (isto é, com funções de recompensa de codificação rígida) pode ser intratável, visto que, não importa quão complexas você tenha feito as metas, você deixaria de fora algumas características importantes e teria dificuldade em definir explicitamente outras características “difusas“.

Treinar a IA com base no feedback humano pode ajudar a resolver os problemas de especificação acima, mas isso introduz seus próprios problemas, incluindo o incentivo ao comportamento enganoso:

  • Em resposta às preocupações acima, a maioria dos pesquisadores acha que devemos treinar IA avançada com base no feedback humano em vez de simplesmente metas fixas; analogamente, uma IA de corrida de barcos pode não apenas ser recompensada por coletar pontos, mas também penalizada por um comportamento que um supervisor humano subjetivamente decide que é ruim, na esperança de que a IA adote um comportamento alinhado com os desejos difíceis de especificar do humano.
  • Infelizmente, o feedback humano é um indicador imperfeito do que realmente queremos, e a lacuna entre os dois ainda pode ser explorada pela IA; essa lacuna pode ser particularmente grande se o volume ou a velocidade da tomada de decisão da IA for tal que a supervisão humana só pode ser esporádica, se a IA propõe ações além da compreensão do humano, ou se o humano está simplesmente equivocado sobre questões factuais relevantes.
  • Pior, essa configuração cria um incentivo para que a IA engane seu supervisor humano, levando-o a pensar que é mais bem comportada do que é. Como um exemplo excessivamente simplista, considere um supervisor que tenta treinar um robô de limpeza fornecendo feedback periódico a ele, com base na rapidez com que o robô parece limpar uma sala; tal robô poderia aprender que pode “limpar” a sala mais rápido varrendo bagunças para debaixo de um tapete14.
  • Apesar dessas limitações, o treinamento de sistemas de IA com base no feedback humano continua sendo um caminho de pesquisa promissor para o alinhamento da IA, mesmo que possa não resolver todo o problema em si (veja a seção 5 para mais sobre áreas de pesquisa de alinhamento da IA).

Além disso, sistemas avançados de IA podem vir a buscar indicadores de metas que funcionam bem no treinamento, mas esses indicadores podem não se aplicar durante a implementação:

  • Os sistemas de IA modernos são tipicamente treinados para “aprender” comportamentos por meio de um processo semelhante a tentativa e erro, no qual eles são “recompensados” por pontuar bem de acordo com algum objetivo (especificado por seus designers). Esse processo geralmente leva a IA a buscar indicadores do objetivo especificado; embora esses indicadores possam funcionar bem no treinamento, eles geralmente param de funcionar bem quando o ambiente muda (como na implementação). A IA avançada pode ser treinada de forma semelhante e, portanto, pode ter problemas semelhantes.
  • Deve-se notar que alguns sistemas de IA, quando confrontados com um ambiente novo, podem manter suas capacidades anteriores, mas buscar um objetivo diferente daquele que foi especificado por seus projetistas15. Num exemplo, uma IA foi treinada para resolver labirintos (virtuais), onde vencer envolvia alcançar um pedaço de queijo em direção ao canto superior direito do labirinto; quando a IA era testada em labirintos onde o queijo estava posicionado em outro lugar, ela muitas vezes ignorava o queijo e progredia em direção ao canto superior direito, mesmo assim – buscando com competência um objetivo diferente do que os designers haviam especificado.
  • Como analogia, a evolução “treinou” os humanos para (aproximadamente16) maximizar a sobrevivência e a reprodução, mas isso levou a características humanas que, no mundo de hoje, não promovem mais a sobrevivência e a reprodução. Por exemplo, a evolução deu aos humanos um desejo por vários sabores de alimentos, a fim de nos estimular a comer vários tipos de alimentos nutritivos no ambiente ancestral; no entanto, mais recentemente, os seres humanos inventaram muitos sabores artificiais que muitas vezes satisfazem esses desejos numa maior medida do que seus semelhantes naturais, muitas vezes sem o valor nutricional evolutivamente vantajoso. Não queremos sistemas de IA que contornem de forma semelhante os objetivos que dermos a eles (“buscar o equivalente a sabores artificiais”)17.

Para ser claro, as preocupações acima não implicam que a IA avançada não seria capaz de “entender” o que realmente queríamos, mas sim que esse entendimento não se traduziria necessariamente em sistemas de IA agindo de acordo com nossos desejos:

  • Por definição, a IA avançada seria capaz de executar tarefas que exigem a compreensão de aspectos “difusos” de objetivos e comportamentos humanos18 e, portanto, tal IA provavelmente “entenderia”19 as maneiras das quais os objetivos internalizados do treinamento conflitassem com os objetivos pretendidos por seus designers (p. ex., ela pode reconhecer que seus objetivos eram, na verdade, apenas indicadores imperfeitos dos objetivos de seus designers).
  • No entanto, se uma IA reconhece essa discrepância entre seus objetivos internalizados e os objetivos pretendidos por seus designers, isso não faz com que a discrepância desapareça automaticamente. Continuando a analogia da evolução, quando um humano aprende que seu amor por alimentos com sabor artificial é devido à pressão evolutiva por alimentos nutritivos, o ser humano não começa de repente a desejar alimentos nutritivos; ao contrário, ele normalmente continua a desejar o mesmo alimento com sabor artificial que antes.
  • No entanto, uma vez que o sistema de IA possa entender a discrepância, ele pode enfrentar incentivos para esconder a discrepância de seu supervisor humano (ou seja, ele pode “portar-se bem” pelo resto do treinamento e fazer coisas prejudiciais apenas quando implementado no mundo real). Esse comportamento enganoso pode acontecer se, por exemplo, a IA tiver objetivos relacionados a afetar o mundo de maneiras que o supervisor desaprovaria20.
  • Como especulação, podemos acabar em uma espécie de ardil 22: antes de o sistema de IA ter sido treinado o suficiente para entender a discrepância, ele não pode ser treinado para alinhar automaticamente todos os seus objetivos com os desejos de seu supervisor; e, uma vez que tenha alcançado esse entendimento, ele enfrentará um incentivo de enganar seu supervisor.
  • Se pudéssemos simplesmente dizer à IA “faça o que queremos dizer, não o que dizemos” e fazer com que a IA escute isso de forma resiliente, teríamos resolvido esse problema, mas ninguém sabe como isso pode ser realizado dada a pesquisa atual.

É possível que a IA avançada seja construída antes de resolvermos os problemas acima, ou mesmo sem que ninguém realmente entenda os sistemas que são construídos:

  • Embora ninguém saiba atualmente como construir IA avançada, não há nenhuma forte razão para supor que vamos resolver os problemas acima antes de chegarmos lá.
  • Os sistemas de IA atuais são tipicamente “caixas-pretas“, o que significa que seus designers não entendem seu funcionamento interno. Capacidades emergentes e aprendidas ocasionalmente permanecem desconhecidas por períodos consideráveis. Se o paradigma atual da IA levar à IA avançada, esses sistemas avançados provavelmente serão caixas-pretas da mesma forma.
  • A história está repleta de exemplos de tecnologias que foram criadas antes de uma boa compreensão delas ter sido desenvolvida; por exemplo, os humanos construíram pontes por milênios antes de desenvolver a engenharia mecânica (note que muitas dessas pontes desmoronaram, de maneiras agora previsíveis), o voo foi desenvolvido antes de grande parte da teoria aerodinâmica, e assim por diante.

IA avançada mal direcionada pode ser catastrófica para a humanidade

Nossa cartilha típica em relação às novas tecnologias é implementá-las antes de resolver todos os possíveis problemas importantes e, em seguida, corrigi-las ao longo do tempo, resolvendo problemas depois de eles surgirem. Por exemplo, os cintos de segurança modernos só foram inventados em 1951, 43 anos após a introdução do modelo T Ford; a gasolina de consumo conteve a neurotoxina chumbo por décadas, antes de ser eliminada; etc.

Com a IA avançada, por outro lado, falhas relativamente iniciais no direcionamento adequado desses sistemas podem impedir a correção posterior do curso, possivelmente gerando catástrofe. Essa dinâmica exige inverter o roteiro típico: antecipar e resolver problemas com antecedência suficiente, para que nossa capacidade como humanos de corrigir o curso nunca seja extinta.

Como mencionado acima, sistemas avançados de IA mal direcionados podem restringir a capacidade da humanidade de corrigir o curso:

  • Logo após desenvolvermos IA avançada, provavelmente enfrentaremos sistemas de IA que superam em muito os humanos na maioria das tarefas cognitivas21, inclusive em tarefas relevantes para influenciar o mundo (como desenvolvimento tecnológico, persuasão social/política e operações cibernéticas).
  • Desde que sistemas avançados de IA e humanos busquem objetivos conflitantes, a IA avançada provavelmente irá superar ou ludibriar os humanos para alcançar seus objetivos em detrimento dos nossos22.
  • Sistemas avançados de IA mal direcionados provavelmente determinariam (corretamente) que seus objetivos atuais não seriam alcançados se os humanos os redirecionassem para outros objetivos ou os desligassem, e assim tomariam (com sucesso) medidas para prevenir essas intervenções23.

A partir daí, o mundo poderia se desenvolver de maneiras inesperadas e indesejáveis, sem recurso:

  • Os seres humanos em um mundo dominado por IA avançada podem ser tão vulneráveis quanto muitos animais no mundo atual (dominado por humanos), onde nosso destino dependeria mais dos objetivos de sistemas avançados de IA do que de nossos próprios objetivos 24.
  • Essa situação poderia assumir muitas formas: uma única IA poderia se tornar mais poderosa do que o resto da civilização em conjunto; um grupo de IAs poderia se coordenar para se tornar mais poderoso do que o resto da civilização; um ecossistema de diferentes (grupos de) IAs pode acabar em um equilíbrio de poder entre si, mas com humanos efetivamente fora do circuito das decisões da sociedade; etc.
  • Não está claro se tais mundos preservariam características necessárias para a sobrevivência humana – como um experimento mental, será que uma economia de IA totalmente automatizada e crescente (com vários sistemas de IA psicopaticamente buscando vários objetivos) garantiria que alimentos fossem fornecidos para os humanos, ou que os subprodutos dos processos industriais nunca alterarassem a atmosfera além da gama em que humanos podem sobreviver? Talvez?

Embora as preocupações acima possam parecer extremas, elas não são particularmente marginais entre os especialistas relevantes que examinaram a questão (embora haja uma discordância considerável entre os especialistas e nem todos compartilhem essas preocupações):

  • Alguns dos principais pesquisadores de IA expressaram publicamente essas preocupações (p. ex., o professor de ciência da computação da Universidade da Califórnia em Berkeley Stuart Russell), assim como alguns pioneiros da Ciência da Computação e da área da IA (p. ex., Alan Turing).
  • Em uma pesquisa recente com os principais pesquisadores de IA, a maioria deles estimou pelo menos uma chance de 1 em 20 quando lhes perguntaram explicitamente: “Que probabilidade você atribui à possibilidade de futuros avanços da área da IA causarem a extinção humana ou uma debilitação igualmente permanente e severa da espécie humana?” Em duas pesquisas anteriores, a maioria dos principais pesquisadores de IA atribuiu uma chance de pelo menos 1 em 20 e uma chance de pelo menos 1 em 50 à possibilidade de que “inteligência de máquina de alto nível” (definida de forma semelhante à IA avançada) tenha um impacto que seja “extremamente ruim (p. ex., extinção humana)”.
  • Alguns dos principais laboratórios de IA, como a DeepMind (que pertence à Google) e a OpenAI (que é fortemente financiada pela Microsoft), reconhecem que esses riscos são sérios, provavelmente contra seus interesses.
  • Pesquisadores no campo do risco existencial pensam que os riscos da IA avançada são sérios25.

Há medidas que podemos tomar agora para reduzir o perigo

Para reduzir os riscos discutidos acima, dois tipos amplos de trabalho estão sendo buscados: o desenvolvimento de soluções técnicas que permitam que a IA avançada seja direcionada conforme seus designers pretendem (isto é, pesquisa de alinhamento técnico da IA) e outros trabalhos não técnicos voltados para garantir que essas soluções técnicas sejam desenvolvidas e implementadas quando necessário (esse trabalho não técnico se enquadra no âmbito maior da governança da IA26).

Algumas pesquisas técnicas de alinhamento da IA envolvem o trabalho com sistemas de IA atuais para direcioná-los para os objetivos desejados, na esperança de que os insights sejam transferidos para a IA avançada:

  • Os sistemas avançados de IA podem se assemelhar aos sistemas de IA atuais em alguma medida; então os métodos para direcionar os sistemas de IA atuais podem produzir insights valiosos que se transferem para a IA avançada.
  • Intuições de pesquisa às vezes se transferem entre paradigmas de engenharia; portanto, mesmo que a IA avançada não se assemelhe à IA atual, as intuições obtidas ao direcionar a IA atual ainda podem ser valiosas para direcionar a IA avançada.

Outras pesquisas técnicas de alinhamento da IA envolvem trabalhos mais teóricos ou abstratos:

  • Estas pesquisas muitas vezes abstraem as especificidades de como a IA avançada pode funcionar e antes consideram como sistemas de IA idealizados com características como direcionamento a objetivos, incorporação em seu ambiente e alto poder de otimização podem ser formulados para que possam ser direcionados de acordo com os desejos (difíceis de especificar) de seus (futuros) designers.
  • Esses tipos de abstrações teóricas permitem pesquisas relevantes para sistemas de IA com capacidades muito além das disponíveis hoje ou que operam de acordo com processos desconhecidos.

Os próximos dois parágrafos listam duas grandes áreas de pesquisa técnica de alinhamento da IA – note que estou listando essas áreas simplesmente para fins ilustrativos, e há muitas outras áreas que não listo.

Entender o funcionamento interno dos atuais sistemas de IA de caixa-preta:

  • Um melhor entendimento pode permitir projetar a IA de maneiras mais intencionais e verificar (antes da implementação) se os sistemas possuem capacidades emergentes perigosas.
  • Além disso, um bom entendimento do funcionamento interno dos sistemas de IA pode permitir o treinamento da IA não apenas com base no comportamento externo, mas também no funcionamento interno, potencialmente permitindo direcionar mais facilmente os sistemas de IA para adotar ou evitar procedimentos internos específicos (p. ex., pode ser possível treinar a IA para não ser enganosa por meio de feedback sobre o funcionamento interno da IA27).
  • A pesquisa de interpretabilidade mecanicista envolve o desenvolvimento de métodos para entender o funcionamento interno de sistemas de IA de caixa-preta (exemplo).
  • A pesquisa da teoria do Aprendizado Profundo envolve investigar por que os sistemas de IA atuais se desenvolvem da maneira como se desenvolvem, bem como descrever a dinâmica subjacente (exemplo).

Desenvolver métodos para garantir a honestidade ou veracidade dos sistemas de IA:

  • Muitos sistemas de IA de ponta especializados em geração de linguagem são propensos a fazer afirmações factualmente incorretas, às vezes apesar de o mesmo sistema ter feito anteriormente uma declaração verdadeira exatamente sobre o mesmo tema factual (p. ex., o sistema pode responder a uma pergunta factual de forma incorreta, apesar de anteriormente ter respondido à mesma pergunta corretamente)28.
  • A pesquisa em IA veraz visa sistemas de IA que evitem fazer tais afirmações falsas (exemplo), enquanto a pesquisa no campo relacionado da IA honesta busca sistemas de IA que façam afirmações de acordo com seus modelos aprendidos do mundo (exemplo)29.
  • O trabalho para direcionar sistemas de IA para que sejam apenas “honestos” ou “verazes” pode funcionar como prática para trabalhos posteriores que direcionem a IA avançada para outros objetivos importantes, porém “difusos”.
  • Além disso, se pudéssemos direcionar a IA avançada para ser honesta, isso por si só poderia reduzir os riscos relacionados ao engano; pois então o sistema não poderia fingir não ter conhecimento que tinha, tampouco poderia necessariamente desenvolver planos estratégicos escondidos da supervisão humana.
  • Além do trabalho empírico sobre como direcionar os sistemas de IA atuais para serem honestos/verazes, os pesquisadores estão buscando trabalhos teóricos sobre métodos para elicitar conhecimento latente da IA avançada – ou seja, ler o “conhecimento” que a IA tem, forçando-a, assim, efetivamente a ser honesta.

Veja mais: nosso Currículo de Alinhamento da IA descreve vários outros caminhos técnicos de pesquisa de alinhamento da IA com mais detalhes, assim como o artigo Problemas não resolvidos em segurança de Aprendizado de Máquina30.

No lado não técnico, várias áreas da governança da IA são relevantes para reduzir os riscos de desalinhamento da IA avançada, incluindo o trabalho para:

  • Reduzir os riscos de mesquinhez no desenvolvimento de IA avançada: se a IA avançada for construída de maneira apressada ou sem medidas de segurança adequadas, pode ser mais provável que acabe mal direcionada. O que é preocupante é que a maioria dos softwares é atualmente desenvolvida de forma relativamente fortuita, e o campo da IA não tem uma cultura de segurança particularmente forte como têm algumas disciplinas, como a engenharia nuclear. Alguns trabalhos atuais para reduzir esse risco são voltados para a redução de uma “dinâmica de corrida” de soma zero em direção à IA avançada31.
  • Melhorar os processos de tomada de decisão institucional (especialmente sobre tecnologia emergente): reformas plausíveis para melhorar a tomada de decisões da sociedade são obviamente muito numerosas e variadas para mencionar, mas, em termos gerais, melhores tomadas de decisões governamentais, internacionais e corporativas podem produzir ações mais sensatas para promover sistemas de IA alinhados no período que antecede a IA avançada.

Veja mais: nosso Currículo de Governança da IA descreve outras áreas para o trabalho de governança e estratégia com mais detalhes.

Observe que problemas técnicos às vezes podem levar décadas para serem resolvidos; portanto, mesmo que a IA avançada esteja a décadas de distância, ainda é razoável começar a trabalhar no desenvolvimento de soluções agora. O trabalho atual de alinhamento técnico da IA está ocorrendo em laboratórios acadêmicos (por exemplo, no CHAI da Universidade da Califórnia em Berkeley, entre muitos outros laboratórios acadêmicos), em organizações sem fins lucrativos e corporações de benefício público (p. ex., a Redwood Research e a Anthropic) e em laboratórios industriais (p. ex., a DeepMind e a OpenAI). No entanto, uma pesquisa recente com os principais pesquisadores de IA indica que a maioria (69%) acha que a sociedade deve priorizar a “pesquisa de segurança da IA”32 “mais” ou “muito mais” do que atualmente.

Notas

1. Deve-se notar que alguns pesquisadores veem o conceito de “inteligência geral” como falho e consideram o termo “IGA” como um nome errado na melhor das hipóteses ou confuso na pior. No entanto, neste artigo, estamos preocupados com as capacidades dos sistemas de IA, não se tais sistemas devem ser chamados “geralmente inteligentes”, de modo que a discordância sobre a coerência do termo “IGA” não afeta os argumentos neste artigo.

2. Neste segundo cenário, diferentes IGAs podem se especializar de maneira semelhante a como trabalhadores humanos se especializam na economia hoje.

3. Um paradigma futuro poderia, por exemplo, ser baseado em futuras descobertas na neurociência.

4. O cérebro é um objeto físico, e seus mecanismos de funcionamento devem, portanto, obedecer às leis da física. Na teoria, esses mecanismos poderiam ser descritos de uma maneira que um computador pudesse replicar.

5. P. ex., em janeiro de 2020, quando a sabedoria convencional era que a COVID não se tornaria grande coisa, o Metaculus previu que > 100.000 pessoas acabariam se infectando com a doença.

6. P. ex., o Metaculus previu um avanço na técnica de biologia computacional de previsão de estrutura de proteínas, antes que o AI AlphaFold da DeepMind surpreendesse os cientistas com seu desempenho nessa tarefa.

7. Outros exemplos em que a IA fez recentemente grandes avanços incluem: conversar com humanos via texto, reconhecimento da fala, síntese da fala, tradução de idiomas, dirigir veículos, resumir livros, responder a perguntas dissertativas de nível médio ou universitário, contar histórias criativas, escrever códigos de computador, avanço científico, avanço matemático, avanço de hardware, dominar jogos de tabuleiro e videogames clássicos, dominar jogos de estratégia de vários jogadores, fazer qualquer tarefa a partir de um grande número de tarefas não relacionadas e alternar flexivelmente entre essas tarefas com base no contexto, usar a robótica para interagir com o mundo de forma flexível, integrar subsistemas cognitivos através de um “monólogo interior”, etc.

8. Tecnicamente, essa descrição é uma ligeira simplificação; o GPT-3 foi, na realidade, programado para aprender a prever o próximo “particular” a partir de uma sequência de texto, onde um “particular” geralmente corresponderia a uma palavra ou a uma parte de uma palavra.

9. Dependendo de se extrapolarmos linearmente ou usando uma “curva S”, está implicado que a maioria dessas tarefas alcançaria um desempenho quase perfeito com ~10^28 a ~10^31 operações de treinamento em computador. Supondo um projeto de US$ 100 milhões, uma extrapolação de tempo de duplicação de 2,5 anos no preço-desempenho de GPUs (chips de computador comumente usados em IA) e um custo computacional em GPU atual de ~10^17 operações/US$, espera-se que tal desempenho seja alcançado em 25-50 anos. Observe que essa extrapolação é altamente incerta; por exemplo, o alto desempenho nessas métricas pode não implicar a IA avançada efetivamente (implicando que essa estimativa é subestimada) ou o progresso algorítmico pode reduzir o poder computacional necessário (implicando que é uma superestimativa).

10. Os supercomputadores mais poderosos hoje provavelmente já têm poder computacional suficiente para superar o do cérebro humano. No entanto, um fator indiscutivelmente mais importante é a quantidade de poder computacional necessária para treinar uma IA desse tamanho (a quantidade de poder computacional necessária para treinar grandes sistemas de IA normalmente excede em muito o poder computacional necessário para executar tais sistemas). Um extenso relatório usou alguns diferentes ângulos de ataque para estimar a quantidade de poder computacional necessária para treinar um sistema de IA que fosse tão poderoso quanto o cérebro humano, e esse relatório concluiu que esse poder computacional provavelmente se tornaria economicamente disponível nas próximas décadas (com uma estimativa mediana de 2052).

11. Esse problema é conhecido como “manipulação da especificação” ou “desalinhamento externo”. Você pode ler mais sobre isso no currículo de alinhamento.

12. P. ex., “maximizar lucros”, se interpretado ao pé da letra e fora de uma lente humana, pode produzir todo tipo de comportamento psicopata e ilegal extremo que prejudicaria profundamente os outros para o ganho mais marginal em lucros.

13. O fenômeno geral em ação aqui (às vezes chamado de “lei de Goodhart“) tem muitos exemplos:  em um exemplo clássico, mas possivelmente fictício, o Império Britânico colocou uma recompensa sobre najas dentro da Índia colonial (para tentar reduzir a população de najas), mas alguns locais responderam criando najas para matar a fim de colher a recompensa, levando assim a um grande aumento na população de najas.

14. Da mesma forma, tentativas de treinar sistemas de IA para não enganar seus supervisores (punindo esses sistemas por comportamento que o supervisor considera enganoso) podem antes treinar esses sistemas para simplesmente se tornarem melhores em engano para que não sejam pegos (por exemplo, apenas varrendo uma bagunça para debaixo do tapete quando o supervisor não está olhando).

15. Esse problema é conhecido como “má generalização do objetivo” ou “desalinhamento interno”. Você pode ler mais sobre isso no currículo de alinhamento.

16. Observe que a história real é um pouco mais complicada, pois a evolução “treinou” indivíduos para também apoiar a sobrevivência e reprodução de seus parentes.

17. Como um exemplo simples, não queremos que uma IA de videogame invada seu console para dar a si mesma uma pontuação alta quando aprender a realizar essa façanha.

18. Por exemplo, entender o que realmente queremos dizer quando usamos uma linguagem imprecisa.

19. Pelo menos na medida em que se pode dizer que a IA “entende” qualquer coisa que seja.

20. A lógica aqui é que a IA pode raciocinar que, se desertasse no treinamento, o supervisor simplesmente forneceria feedback negativo (o que ajustaria seus processos internos) até que parasse de desertar. Em tal cenário, seria improvável que a IA fosse implementada no mundo com seus objetivos atuais, de modo que presumivelmente não alcançaria esses objetivos. Assim, a IA pode optar por abrir mão de desertar no treinamento para que possa ser implementada com seus objetivos atuais.

21. É comum que as capacidades de IA de ponta passem relativamente rápido de se equiparar a capacidades humanas em um domínio para superá-las em muito nesse domínio (veja: xadrez, Jeopardy! e Go para exemplos de grande visibilidade). Alternativamente, mesmo que demore um pouco para que as capacidades da IA avançada progridam para superar em muito as capacidades humanas nos domínios relevantes, as preocupações esboçadas abaixo ainda podem ocorrer de forma mais demorada.

22. Da mesma forma que os sistemas de IA agora podem superar os humanos no xadrez e no Go.

23. Esses sistemas de IA podem se proteger de serem desligados usando suas capacidades de persuasão social ou operação cibernética. Como apenas um exemplo, esses sistemas podem inicialmente fingir estar alinhados com os interesses de humanos que tivessem a capacidade de desligá-los, enquanto hackeassem clandestinamente várias centrais de dados para distribuir cópias de si mesmos pela internet.

24. Observe que, para muitos animais, o problema não se deve a idiossincrasias da natureza humana, mas simplesmente a interesses humanos que esmagam interesses animais onde os interesses colidem (p. ex., competição por terra).

25. Por exemplo, Toby Ord, um dos principais pesquisadores de risco existencial em Oxford, estima que a “IA desalinhada” seja de longe a fonte mais provável de risco existencial nos próximos 100 anos – maior do que todos os outros riscos combinados.

26. A governança da IA abrange também várias outras áreas. Por exemplo, inclui trabalho voltado para garantir que a IA avançada não seja usada indevidamente por maus atores que intencionalmente direcionam esses sistemas para objetivos indesejáveis. Tal uso indevido pode, em um cenário extremo, também constituir um risco existencial (se permitir o “trancamento” permanente de uma ordem futura indesejável) – note que esse resultado seria conceitualmente distinto dos modos de falha de alinhamento descritos neste artigo (que, em vez de serem “uso indevido intencional” são “acidentes”), de modo que tais casos de uso indevido não são abordados neste artigo.

27. O feedback sobre o comportamento externo pode ser inadequado para treinar os sistemas de IA para que não enganem, visto que, se alguém está sendo enganoso, geralmente se comporta externamente de uma maneira feita para não parecer enganosa.

28. Curiosamente, esses mesmos sistemas são razoavelmente bons em avaliar suas próprias afirmações anteriores: ou seja, se lhes pedem para avaliar a probabilidade de uma afirmação anterior que fizeram estar correta, eles tendem a dar uma probabilidade substancialmente maior para afirmações que estão de fato corretas em comparação com aquelas que estão incorretas.

29. A IA honesta pode, portanto, fazer afirmações falsas se tiver aprendido informações incorretas, mas geralmente não faria afirmações falsas sobre uma questão em que tivesse aprendido informações corretas e assimilado essas informações em seu “conhecimento” do mundo. (Observe que os pesquisadores discordam sobre se os sistemas de IA atuais devem ou não ser considerados como tendo “conhecimento” no sentido em que a palavra é comumente usada, mesmo deixando de lado a espinhosa questão de definir precisamente a palavra “conhecimento”.)

30. Note que o último artigo define a pesquisa de alinhamento de forma diferente da minha: pela minha definição, a maioria das vias de pesquisa neste artigo seriam consideradas pesquisas técnicas de alinhamento da IA, mesmo aquelas que o artigo não classifica dentro da seção sobre “alinhamento”.

31. Quanto mais várias organizações sentem que estão em uma corrida competitiva em direção à IA avançada, mais pressão pode haver para que pelo menos algumas dessas organizações sejam mesquinhas para vencer a corrida.

32. A pesquisa descreveu a “pesquisa em segurança de IA” como coincidindo significativamente com o que estou chamando de “pesquisa em alinhamento técnico da IA”.


Publicado originalmente em 2023 aqui.

Autor: Daniel Eth

Tradução: Luan Marques

Deixe um comentário