Ninguém está esperto no alinhamento da Inteligência Geral Artificial

Muito menos gente está trabalhando no problema do que você imagina, e mesmo a pesquisa de alinhamento que está acontecendo não está muito no caminho certo. (Mas esse é um problema solucionável, se a gente tomar jeito).

Observando de longe, é fácil pensar que tem uma abundância de pessoas trabalhando em segurança de IGA (Inteligência Geral Artificial). Todo o mundo na sua linha do tempo está preocupado com o risco de IA, e parece que tem um complexo industrial do AE bem financiado que promoveu isso como seu principal problema. Talvez você até tenha desenvolvido uma leve antipatia por tudo isso isso lembra demais os burocratas identitários e da agência federal de saúde pública, e o Eliezer te parece bem doido.

Isso é o que eu costumava pensar também, alguns anos atrás. Depois vi as coisas mais de perto. E o negócio é esse aqui: ninguém está esperto nesse troço!

  • Tem muito menos gente trabalhando nisso do que você imagina. É plausível que existam 100.000 pesquisadores de capacidades de aprendizado de máquina no mundo (30.000 participaram só da Conferência Internacional de Aprendizado de Máquina) contra 300 pesquisadores de alinhamento no mundo, um fator de aproximadamente 300:1. A equipe de alinhamento amplificável da OpenAI tem cerca de 7 pessoas.
  • Quase ninguém está tentando resolver as dificuldades centrais do alinhamento amplificável. Muitas das pessoas que estão trabalhando no alinhamento estão fazendo teoria abstrata, bastante desconectada dos modelos reais de aprendizado de máquina. A maior parte do resto está fazendo um trabalho vagamente relacionado, à espera de que seja útil de alguma forma, ou trabalhando em técnicas que podem funcionar agora, mas falham previsivelmente em sistemas sobre-humanos.

Não existe nenhuma equipe secreta de operações especiais vindo para salvar o dia. É isso. A gente não está no caminho certo.

Se o prazo for curto e a gente não tomar jeito, a gente está em grandes apuros. Alinhamento amplificável alinhar sistemas de IGA sobre-humanos é um problema real e não resolvido. É bem simples: técnicas atuais de alinhamento dependem da supervisão humana, mas, conforme os modelos se tornarem sobre-humanos, os humanos não serão capazes de supervisioná-los de forma confiável.

Mas meu pessimismo sobre o estado atual da pesquisa em alinhamento não significa que eu seja um doomer ao estilo Eliezer. Muito pelo contrário, estou otimista. Acho que o alinhamento amplificável é um problema solucionável e é um problema de aprendizado de máquina, em que podemos fazer ciência de verdade, conforme nossos modelos ficam mais avançados. Mas a gente tem que largar de besteira. Precisamos de um esforço que corresponda à gravidade do desafio1.


O alinhamento não está no caminho certo

Um post recente estimou que existem 300 pesquisadores técnicos em segurança de IA em tempo integral (me parece plausível, se estivermos contando generosamente). Por outro lado, tinha 30.000 participantes na Conferência Internacional de Aprendizado de Máquina em 2021, uma única conferência de aprendizado de máquina. Parece plausível que existam ≥100.000 pesquisadores trabalhando em aprendizado de máquina/IA no total. Essa é uma proporção de aproximadamente 300:1 pesquisadores de capacidades:pesquisadores de segurança de IGA.

Essa proporção é um pouco melhor nos laboratórios de IGA: aproximadamente 7 pesquisadores na equipe de alinhamento amplificável da OpenAI contra cerca de 400 pessoas na empresa no total (e menos pesquisadores).2 Mas 7 pesquisadores de alinhamento, bem, ainda não é muito, e aqueles 7, tipo, também não são os pesquisadores de aprendizado de máquina mais lendários da OpenAI. (Uma coisa importante é que, pelo que sei, isso não é a OpenAI sendo malvada ou algo assim a OpenAI adoraria contratar mais pesquisadores de alinhamento, mas simplesmente não existem muitos grandes pesquisadores por aí focando nesse problema.)

Mas, em vez dos números, o que tornou isso realmente visceral para mim é … realmente olhar para a pesquisa. Tem muito poucas pesquisas que me fazem sentir “ótimo, isso está chegando nas principais dificuldades do problema e eles têm um plano de como podemos realmente resolvê-lo em <5 anos”.

Vamos fazer um passeio rápido, estilizado e incompleto pela paisagem da pesquisa.

Paul Christiano / Alignment Research Center (ARC)

Paul é o pesquisador de alinhamento mais respeitado na maioria dos círculos. Ele liderava a equipe de alinhamento da OpenAI e fez contribuições conceituais úteis (p. ex., Elicitação de Conhecimento Latente, amplificação iterada).

Mas sua pesquisa agora (“argumentos heurísticos”) é basicamente “tentar resolver o alinhamento por meio de provas matemáticas pseudoprofundas”. Por mais que eu respeite e aprecie o Paul, suspeito muito disso: basicamente, todo o progresso do aprendizado profundo tem sido empírico, geralmente por meio de intuições e truques idiotas3, em vez de teoria sofisticada. Minha expectativa basal é que o alinhamento de sistemas de aprendizado profundo seja alcançado de um jeito parecido.4

(Isso é distinto do trabalho da ARC sobre avaliações, que me deixa muito animado, mas colocaria mais na categoria “governança da IGA”: nos ajuda a ganhar tempo, mas não está tentando resolver diretamente o problema técnico.)
Interpretabilidade mecanicista

Provavelmente a direção mais amplamente respeitada no campo: tentar fazer engenharia reversa de redes neurais de caixa-preta para que possamos entendê-las melhor. O pesquisador mais respeitado aqui é Chris Olah, e ele e sua equipe fizeram algumas descobertas interessantes.

Dito isso, isso geralmente me parece “tentar projetar a segurança do reator nuclear fazendo pesquisa fundamental em física com aceleradores de partículas (e estamos prestes a apertar o botão vermelho para iniciar o reator em 2 horas)”. Talvez eles encontrem alguns insights fundamentais úteis, mas, cara, eu duvido que a gente consiga fazer engenharia reversa do GPT-7 ou do que for. Estou feliz que esse trabalho esteja acontecendo, especialmente num jogo com uma linha do tempo mais longa, mas não acho que isso esteja no caminho certo para resolver o problema técnico se a IGA estiver chegando logo.
ARFH (aprendizado por reforço com feedback humano)

Isso e variantes disso5 são o que todos os laboratórios estão fazendo para alinhar os modelos atuais, p. ex., o ChatGPT. Basicamente, treine seu modelo com base no sinal de positivo vs. negativo de avaliadores humanos. Isso funciona muito bem para os modelos atuais!6

A questão central aqui (amplamente reconhecida por todos que trabalham na área) é que isso provavelmente não vai ser amplificado para modelos sobre-humanos. ARFH depende da supervisão humana; mas os humanos não vão ser capazes de supervisionar modelos sobre-humanos de forma confiável. (Mais discussão depois nesse post.7)
ARFH++ / “supervisão amplificável” / tentar fazer funcionar iterativamente

Algo nesse balde largo parece ser o plano baseado nas melhores opiniões atuais de laboratórios para o alinhamento amplificável. (Estou me dirigindo mais diretamente ao plano da OpenAI; o plano da Anthropic tem algumas ideias amplamente semelhantes; veja também a série nearcasting do Holden para uma versão mais detalhada de “tentar fazer funcionar iterativamente”, e a palestra do Buck discutindo isso.)

Grosso modo, é mais ou menos assim: “sim, ARFH não vai se amplificar sem limites. Mas vamos tentar ir o mais longe possível com coisas parecidas. Em seguida, vamos usar sistemas de IA mais inteligentes para ampliar nossa supervisão e, de maneira mais geral, vamos tentar usar IGAs minimamente alinhadas para nos ajudar a fazer pesquisas de alinhamento em momentos de pressão.”

Isso tem alguns benefícios importantes:

– Pode funcionar! Isso deve ser o mais próximo de um plano real e plausível que temos.
– “Experimentação iterativa” é geralmente como a ciência funciona, e isso me parece muito mais promissor do que a maior parte do trabalho com teoria abstrata.

Mas acho vergonhoso que isso seja o melhor que a gente tem:

– A falta de ambição é de desapontar. Atualmente, isso parece demais com “improvisar pelo caminho e cruzar os dedos” como o Plano A; esse devia ser o Plano B ou o Plano E.
– Pode muito bem não funcionar. Minha expectativa é que isso acerte um monte de alvos fáceis, que funcione em muitos mundos, mas com certeza não em todos (e acho que a maioria das pessoas que trabalham nisso concordaria). Esse realmente não devia ser o nosso único plano.
– Se baseia em suposições empíricas pouco claras sobre como vai ser o momento de pressão. Talvez as coisas fiquem lentas o suficiente e sejam coordenadas o suficiente para que possamos usar IAs mais fracas de forma iterativa para alinhar IAs mais inteligentes e descobrir as coisas pelo caminho mas, cara, não tenho tanta confiança para dormir tranquilo à noite.8
– Não tenho certeza se esse plano coloca a gente no caminho certo para chegar a um lugar onde possamos ter certeza de que o alinhamento amplificável foi resolvido. Por padrão, acho que acabaríamos em uma situação bastante ambígua.9 A ambiguidade pode ser fatal, exigindo que a gente tente a sorte na implementação da IGA sobre-humana ou bloqueie a implementação quando realmente deveria implementar, p. ex., para derrotar a China.10
MIRI e pesquisadores independentes similares.

Duvido muito, muito que um monte de trabalho abstrato sobre teoria da decisão e afins leve a gente até lá. Minha expectativa é que o alinhamento seja um problema de aprendizado de máquina e que a gente não possa resolver o alinhamento totalmente desconectado de sistemas de aprendizado de máquina de verdade.

Isso está incompleto, mas afirmo que, em linhas gerais, cobre a maior parte do trabalho que está acontecendo. Para ser claro, estou muito feliz por todo esse trabalho estar acontecendo! Não estou tentando criticar nenhuma pesquisa em particular (é o melhor que temos até agora!). Só estou tentando perfurar a complacência que sinto que muita gente que encontro têm.

Realmente não estamos no caminho certo para resolver esse problema!


O alinhamento (amplificável) é um problema real

Imagine que você tenha um GPT-7 e ele esteja começando a se tornar sobre-humano em muitas tarefas. Ele está ligado a um monte de ferramentas e à internet. Você deseja usá-lo para ajudar a administrar seus negócios e ele propõe uma série muito complicada de ações e códigos de computador. Você quer saber: esse plano vai violar alguma lei?

As técnicas atuais de alinhamento dependem da supervisão humana. O problema é que, conforme esses modelos se tornam sobre-humanos, os humanos não vão ser capazes de supervisionar de forma confiável suas saídas. (Nesse exemplo, a série de ações é muito complicada para que os humanos possam entender completamente as consequências). E se você não puder detectar o mau comportamento de forma confiável, não vai conseguir evitar o mau comportamento de forma confiável.11

Você nem precisa acreditar em cenários malucos de risco x para levar isso a sério; nesse exemplo, você não pode nem garantir que o GPT-7 não vai violar a lei!

Resolver esse problema para sistemas de IGA sobre-humanos se chama “alinhamento amplificável”; esse é um problema muito diferente e muito mais desafiador do que muito do trabalho de alinhamento de curto prazo (impedir que o ChatGPT diga palavrão) que está sendo feito agora.

Um caso particular que me importa: imagine o GPT-7 como acima, e ele está começando a ser sobre-humano na pesquisa de IA. O GPT-7 propõe um plano incrivelmente complexo para um sistema de IA novo, exótico e ainda mais avançado (cem mil linhas de código, ideias muito além do estado da arte atual). Ele também alegou projetar uma solução de alinhamento para esse sistema exótico avançado (novamente muito complexo para os humanos avaliarem). Como você sabe que a solução de segurança do GPT-7 realmente vai funcionar? Você poderia perguntar, mas como você sabe que o GPT-7 está respondendo honestamente? Não temos como fazer isso agora.12

A maioria das pessoas ainda tem na cabeça a analogia bostromiana do “clipe de papel” para o risco de IA. Nessa história, damos à IA alguma função de utilidade, e o problema é que a IA vai otimizar ingenuamente a função de utilidade (no exemplo bostromiano, uma empresa querendo fazer mais clipes de papel resulta numa IA transformando o mundo inteiro numa fábrica de clipes de papel ).

Não acho que as velhas analogias de Bostrom/Eliezer sejam particularmente úteis nesse ponto (e acho que a situação geral é ainda mais horrível do que a analogia de Bostrom sugere, mas vou deixar isso para uma nota de rodapé13). O desafio não é descobrir alguma função de utilidade nuançada e complicada que “represente os valores humanos”; o desafio é fazer com que as IAs façam o que diz a propaganda: fazer de forma confiável tudo o que um operador humano lhes disser para fazer.14

E para fazer com que as IAs façam o que mandamos, o principal desafio técnico se trata da amplificabilidade a sistemas sobre-humanos: o que acontece se a gente tiver sistemas sobre-humanos, que os humanos não podem supervisionar de forma confiável? As técnicas atuais de alinhamento que dependem da supervisão humana não vão adiantar.


O alinhamento é um problema solucionável

Talvez você pense que, devido ao meu pessimismo sobre o estado do campo, sou um daqueles doomers que tem 99% p(desgraça). Pelo contrário! Na realidade, estou bastante otimista sobre risco de IA.15

Parte disso é que eu acho que vai ter uma considerável resposta social endógena (veja também meu post complementar). No momento, falar sobre risco de IA é como gritar sobre Covid em fevereiro de 2020. Eu e muitos outros passamos o final daquele fevereiro angustiados com a desgraça iminente e desesperados porque absolutamente ninguém parecia se importar mas, literalmente em algumas semanas, os EUA fizeram a transição de ignorar a Covid para um bloqueio geral. Foi atrasado e imperfeito, etc., mas a pura intensidade da resposta da sociedade foi louca e nenhum de nós tinha levado isso em conta o bastante.

Algo mais crucial é que acho que o alinhamento da IA ​​é um problema solucionável. Acho que o fracasso até agora em fazer tanto progresso é mais ou menos zero evidência de que o alinhamento não é tratável. O nível e a qualidade do esforço investido no alinhamento da IA ​​até agora não teriam sido suficientes para construir o GPT-4, muito menos construir IGA; então não é grande evidência que isso não tenha sido suficiente para alinhar a IGA.

Algo fundamental é que acho que o alinhamento da IA ​​é um problema de aprendizado de máquina. Conforme os sistemas de IA vão se tornando mais avançados, o alinhamento está se tornando cada vez mais uma “ciência de verdade”, na qual podemos fazer experimentos de aprendizado de máquina, em vez de apenas experimentos mentais. Eu acho que isso é muito diferente em comparação com 5 anos atrás.

Por exemplo, estou muito empolgado com trabalhos como esse artigo recente (artigopostagem sobre visão mais ampla), que faz um protótipo de um método para detectar “se um modelo está sendo honesto” por meio de métodos não supervisionados. Mais do que apenas esse resultado específico, estou animado com o estilo:

  • Use pensamento conceitual para identificar métodos que possam plausivelmente se amplificar para métodos sobre-humanos (aqui: métodos não supervisionados, que não dependem da supervisão humana)
  • Teste empiricamente isso com modelos atuais.

Acho que tem muito mais a fazer nesse sentido pensar cuidadosamente sobre configurações empíricas que sejam análogas às dificuldades centrais do alinhamento amplificável e, em seguida, testar empiricamente e iterar em métodos de aprendizado de máquina relevantes.16

E, conforme observado antes, a comunidade do aprendizado de máquina é enorme em comparação com a comunidade do alinhamento. Conforme o mundo vai acordando para a IGA e o risco de IA, fico otimista de que podemos aproveitar esse talento de pesquisa para o problema do alinhamento. Se pudermos trazer excelentes pesquisadores de aprendizado de máquina, podemos multiplicar drasticamente o nível e a qualidade do esforço direcionado à solução do alinhamento.


Coisas melhores são possíveis

Esse otimismo não é motivo para complacência. Muito pelo contrário. Sem esforço, acho que estamos em uma situação assustadora. Esse otimismo é como dizer, em fevereiro de 2020, “se lançarmos uma Operação Warp Speed, se juntarmos os melhores cientistas num esforço duro, intenso e acelerado, com todos os recursos necessários e barreiras removidas, podemos ter uma vacina para a Covid em 6 meses”. No momento, estamos muito, muito longe disso. O que estamos fazendo agora é como dar algum financiamento para laboratórios de pesquisa quaisquer que fazem ciência básica sobre vacinas, na melhor das hipóteses.

Precisamos de um esforço coordenado que corresponda à gravidade do desafio. Os melhores pesquisadores de aprendizado de máquina do mundo deveriam estar trabalhando nisso! Tem que ter esforços de bilhões de dólares em grande escala com a dimensão e ambição da Operação Warp Speed ​​ou do pouso na Lua, ou até mesmo da própria equipe GPT-4 da OpenAI, trabalhando nesse problema.17 No momento, existe muita preocupação, muita conversa fiada e muito pouco “vamos arregaçar as mangas e realmente resolver esse problema”.

O estado da pesquisa de alinhamento não é bom; coisas muito melhores são possíveis. Podemos e devemos ter pesquisas que tratem diretamente das dificuldades centrais do problema técnico (que não apenas façam um trabalho vagamente relevante que talvez ajude, que não apenas fiquem dando voltas); que tenham um caminho plausível para resolver diretamente o problema em alguns anos (que não apenas adiem para improvisações futuras, que não apenas fiquem à espera de uma longa linha do tempo, que não confiem em cruzar os dedos); e que pensem conceitualmente sobre amplificabilidade enquanto também trabalham com plataformas de teste empíricas de verdade e sistemas de aprendizado de máquina de verdade.

Mas agora, pessoal, ninguém está esperto. Podemos bem estar à beira de um momento histórico mundial, mas o número de jogadores em campo é surpreendentemente pequeno.


Obrigado a Collin Burns por anos de discussão sobre essas ideias e por ajudar a escrever esse post; as opiniões são minhas e não expressam as dele. Obrigado a Holden Karnofsky e Dwarkesh Patel pelos comentários sobre um rascunho.

Notas de Rodapé

1. Observe que eu acredito em tudo isso apesar de ter muito mais incerteza sobre a IGA/linhas do tempo da IGA do que a maioria por aí. Posso escrever mais sobre isso em algum ponto, mas, em suma, minha probabilidade a priori é contra o progresso da IA atingir 100% de automação, em vez de algo que parece mais como 90% de automação. E 90% de automação é o que vimos repetidas vezes conforme o progresso tecnológico avançou; é só 100% de automação (de, p. ex., toda a ciência e pesquisa e desenvolvimento de tecnologia) que levaria a consequências transformadoras e inigualáveis.

E ainda que tenhamos IGA de 100% de automação, estou bastante otimista sobre ela ir bem, conforme discutido depois na postagem.

Eu poderia pôr o risco x de IA nos próximos 20 anos em cerca de 5%. Mas uma chance de 5% de extinção é ou um resultado similarmente ruim é, bem, ainda incrivelmente alta!

2. Não tenho bons números para a DeepMind; sinto que talvez seja de 10-20 pessoas no alinhamento amplificável vs. mais de 1000 na organização como um todo. A Google Brain quase não tem gente no alinhamento. A Anthropic está fazendo o melhor entre todas, com talvez 20-30 pessoas no alinhamento e na interpretabilidade vs. um tanto mais que 100 pessoas ao todo.

3. P. ex., pule conexões (em vez de f(x), faça f(x)+x, para que os gradientes fluam melhor); batchnorm (normalização deselegante); função ReLU em vez de função sigmoide; esses e afins foram alguns do maiores avanços no aprendizado de máquina!

4. Acho, sim, que o alinhamento vai exigir mais trabalho conceitual que as capacidades. No entanto, como discuto depois na postagem, acho que o papel correto do trabalho conceitual é pensar claramente sobre configurações (que sejam análogas ao problema final) e métodos (que possam se amplificar para sistemas sobre-humanos) empíricos — mas, daí, testar e iterar neles empiricamente. O Paul faz teoria pura, em vez disso.

5. O Claude da Anthropic usa Constitutional AI. Isso ainda depende do ARFH para a “prestatividade”, embora use assistência de IA para a “inofensividade”. Ainda acho que isso tem os mesmos problemas de amplificabilidade que o ARFH (a assistência de modelo na inofensividade fundamentalmente se baseia na supervisão humana do pré-treinamento e do estágio prestatividade de aprendizado por reforço); apesar de que eu ficaria feliz em também agrupar isso no “ARFH++” na próxima seção.

6. O Sydney (chat do Bing) teve uns modos de falha bizarros, mas acho provável que o Sydney não tenha passado por ARFH, só passado por ajuste fino. Compare isso com o ChatGPT/GPT-4 ou o Claude, que tem um desempenho muito bom! As pessoas ainda vão reclamar de desalinhamentos de modelos atuais, mas, se eu achasse que isso é igualmente amplificável para sistemas sobre-humanos, eu acharia que estamos totalmente bem.

Para ser claro, não me agrada tanto que o alinhamento seja aplicado, essencialmente, para censurar modelos atuais, e acho que isso é bastante diferente do problema central de longo prazo. Veja também o Paul sobre “AI alignment is distinct from its near-term applications

7. Veja também essa postagem da Ajeya Cotra para uma opinião mais detalhada sobre como o ARFH pode falhar; vale a pena ler isso, mesmo que eu não endosse necessariamente tudo ali.

8. Se a IA puder automatizar a pesquisa em IA, acho que cenários de decolagem de <1 anos são bem plausíveis (exceto pela coordenação/regulamentação), o que significa <1 ano de transição de IGAs de nível humano para loucas IGAs sobre-humanas. Veja essa análise de Tom Davidson; veja também a nota anterior sobre como um monte de progresso no aprendizado profundo veio simplesmente de ajustes inelegantes idiotas (IAs automatizando a pesquisa em IA poderiam encontrar muito mais disso); e esse artigo sobre o papel do progresso algorítmico vs. amplificação do poder computacional no progresso recente em IA.

Você pode argumentar que <1 ano poderia ser muitos anos de tempo subjetivo de pesquisa efetivo (porque temos as IAs fazendo toda a pesquisa), e em certa medida isso me deixa mais otimista. Dito isso, as propostas de ampliação iterativa dependem tipicamente de “humanos aprimorados por IAs”, de modo que podemos ainda ser limitados por humanos com IAs fazendo pesquisa de alinhamento. (Em contraste com capacidades, que podem não ser mais limitadas por humanos durante esse tempo — apenas fazer o referencial/objetivo do aprendizado por reforço/etc. subir.)

De modo mais geral, esse plano depende da capacidade da parte dos laboratórios de executar isso de forma bem competente numa louca situação de pressão — de novo, isso pode bem funcionar, mas não faz dormir tranquilo à noite. (Também tem uma qualidade de “mudança no último minuto” engraçada: vamos prosseguir, não fazendo muito progresso no alinhamento, mas aí, no momento de pressão, vamos mudar toda a organização para fazer trabalho iterativo de modo muito competente no alinhamento desses modelos.)

9. “Nossos esforços iterativos tem ido bem, mas, cara, as coisas têm andado rápido e têm tido uns modos de falha estranhos. Eu *acho* que conseguimos resolver esses modos de falha no nosso último modelo, mas toda vez que resolvemos modos de falha assim no passado, o próximo modelo veio com um outro modo de falha mais louco. Que garantia vamos ter que a nossa IGA sobre-humana não vai falhar catastroficamente; ou que nossos modelos não estão aprendendo a nos enganar?”

10. Veja mais discussões em minha postagem complementar: se eu fosse um laboratório, ia querer trabalhar muito duro para uma solução clara para o alinhamento para que a sociedade não acabe bloqueando a implementação da minha IGA.

11. Agradeço a Collin Burns por ajudar a colocar isso tão claro assim.

12. A razão para eu, em particular, me importar com esse exemplo é que não espero realmente que a maior parte do risco x venha do “GPT-7”/dos primeiros sistemas de IGA. Em vez disso, espero que a maior parte do risco bem assustador venha dos sistemas mais avançados loucos e exóticos que o “GPT-7”/IAs que fazem pesquisa de IA construírem a partir daí.

13. Bostrom diz que damos à IA uma função de utilidade, como maximizar clipes de papel. Quem dera fosse fácil assim! Não podemos nem dar à IA uma função de utilidade. A recompensa não é o alvo da otimização — tudo que estamos fazendo é especificar um processo de evolução. O que sai desse processo é alguma criatura que calha de se sair bem na métrica selecionada, mas não fazemos ideia do que está havendo internamente nessa criatura (cf. o meme do Shoggoth).

Acho que a analogia com a evolução humana é instrutiva aqui. Os humanos foram selecionados pela evolução para maximizar a reprodução. Mas isso não quer dizer que indivíduos humanos têm uma função de utilidade de maximizar a reprodução — em vez disso, aprendemos impulsos como querer fazer sexo ou comer açúcar que “no treinamento” nos ajudou a ir bem no processo de seleção evolutivo. Saia da distribuição um pouquinho, e esses impulsos significam que “nos descontrolamos”: olhe para nós, comendo açúcar demais até engordar, ou usando contraceptivos para fazer muito sexo enquanto temos cada vez menos filhos.

De modo mais geral, em vez das contribuições iniciais de Bostrom/Eliezer (que eu respeito, mas acho desatualizadas), acho que de longe os melhores escritos sobre risco de IA são do Holden Karnofsky e recomendaria fortemente que você lesse os artigos do Holden se ainda não leu.

14. Se alguém quiser usar IAs para maximizar a produção de clipes de papel, tudo bem — o problema central de alinhamento, conforme o vejo, é garantir que a IA realmente maximize a produção de clipes de papel se é isso o que o usuário pretende fazer.

Uso indevido é um problema real, e tenho uma preocupação especial com o espectro do autoritarismo global, mas acho que questões como essa (como lidamos com, p. ex., empresas que têm objetivos que não estão plenamente alinhados com o resto da sociedade) são mais contíguos aos problemas que já encaramos. E num mundo onde todo o mundo têm IAs poderosas, acho que seremos capazes de lidar com elas de uma maneira contígua.

Por exemplo, vamos ter IAs-polícia que garantem que outros sistemas de IA sigam a lei. (De novo, o desafio central aqui é que as IAs-polícia façam o que lhes mandamos fazer, em vez de, p. ex., tentarem lançar um golpe — veja Holden aqui e aqui.)

15. Como mencionado numa nota anterior, pus a chance de risco x de IA nos próximos 20 anos em cerca de 5%. Mas uma chance de extinção ou resultados similarmente ruins de 5%, bem, é demais!

16. Vou ter mais a dizer, em outro momento, sobre minhas próprias ideias e planos de alinhamento que mais me animam.

17. Ou talvez prêmios de um bilhão de dólares.


Publicado originalmente em 29 de março de 2023 aqui.

Autor: Leopold Aschenbrenner

Tradução: Luan Marques

Deixe um comentário