Evitar a vulnerabilidade global extrema como um problema central da governança da IA - 80.000 Horas: Como fazer a diferença com sua carreira

Muito foi escrito estruturando e articulando o problema da governança da IA a partir de uma lente de riscos catastróficos, mas esses escritos têm sido dispersos. Esta página visa fornecer uma introdução sintetizada a algumas dessas estruturações já proeminentes¹. Esta é apenas uma tentativa de sugerir uma estrutura geral para pensar sobre alguns problemas de governança da IA; pode perder de vista coisas importantes.

Alguns pesquisadores acham que o desenvolvimento inseguro ou o uso indevido da IA podem causar enormes danos. Um dos principais contribuintes para alguns desses riscos é que a catástrofe pode não exigir que todos ou a maioria dos tomadores de decisão relevantes tomem decisões prejudiciais. Em vez disso, decisões prejudiciais de apenas uma minoria de tomadores de decisão influentes – talvez apenas um único ator com boas intenções – podem ser suficientes para causar uma catástrofe. Por exemplo, alguns pesquisadores argumentam que, se apenas uma organização implementar uma IA desalinhada e altamente capaz que busca objetivos – ou se muitas empresas (mas uma pequena porção de todas as empresas) implementarem uma IA desalinhada que busca objetivos – a humanidade poderia ser permanentemente debilitada².

O supracitado não seria muito preocupante se pudéssemos ter certeza de que nenhum ator capaz dessas ações prejudiciais as realizaria. No entanto, especialmente no contexto da segurança da IA, vários fatores podem incentivar alguns atores a realizar ações de implementação prejudiciais:

Julgamento incorreto: avaliar as consequências da implementação de uma IA pode ser difícil (como é agora, especialmente dada a natureza dos argumentos de risco da IA³); portanto, algumas organizações podem facilmente errar, concluindo que um sistema de IA é seguro ou benéfico quando não é.
Competição “em que o vencedor leva tudo“: se é esperado que a(s) primeira(s) organização(ões) a implementar a IA avançada terá(ão) grandes ganhos, deixando os concorrentes sem nada, os concorrentes seriam altamente incentivados a ser mesquinhos na segurança para serem os primeiros⁴ — eles teriam menos a perder.
Externalidades : por padrão, os atores que implementam a IA avançada primeiro por serem mesquinhos na segurança receberiam todos os benefícios potenciais de sua implementação, incorrendo apenas numa pequena fração do risco global adicional (especialmente se eles estiverem preocupados apenas com os interesses de um pequeno grupo).
Corrida para o fundo do poço: a dinâmica acima pode envolver um perigoso ciclo de feedback. Se eu espero que alguém implemente uma IA avançada de forma insegura ou faça mau uso dela, sou incentivado a ser mesquinho na segurança para chegar antes dele, mesmo que esteja completamente informado de todos os riscos e preocupado com eles. Afinal, posso pensar que minha implementação seria menos perigosa que a dele. (E isso pode incentivá-lo a ser mais mesquinho, num ciclo vicioso⁵).

Multiplicando⁶ a dificuldade do problema acima, alguns fatores provavelmente criarão muitas oportunidades para os atores realizarem implementações catastroficamente prejudiciais:

Segurança delongada: pode haver um atraso substancial entre quando uma organização sabe como construir uma IA poderosa e quando uma organização sabe como fazê-lo com segurança. Afinal, esses atrasos de segurança são comuns em muitos setores. Além disso, pode ser inviável resolver problemas de segurança da IA antes que capacidades de IA arriscadas sejam criadas, visto que essas capacidades podem fornecer plataformas de teste e ferramentas essenciais para resolver problemas de segurança.
- (Esse atraso pode ser o período de risco especialmente alto; logo após o término desse atraso, os riscos de IA insegura podem ser bastante reduzidos, porque os incentivos para implementá-la podem ser menores e a IA segura pode aumentar a resiliência da humanidade.)
Rápida difusão de capacidades de IA : logo depois que algum ator se torna capaz de implementar uma IA insegura, muitos outros atores também podem obter essa capacidade. Afinal, os avanços recentes da IA se difundiram rapidamente (inclusive no âmbito internacional)⁷, as fraquezas da segurança da informação podem fazer com que os avanços da IA se difundam ainda mais rapidamente, o número de atores explicitamente com o objetivo de desenvolver a IA geral tem aumentado e essa tendência pode acelerar quando a IA geral for vista como mais alcançável.

No geral, então, podemos estar caminhando para um período significativo em que muitos atores terão capacidade e incentivos para (involuntariamente) implementar IAs catastroficamente prejudiciais. Esse seria um estado de coisas altamente arriscado — um mundo vulnerável, uma receita para a catástrofe.

A existência dessa possibilidade significa a desgraça? Não necessariamente. Na situação acima, o risco vem do fato de que muitos atores são capazes de implementar IAs perigosas, e incentivados a isso, por um período substancial de tempo⁸. Muitos aspectos dessa situação podem, pelo menos teoricamente, ser alterados, reduzindo o risco⁹, por exemplo, através das seguintes abordagens abstratas:

Não proliferação: os atores podem (se coordenar para) retardar a difusão da capacidade de implementar IAs excessivamente arriscadas¹⁰, reduzindo o número de atores que podem tomar decisões prejudiciais unilateralmente.
Dissuasão: os atores podem (se coordenar para) criar desincentivos (p. ex., políticos, regulatórios, econômicos, culturais) a ações de implementação que causam risco global, combatendo problemas advindos de externalidades¹¹.
Garantia: os atores podem (se coordenar ou criar mecanismos para) garantir com credibilidade uns aos outros que não estão desenvolvendo ou implementando uma IA excessivamente arriscada, reduzindo os incentivos dos outros para antecipá-los com uma implementação ainda mais apressada.
Conscientização: os atores podem ajudar os implementadores de IA em potencial a serem bem informados sobre os riscos, reduzindo julgamentos incorretos.
Compartilhamento: os desenvolvedores de IA podem (se coordenar ou criar mecanismos para) se comprometer com credibilidade em compartilhar os benefícios e a influência da IA, mitigando incentivos prejudiciais de dinâmicas “em que o vencedor leva tudo”¹².
Acelerar a segurança: os atores podem encurtar (ou, se possível, eliminar¹³) o período em que decisões perigosas de implementação são possíveis, mas tecnologias de proteção (acessíveis) ainda não foram desenvolvidas, p. ex., por meio de trabalho técnico em segurança.

(Além de sua relevância para o alinhamento da IA, a maioria desses argumentos provavelmente se transfere para preocupações sobre o uso indevido catastrófico de IA restrita, bem como para preocupações mais amplas sobre a erosão de valores advinda da competição ou talvez outras falhas de coordenação entre sistemas de IA. Isso sugere que impor restrições na competição em IA é algo resilientemente valioso. No entanto, alguns pesquisadores temem que uma abordagem excessivamente centralizada ao desenvolvimento da IA possa ter alguns riscos próprios, como um mau “trancamento valorativo” ou um autoritarismo viabilizado pela IA).

Notas

1. Em particular, a estruturação deste documento do problema da governança da IA visa sintetizar várias estruturações que foram coletivamente destacadas por escrito pelos pesquisadores Bostrom [1] [2] [3], Christiano [1] [2], Critch, Dafoe [1] [2], Ord, Yudkowsky e Zabel e Muehlhauser, entre outros, com destaque para as seguintes estruturações:

Preocupações com a “erosão de valores advinda da competição” ou uma “corrida para o fundo do poço” na IA, ou seja, dinâmicas de competição intensa e irrestrita levando a resultados ruins
Expectativas de que a implementação da IA avançada será altamente centralizada ou altamente descentralizada
A “Hipótese do Mundo Vulnerável”, incluindo preocupações sobre os riscos de muitos atores terem a capacidade de tomar medidas prejudiciais unilateralmente com a IA
A estruturação da governança da IA como um problema de coordenação
Preocupações de que se deva conciliar o desempenho e a segurança (ou outros valores importantes) dos sistemas de IA e, em particular, que a segurança da IA adicione um tempo de desenvolvimento significativo a qualquer projeto de IA
Preocupações com o potencial de mau “trancamento valorativo”, como regimes autoritários duradouros, especialmente se a governança da IA for coordenada demais

2. Outros exemplos: se apenas um ator fizer uso indevido da IA, fabricando e implementando armas que são amplamente prejudiciais (p. ex., armas biológicas), isso pode causar uma devastação global. E se apenas algum(ns) ator(es) buscar(em) muita influência enquanto sacrifica(m) valores importantes, ele(s) pode(m) obter essa influência, enquanto reduz(em) de forma duradoura o valor de como a influência será usada.

3. O excesso de confiança pode ser especialmente provável se bons argumentos para que a IA seja arriscada forem complexos, teóricos ou focados em catástrofes que nunca aconteceram ainda. Veja, p. ex., o artigo “Risks From Learned Optimization in Advanced Machine Learning Systems” para um exemplo de argumentos que alguns pesquisadores consideram corretos, apesar de sua embalagem potencialmente não intuitiva.

4. Isso pode ser considerado um problema de comprometimento; o desenvolvedor de IA que inicialmente lidera não pode se comprometer com credibilidade em compartilhar seus ganhos; logo, outros desenvolvedores de IA criam um risco global para avançar, deixando todos em pior situação do que poderiam estar.

5. Eu não anteciparia isso e, portanto, não seria mesquinho em primeiro lugar? Tomara, mas posso carecer da previdência para fazer isso, posso estar disposto a correr o risco de o outro ator me prejudicar (na esperança de que isso não aconteça, ou para fortalecer minha posição de negociação demonstrando determinação) e posso ter incentivos políticos para buscar uma liderança meramente temporária. Alternativamente, se eu estiver perto o suficiente da implementação, é improvável que os outros me vençam sendo ainda mais mesquinhos.

6. Tecnicamente, o efeito desses fatores não é tão multiplicativo.

7. Cerca de 1 ano depois que a OpenAI anunciou o GPT-3, um modelo de linguagem com um número sem precedentes de parâmetros, pesquisadores da empresa chinesa Huawei lançaram um modelo comparativamente grande (embora alguns pesquisadores ressaltem que grandes modelos de linguagem na China foram criados principalmente por meio de replicação e que eles têm um desempenho significativamente pior). Cerca de um semestre depois disso, um total de aproximadamente 6 desenvolvedores de IA – incluindo também os da Coreia do Sul e de Israel – lançaram modelos de linguagem similarmente grandes. Além disso, 2 meses depois que a OpenAI anunciou o modelo de geração de imagens de ponta DALLE-2, a Google lançou um modelo semelhante (e melhor em algumas métricas).

8. Observe que chegamos à nossa conclusão sobre o perigo potencial sem presumir que a segurança ou o alinhamento da IA são problemas técnicos extraordinariamente difíceis.

9. Restringir a competição não é apenas plausivelmente (e discutivelmente) necessário para a segurança da IA; também é quase suficiente para garantir que a IA seja segura. Com a competição restringida, os incentivos dos desenvolvedores de IA para a autopreservação podem ser suficientes para que eles invistam o suficiente em segurança, especialmente se pesquisas preliminares de segurança e o ativismo tiverem sido feitos.

10. Isso pode significar retardar a difusão do conhecimento sobre como criar IA arriscada, mas também pode significar retardar a difusão (ou restringir a disponibilidade) de inputs cruciais além do conhecimento. Fusões ou projetos conjuntos de pesquisa e desenvolvimento também podem reduzir o número de unilateralistas independentes.

11. Além disso, a dissuasão da proliferação pode promover a não proliferação.

12. Mecanismos de compromisso potenciais incluem: a Cláusula de lucro inesperado (em inglês, windfall clause [definição]), os mecanismos de compromisso institucional e cultural do Estatuto da OpenAI e do Comunicado da OpenAI LP, novas instituições multilaterais e mecanismos baseados em IA.

13. Eliminar esse atraso seria, obviamente, o ideal; quase resolveria esses problemas. No entanto, pelas razões discutidas na seção anterior sobre segurança delongada, isso pode ser inviável. Se for esse o caso, o trabalho técnico em segurança é, em princípio, insuficiente para tornar muito provável que a IA seja segura; os problemas discutidos neste documento ainda surgiriam e precisariam ser abordados.

Publicado originalmente aqui.

Autor: BlueDot Impact

Tradução: Luan Marques

Notas

Deixe um comentário Cancelar resposta