De Jesse Clifton. 17 de dezembro de 2019.
Índice
1. Introdução
A inteligência artificial transformadora (IAT) pode ser um fator-chave na trajetória de longo prazo da civilização. Uma crescente comunidade interdisciplinar começou a estudar como o desenvolvimento da IAT pode ser tornado seguro e benéfico para a vida senciente (Bostrom 2014; Russell et al., 2015; OpenAI, 2018; Ortega e Maini, 2018; Dafoe, 2018). Apresentamos uma pauta de pesquisa para avançar um componente crucial desse esforço: prevenir falhas catastróficas de cooperação entre sistemas de IAT. Por falhas de cooperação nos referimos a uma ampla classe de ineficiências potencialmente catastróficas nas interações entre atores capacitados pela IAT. Elas incluem conflitos destrutivos, coerção e dilemas sociais (Kollock, 1998; Macy e Flache, 2002) que destroem valor durante longos períodos de tempo. Apresentamos as falhas de cooperação mais detalhadamente na Seção 1.1.
Karnofsky (2016) define a IAT como “IA que precipita uma transição comparável à revolução agrícola ou industrial (ou mais significativa que elas)”. Tais sistemas variam desde sistemas unificados e semelhantes a agentes, que são o foco de, p. ex., Yudkowsky (2013) e Bostrom (2014), até os “serviços de IA abrangentes” previstos por Drexler (2019), nos quais os humanos são assistidos por uma série de poderosas ferramentas de IA específicas ao domínio. Na nossa opinião, as consequências potenciais de tal tecnologia são suficientes para motivar a pesquisa sobre a mitigação de riscos hoje, apesar da considerável incerteza sobre a linha do tempo para a IAT (Grace et al., 2018) e a natureza da IAT. Dadas essas incertezas, discutiremos frequentemente “falhas de cooperação” em termos bastante abstratos e nos concentraremos em questões relevantes para uma ampla gama de modos potenciais de interação entre sistemas de IA. Grande parte da nossa discussão dirá respeito a poderosos sistemas semelhantes a agentes, com capacidades gerais e objetivos expansivos. Mas, embora os cenários que dizem respeito a grande parte da investigação existente em segurança da IA focada no longo prazo envolvam sistemas semelhantes a agentes, uma característica importante das falhas catastróficas de cooperação é que também podem ocorrer entre atores humanos assistidos por ferramentas de IA restritas, porém poderosas.
A cooperação tem sido estudada há muito tempo em muitos campos: teoria política, economia, teoria dos jogos, psicologia, biologia evolucionista, sistemas multiagentes, e assim por diante. Mas é provável que a IAT apresente desafios e oportunidades sem precedentes decorrentes das interações entre atores poderosos. A dimensão das perdas decorrentes de ineficiências de negociação pode aumentar enormemente com as capacidades dos atores envolvidos. Além disso, características da inteligência de máquina podem levar a mudanças qualitativas na natureza dos sistemas multiagentes. Isso inclui mudanças:
- na capacidade de assumir compromissos críveis;
- na capacidade de automodificação (Omohundro, 2007; Everitt et al., 2016) ou de, em outros sentidos, criar agentes sucessores;
- na capacidade de modelar outros agentes.
Essas mudanças exigem o desenvolvimento de novas ferramentas conceituais, tomando como base e modificando as muitas literaturas relevantes que estudaram a cooperação entre humanos e sociedades humanas.
1.1 Falha de cooperação: modelos e exemplos
Muitas das falhas de cooperação nas quais estamos interessados podem ser entendidas como deserção mútua num dilema social. Informalmente, um dilema social é um jogo em que todos estarão em melhor situação se todos cooperarem, mas a racionalidade individual pode levar à deserção. Formalmente, seguindo Macy e Flache (2002), diremos que um jogo de forma normal para dois jogadores com resultados indicados como na Tabela 1 é um dilema social se os resultados satisfizerem estes critérios:
- R > P (a cooperação mútua é melhor que a deserção mútua);
- R > S (a cooperação mútua é melhor do que cooperar enquanto o seu equivalente deserta);
- 2R > T + S (a cooperação mútua é melhor do que randomizar entre cooperação e deserção);
- Para as quantidades ganância = T – R e medo = P – S, os rendimentos satisfazem ganância > 0 ou medo > 0.
Jogador 2: Ação 1 | Jogador 2: Ação 2 | |
Jogador 1: Ação 1 | R, R | S, T |
Jogador 1: Ação 2 | T, S | P, P |
C | D | |
C | -1, -1 | -3, 0 |
D | 0, -3 | -2, -2 |
C | D | |
C | 0, 0 | -1, 1 |
D | 1, -1 | -10, -10 |
C | D | |
C | 3, 3 | 0, 2 |
D | 2, 0 | 1, 1 |
Tabela 1: um jogo simétrico de forma normal (cima) e três dilemas sociais clássicos (baixo).
O equilíbrio de Nash (isto é, uma escolha de estratégia da parte de cada jogador de modo que nenhum jogador possa se beneficiar de um desvio unilateral) tem sido utilizado para analisar falhas de cooperação em dilemas sociais. No Dilema do Prisioneiro (DP), o único equilíbrio de Nash é a deserção mútua. Na Caça ao Cervo, existe um equilíbrio cooperativo que exige que os agentes se coordenem e um equilíbrio desertor que não exige. No Frango, existem dois equilíbrios de Nash de pura estratégia (o jogador 1 joga D enquanto o Jogador 2 joga C e vice-versa), bem como um equilíbrio no qual os jogadores randomizam independentemente entre C e D. O equilíbrio de estratégia mista ou a seleção do equilíbrio descoordenado podem, portanto, resultar num colapso (isto é, deserção mútua).
Os dilemas sociais têm sido usados para modelar falhas de cooperação na política internacional; Snyder (1971) analisa as aplicações do DP e do Frango, e Jervis (1978) discute cada um dos dilemas sociais clássicos no seu influente tratamento do dilema da segurança.1 Entre os exemplos mais proeminentes está o modelo da corrida armamentista como um DP: ambos os jogadores constroem armas (deserção) apesar do fato de que o desarmamento (cooperação) é mutuamente benéfico, já que nenhum deles quer ser a parte que desarma enquanto seu contrário se fortalece. Os dilemas sociais também foram aplicados a uma série de problemas de ação coletiva, como a utilização de um recurso comum (cf. a famosa “tragédia dos bens comuns” (Hardin, 1968; Perolat et al., 2017)) e a poluição. Veja Dawes (1980) para uma revisão focada em tais casos.
Muitas interações não são adequadamente modeladas por jogos simples como os da Tabela 1. Por exemplo, os Estados que enfrentam a perspectiva de um conflito militar têm informações incompletas. Ou seja, cada parte tem informações privadas sobre os custos e benefícios do conflito, a sua força militar, e assim por diante. Têm também a oportunidade de negociar durante longos períodos, monitorar até certo ponto as atividades uns dos outros, e assim por diante. A literatura sobre modelos de negociação de guerra (ou “negociação de crise”) é uma fonte de análises mais complexas (p. ex., Powell 2002; Kydd 2003; Powell 2006; Smith e Stam 2004; Feyand Ramsay 2007, 2011; Kydd 2010). Num artigo clássico dessa literatura, Fearon (1995) defende três hipóteses agora paradigmáticas como as explicações mais plausíveis para o motivo pelo qual agentes racionais iriam para a guerra:
- Credibilidade: agentes não podem se comprometer de forma crível com os termos de uma solução pacífica;
- Informação incompleta: agentes têm diferentes informações privadas relacionadas com as suas probabilidades de vencer um conflito e incentivos para deturpar essa informação (veja Sanchez-Pages (2012) para uma revisão da literatura sobre negociação e conflito sob informação incompleta);
- Apostas indivisíveis: o conflito não pode ser resolvido dividindo os interesses, pagamentos paralelos, etc.
Outro exemplo de falha de cooperação potencialmente desastrosa é a extorsão (e outras ameaças irresistíveis) e a execução de tais ameaças por agentes poderosos. Além de as ameaças serem prejudiciais ao seu alvo, a execução das ameaças parece constituir uma ineficiência: como acontece com uma guerra, os ameaçadores enfrentam os custos diretos de causar danos e, em alguns casos, riscos de retaliação ou de ação legal.
A literatura sobre negociação de crises entre agentes racionais também pode nos ajudar a compreender as circunstâncias nas quais ameaças irresistíveis são feitas e executadas e apontar para mecanismos para evitar esses cenários. Contrariando a hipótese de que a guerra entre agentes racionais A e B pode ocorrer como resultado de interesses indivisíveis (p. ex., um território), Powell (2006, p. 178) apresenta um caso semelhante ao do Exemplo 1.1.1, que mostra que alocar os interesses totais para cada agente de acordo com suas probabilidades de vencer uma guerra domina de Pareto a opção de lutar.
Exemplo 1.1.1 (Conflito simulado).
Considere dois países disputando um território que tem valor d para cada um deles. Suponha que o país da fileira tenha probabilidade p de vencer um conflito e que conflito custe c > 0 para cada país, de modo que suas recompensas por Render-se e Lutar sejam as mesmas da matriz superior da Tabela 2. No entanto, suponha que os países concordem com a probabilidade p de que os jogadores da fileira ganhem; talvez eles tenham acesso a um simulador de guerra de confiança mútua que faça com que os jogadores ganhem em 100p% das simulações. Então, em vez de se envolverem em conflitos reais, eles poderiam alocar o território com base em um sorteio do simulador. É preferível jogar esse jogo, pois poupa a cada país o custo c de conflito real.
Render-se | Lutar | |
Render-se | 0, 0 | 0, d |
Lutar | d, 0 | pd – c, (1 – p)d – c |
Render-se | Luta simulada | |
Render-se | 0, 0 | 0, d |
Luta simulada | d, 0 | pd, (1 – p)d |
Tabela 2: alocar interesses indivisíveis com conflito (cima) e conflito simulado (baixo).
Se os jogadores pudessem se comprometer com os termos de acordos pacíficos e divulgar verdadeiramente informações privadas necessárias para a construção de um acordo (por exemplo, informações relativas à probabilidade de resultado p no Exemplo 1.1.1), a atribuição de interesses indivisíveis poderia muitas vezes ser atingida. Assim, a mais plausível das explicações racionalistas de Fearon para a guerra parece ser (1) a dificuldade de um compromisso crível e (2) informação incompleta (e incentivos para deturpar essa informação). A Seção 3 trata da discussão da credibilidade nos sistemas de IAT. Na Seção 4 discutimos diversas questões relacionadas à resolução de conflitos sob informações privadas.
Por último, embora a teoria dos jogos forneça um quadro poderoso para modelar o falha de cooperação, os sistemas de IAT ou os seus operadores não serão necessariamente bem modelados como agentes racionais. Por exemplo, sistemas que envolvem humanos no circuito, ou agentes de IAT de caixa-preta treinados por métodos evolucionistas, podem ser governados por uma rede complexa de heurísticas de tomada de decisão que não são facilmente capturadas numa função de utilidade. Discutimos direções de pesquisa que são particularmente relevantes para falhas de cooperação entre esses tipos de agentes nas Seções 5.2 (Treinamento multiagente) e 6 (Humanos no circuito).
1.2 Esboço da pauta
Abaixo listamos as seções da pauta. Diferentes seções podem atrair leitores de diferentes origens. Por exemplo, a Seção 5 (arquiteturas de IA contemporâneas) pode ser mais interessante para aqueles com algum interesse em aprendizado de máquina, enquanto a Seção 7 (fundamentos da agência racional) será mais relevante para leitores com interesse em epistemologia formal ou nos fundamentos filosóficos da teoria da decisão. Os marcadores após a descrição de cada seção indicam os campos mais relevantes para aquela seção. Algumas seções contêm exemplos que ilustram pontos técnicos ou explicam com mais detalhes uma possível direção de pesquisa.
- Seção 2: estratégia e governança da IA. A natureza das perdas decorrentes de falhas na cooperação dependerá do cenário estratégico no momento em que a IAT for implementada. Isso inclui, por exemplo, até que ponto a paisagem é unipolar ou multipolar (Bostrom, 2014) e o equilíbrio entre capacidades ofensivas e defensivas (Garfinkel e Dafoe, 2019). Como outros interessados em moldar a IAT para melhor, queremos compreender esse panorama, especialmente na medida em que pode nos ajudar a identificar alavancas para prevenir falhas catastróficas de cooperação. Dado que grande parte da nossa pauta consiste em pesquisa teórica, uma questão importante que devemos responder é se e como esta pesquisa se traduz na governança da IAT. Políticas públicas; Relações Internacionais; Teoria dos jogos; Inteligência artificial
- Seção 3: credibilidade. A credibilidade – por exemplo, a credibilidade dos compromissos de honrar os termos dos acordos ou de realizar ameaças – é uma característica crucial da interação estratégica. Mudanças na capacidade dos agentes de se automodificarem (ou criarem agentes sucessores) e de verificarem aspectos do funcionamento interno uns dos outros provavelmente mudarão a natureza dos compromissos críveis. Esses acontecimentos previstos exigem a aplicação da atual teoria da decisão e dos jogos a novos tipos de agentes e o desenvolvimento de uma nova teoria (como a do equilíbrio dos programas (Tennenholtz, 2004)) que explique melhor as características relevantes da inteligência de máquina. Teoria dos jogos; Economia comportamental; Inteligência artificial
- Seção 4: mecanismos de negociação pacífica. Chame de mecanismo de negociação pacífica um conjunto de estratégias para cada jogador que não leva a um conflito destrutivo e que cada agente prefere a jogar uma estratégia que leva a um conflito destrutivo. Nesta seção, discutimos várias estratégias e problemas possíveis que precisam ser abordados para garantir que sejam implementados. Essas estratégias incluem estratégias de negociação retiradas da literatura existente sobre negociação racional em crises, ou inspiradas nela (veja a Seção 1.1), bem como uma proposta pouco discutida para desviar ameaças convincentes que chamamos de objetivos substitutos (Baumann, 2017, 2018). Teoria dos jogos; Relações Internacionais; Inteligência artificial
- Seção 5: arquiteturas de IA contemporâneas. A inteligência artificial multiagente não é um campo de estudo novo e a cooperação é de interesse crescente para pesquisadores de aprendizado de máquina (Leibo et al., 2017; Foerster et al., 2018; Lerer e Peysakhovich, 2017; Hughes et al., 2018; Wang et al., 2018). Mas continuam a existir caminhos inexplorados para compreender as falhas de cooperação utilizando as ferramentas existentes de inteligência artificial e aprendizado de máquina. Eles incluem a implementação de abordagens para melhorar a cooperação que aproveitem melhor a potencial transparência dos agentes entre si; as implicações de vários regimes de formação multiagentes para o comportamento dos sistemas de IA em ambientes multiagentes; e análise dos procedimentos de tomada de decisão implementados implicitamente por vários algoritmos de aprendizado por reforço. Aprendizado de máquina; Teoria dos jogos
- Seção 6: humanos no circuito. Vários cenários e propostas de IAT envolvem um ser humano no circuito, seja na forma de uma ferramenta de IA controlada por humanos, ou de um agente-IA que procura aderir às preferências de supervisores humanos. Eles incluem a destilação e a amplificação iterada de Christiano (2018c) (IDA; veja Cotra 2018 para uma introdução acessível), os serviços de IA abrangentes de Drexler (2019) e a abordagem da modelagem de recompensa de Leike et al. (2018). Gostaríamos de uma melhor compreensão da teoria dos jogos comportamental, destinada a melhorar a cooperação em cenários de IAT envolvendo sistemas com humanos no circuito. Estamos particularmente interessados em avançar no estudo da teoria dos jogos comportamental nas interações entre humanos e IAs. Aprendizado de máquina; Economia comportamental
- Seção 7: fundamentos da agência racional. A perspectiva da IAT coloca em primeiro plano diversas questões não resolvidas nos fundamentos da agência racional. Embora a lista de problemas em aberto na teoria da decisão, na teoria dos jogos, na epistemologia formal e nos fundamentos da inteligência artificial seja longa, nosso foco inclui a teoria da decisão para agentes computacionalmente limitados; e perspectivas para a racionalidade e a viabilidade de vários tipos de tomada de decisão em que os agentes levam em conta dependências não causais entre as suas ações e os seus resultados. Epistemologia formal; Teoria da decisão na filosofia; Inteligência artificial
Nota
1. O dilema da segurança se refere a uma situação na qual ações executadas por um Estado para melhorar a sua segurança (p. ex., aumentar as suas capacidades militares) leva outros Estados a agir de modo semelhante. Isso leva a um aumento de tensões que todas as partes irião preferir evitar.
Referências
Consulte as referências neste link.
Tradução: Luan Marques
Link para o original