Curso de Alinhamento da IA – Texto Introdutório da Semana 8

Fundamentos do agente

As bases teóricas do campo do aprendizado de máquina se quebram de várias maneiras quando as usamos para descrever agentes do mundo real.

Esta semana cobrimos a pesquisa de fundamentos do agente.

Abordamos a pauta de pesquisa de fundamentos de agência (seguida principalmente pelo Machine Intelligence Research Institute (MIRI)), que tem como objetivo desenvolver melhores estruturas teóricas para descrever IAs integradas a ambientes do mundo real.

Não podemos cobrir o campo em profundidade, mas esperamos fornecer uma visão geral que você possa usar para explorar aspectos adicionais que considere interessantes. Mais conteúdo ainda está para ser confirmado para esta semana.

Até o final da sessão, você deverá ser capaz de:
  • Explicar o problema da agência integrada.
  • Definir o algoritmo AIXI e explicar por que ele não é computável.
  • Explicar o que é teoria lógica da decisão lógica.
  • Usar um diagrama de influência causal para ilustrar o conceito de um agente de RL ter incentivo para influenciar seu ambiente.

Recursos (cerca de 1h 40 min)

O que é o AIXI? de Marcus Hutter (2020) [Vídeo]

Tempo estimado: 20 min

Somente até os 18:00

Hutter introduz a motivação e detalhes para o AIXI. Utilize este recurso para compreender o que é o AIXI. Fique à vontade para pular este recurso se já tiver entendimento do algoritmo AIXI.

A fórmula exata não é importante para você lembrar, mas sim a configuração do problema é o que motiva parte do trabalho discutido nos recursos seguintes.

Agentes integrados de Scott Garrabrant and Demski (2018) [Blog]

Tempo estimado: 15 min

Este texto oferece uma visão geral de alto nível dos problemas em fundamentos do agente e das conexões entre eles. Concentre-se especialmente no termo agência integrada e na compreensão dos problemas que isso implica para a construção de sistemas alinhados.

Pode ser útil primeiro compreender o AIXI. Considere-o como um agente de “força bruta” que simula todas as sequências possíveis de ações em todos os ambientes possíveis. Como isso é incomputável, ele é usado apenas para ilustrar por que formalismos “dualistas” enfrentam limitações baseadas em princípios.

Se precisar de mais recursos para entender o algoritmo AIXI, recomendamos experimentar este explicador (10 min) ou este episódio de podcast com seu inventor (até 30 minutos).

Teoria lógica da decisão de Eliezer Yudkowsky (2017) [Blog]

Tempo estimado: 10 min

Yudkowsky delineia uma nova teoria de decisão que considera as correlações entre as decisões de diferentes agentes.

A teoria da decisão pode ser um precursor importante para entender como agentes altamente lógicos irão raciocinar sobre as decisões que tomam, e faz parte da pesquisa em fundamentos do agente.

Indução lógica: post de Nate Soares (2016) [Blog]

Tempo estimado: 10 min

Garrabrant et al. (2016) fornecem um algoritmo idealizado para indução sob incerteza lógica (por exemplo, incerteza sobre afirmações matemáticas). Isso está relacionado a como podemos querer que os agentes raciocinem, já que o problema da agência integrada sugere que o agente sempre terá alguma incerteza lógica ao tomar decisões.

Progresso em diagramas de influência causal: post de Tom Everitt, Ryan Carey, Lewis Hammond et al. (2021) [Blog]

Tempo estimado: 15 min

Este recurso introduz a pauta de pesquisa da “causalidade”.

Everitt et al. formalizam o conceito de um agente de aprendizado por reforço ter um incentivo para influenciar diferentes aspectos de sua configuração de treinamento.

Os incentivos são descritos na linguagem da causalidade. A causalidade é apresentada pelos autores do post como uma linguagem unificadora para descrever os incentivos do agente e, portanto, o desalinhamento.

Evitando efeitos colaterais considerando tarefas futuras de Victoria Krakovna, Laurent Orseau, Richard Ngo et al. (2020) [Artigo]

Tempo estimado: 20 min

Incluímos este artigo como uma abordagem inspirada na causalidade para o trabalho de alinhamento.

Sem considerar o contrafactual, um médico realizando uma cirurgia prejudica um paciente. Claro, ao considerar o contrafactual, sabemos que o paciente está sentindo menos dor do que teria sentido se o médico não tivesse intervindo. Como podemos formalizar isso como um resultado favorável nos fundamentos do agente?

Como discutido neste artigo, o conceito de “impacto” está considerando o contrafactual, no qual comparamos o que acontece no mundo real com um mundo alternativo onde seguimos alguma diretriz segura. Diretrizes seguras ainda podem resultar em danos, mas estamos interessados em saber se elas causam menos danos.

Os contrafactuais são “causais de Patamar 3”, de modo que a causalidade oferece uma boa linguagem para formalizar e raciocinar sobre essas coisas (p. ex., se é possível aprender o conceito a partir de determinados dados de treinamento).

Cooperação, conflito e IA transformadora de Jesse Clifton (2019) [Blog]

Tempo estimado: 10 min

Este recurso introduz a pauta de pesquisa da “cooperação”.

Clifton delineia uma pauta de pesquisa que se concentra em aplicar a teoria dos jogos para entender a dinâmica das interações entre múltiplos agentes. Compreender como os agentes podem cooperar é um componente importante dos fundamentos do agente e de prever como agentes reais podem interagir juntos e com humanos no mundo, se e quando forem desenvolvidos.


Tradução: Luan Marques

Link para o original.

Deixe um comentário