O Problema Fácil da Inferência de Metas ainda é Difícil

De Paul Christiano

Postado como parte da sequência do AI Alignment Forum sobre Aprendizado de Valores.

Nota de Rohin: Neste post (original aqui), Paul Christiano analisa a ambiciosa abordagem do aprendizado de valores. Ele considera uma visão mais geral do aprendizado de valores ambicioso, na qual você infere preferências em termos mais gerais (ou seja, não necessariamente na forma de uma função de utilidade) e pode perguntar ao usuário sobre suas preferências, mas não há problema em imaginar que infere uma função de utilidade a partir dos dados e, em seguida, a otimiza. A principal conclusão é que, para inferir preferências que podem levar a um desempenho sobre-humano, é necessário compreender como os humanos são enviesados, o que parece muito difícil, mesmo com dados infinitos.


Uma abordagem para o problema do controle da IA é assim:

  1. Observe o que o usuário do sistema diz e faz.
  2. Infira as preferências do usuário.
  3. Tente tornar o mundo melhor segundo a preferência do usuário, talvez trabalhando junto com ele e fazendo perguntas esclarecedoras.

Essa abordagem tem a grande vantagem de podermos começar o trabalho empírico hoje; podemos realmente construir sistemas que observem o comportamento do usuário, tentem descobrir o que o usuário deseja e então ajudem com isso. Existem muitas aplicações com as quais as pessoas já se preocupam e podemos começar a trabalhar na criação de modelos de brinquedos sofisticados.

Parece ótimo desenvolver essas capacidades em paralelo com outros progressos na IA e abordar quaisquer dificuldades que realmente surjam, à medida que surgem. Ou seja, em cada domínio onde a IA pode agir de forma eficaz, gostaríamos de garantir que a IA também possa agir de forma eficaz ao serviço dos objetivos inferidos dos usuários (e que essa inferência seja suficientemente boa para apoiar aplicações previsíveis).

Essa abordagem nos dá um modelo legal e concreto de cada dificuldade que estamos tentando resolver. Também fornece um indicador relativamente claro sobre se a nossa capacidade de controlar a IA está aquém da nossa capacidade de construí-la. E por ser tecnicamente interessante e economicamente significativa agora, pode realmente ajudar a integrar o controle da IA ​​com a prática da IA.

No geral, penso que esse é um ângulo particularmente promissor no problema da segurança da IA.

Modelando a imperfeição

Apesar disso, penso que essa abordagem assenta num pressuposto otimista: que é possível modelar um ser humano como um agente racional imperfeito e extrair os valores reais que o ser humano está otimizando de forma imperfeita. Sem essa suposição, parece que algumas ideias adicionais são necessárias.

Para isolar esse desafio, podemos considerar uma vasta simplificação do problema da inferência de metas:

O problema fácil da inferência de metas: sem limitações algorítmicas e com acesso à diretriz humana completa – uma tabuada de consulta do que um ser humano faria depois de fazer qualquer sequência de observações –, encontre qualquer representação razoável de qualquer aproximação razoável do que esse ser humano deseja.

Penso que esse problema permanece em aberto e que fizemos muito pouco progresso no caso geral. Podemos tornar o problema ainda mais fácil, considerando um ser humano num universo simples de brinquedo, tomando decisões relativamente simples, mas ainda assim nos deixa com um problema muito difícil.

Não me está claro se ou exatamente como o progresso na IA tornará esse problema mais fácil. Posso certamente ver como um progresso suficiente na ciência cognitiva pode produzir uma resposta, mas parece muito mais provável que, em vez disso, nos diga “A sua pergunta não foi bem definida”. O que fazemos então?

Estou especialmente interessado nesse problema porque penso que o progresso “como de costume” na IA provavelmente levará à capacidade de prever relativamente bem o comportamento humano e de emular o desempenho dos especialistas. Então, eu realmente me importo com o remanescente: o que precisamos saber para lidar com o controle da IA, além do que precisamos saber para construir a IA?

Domínios restritos

Podemos resolver o problema muito fácil da inferência de metas em domínios suficientemente restritos, onde os humanos podem se comportar de forma aproximadamente racional e um modelo de erros simples é aproximadamente correto. Até agora isso tem sido bom o suficiente.

Mas, a longo prazo, os humanos tomam muitas decisões cujas consequências não se limitam a um domínio simples. Essa abordagem pode funcionar para dirigir do ponto A ao ponto B, mas provavelmente não funcionará para projetar uma cidade, administrar uma empresa ou definir boas políticas.

Pode haver uma abordagem que use o aprendizado por reforço inverso em domínios simples como um bloco de construção para resolver todo o problema do controle da IA. Talvez nem seja uma abordagem terrivelmente complicada. Mas não é um problema trivial, e não creio que possa ser descartado facilmente sem algumas ideias novas.

Modelar “erros” é fundamental

Se quisermos executar uma tarefa tão bem quanto um especialista, o aprendizado por reforço inverso é claramente uma abordagem poderosa.

Mas, a longo prazo, muitas aplicações importantes exigem que IAs tomem decisões melhores do que as dos especialistas humanos disponíveis. Isso faz parte da promessa da IA ​​e é o cenário em que o controle da IA ​​se torna mais desafiador.

Nesse contexto, não podemos usar o paradigma habitual, “modelos mais precisos são melhores”. Um modelo perfeitamente preciso nos levará exatamente ao mimetismo humano e não mais longe.

O possível impulso extra do aprendizado por reforço inverso vem de um modelo explícito dos erros humanos ou da racionalidade limitada. É o que especifica o que a IA deve fazer de diferente para ser “mais inteligente”, quais partes da diretriz humana ela deve descartar. Portanto, especifica implicitamente quais dos comportamentos humanos a IA deve manter. O modelo dos erros não é uma consideração posterior; é o assunto principal.

Modelar “erros” é difícil

Os modelos de erros existentes para o aprendizado por reforço inverso tendem a ser muito simples, variando desde o ruído gaussiano nas observações do comportamento do especialista ou nas leituras dos sensores, até a suposição de que as escolhas do especialista são aleatórias com uma tendência para melhores ações.

Na verdade, os humanos não são agentes racionais com algum ruído em cima. Nossas decisões são o produto de uma complicada zona de processos interativos, otimizados pela evolução para a reprodução dos filhos de nossos filhos. Não está claro se existe uma boa resposta para o que um ser humano “perfeito” faria. Se você encontrasse alguma resposta baseada em princípios para “o que o cérebro humano está otimizando?”, a aposta mais provável deve ser algo como “sucesso reprodutivo”. Mas essa não é a resposta que procuramos.

Não creio que escrever um modelo de imperfeições humanas, que descreva como os humanos se afastam da busca racional de objetivos fixos, seja provavelmente mais fácil do que escrever um modelo completo do comportamento humano.

Também não podemos usar técnicas normais de IA para aprender esse tipo de modelo; o que torna um modelo bom ou ruim? A visão padrão – “modelos mais precisos são melhores” – é adequada, desde que seu objetivo seja só imitar o desempenho humano. Mas essa visão não fornece orientação sobre como separar a parte “boa” das decisões humanas da parte “ruim”.

E daí?

É razoável adotar a atitude “Bem, lidaremos com esse problema quando ele surgir”. Mas acho que há algumas coisas que podemos fazer de forma produtiva com antecedência.

  • A pesquisa de aprendizado por reforço inverso/inferência de objetivos motivada por aplicações ao controle da IA provavelmente deveria prestar atenção especial à questão dos erros de modelagem e aos desafios que surgem ao tentar encontrar uma diretriz melhor do que aquela com a qual você está aprendendo.
  • Vale a pena fazer mais pesquisas teóricas para entender esse tipo de dificuldade e como enfrentá-la. Essa investigação pode ajudar a identificar outras abordagens práticas ao controle da IA, que podem então ser exploradas empiricamente.

Tradução: Luan Marques

Link para o original.

Deixe um comentário