Índice

Erro de Generalização do Objetivo

Mesmo sem saber quais objetivos um agente irá aprender, podemos prever algumas propriedades do seu comportamento que seriam incentivadas dados vários objetivos diferentes.

Mesmo sem erro de especificação da recompensa, as recompensas usadas durante o treinamento não nos permitem controlar o modo como os agentes geram novas situações. Esta semana cobrimos os cenários em que os os agentes em novas situações generalizam para um comportamento competente, porém indesejável, pois aprendem os objetivos errados a partir do treinamento anterior: o problema do erro de generalização do objetivo.

As primeiras duas primeiras leituras definem e caracterizam o erro de generalização do objetivo (também conhecido como desalinhamento interno no campo do alinhamento). Observe que o erro de generalização do objetivo e o desalinhamento interno são conceitos aproximadamente equivalentes, embora sejam definidos de formas ligeiramente diferentes. O erro de generalização do objetivo é definido em termos do comportamento em novas situações, enquanto o desalinhamento interno é definido em termos das representações aprendidas durante o treinamento.

As duas leituras seguintes exploram hipóteses específicas sobre como agentes que aprenderam os objetivos errados se comportarão: ganhando alta recompensa de forma enganosa e buscando poder em grande escala.

Terminamos então com duas leituras sobre como esses comportamentos podem levar à catástrofe.

Até o final desta sessão, você deve ser capaz de:

Entender o conceito de objetivos internamente representados e avaliar como diretrizes podem aprender os “objetivos errados”.
- Definir erro de generalização do objetivo.
- Considerar a estrutura do desalinhamento interno [observe que não é uma definição, mas um termo usado no campo do alinhamento].
Explorar o quanto o treinamento advesário mitiga o erro de generalização do objetivo e avaliar se é uma solução completa ao problema do erro de generalização do objetivo.
Entender o conceito de engano e o quanto tem de relação com o erro de generalização do objetivo.
Entender que a “consciência situacional” é necessária para formular o mau comportamento em termos de “maximizar o sinal de recompensa”.
- (Sem consciência situacional, mau comportamento é só má generalização. Com ela, você pode interpretar o sistema como tentando manipular o ambiente instrumentalmente no sentido de maximizar a recompensa.)

Recursos (cerca de 1 h 40 min)

Erro de generalização do objetivo: por que especificações corretas não bastam para objetivos corretos de Rohin Shah (2022) [Blog]

Tempo estimado: 10 min

Primeiro, leia este post para entender o argumento de Shah et al.

Shah et al. argumentam que até um agente treinado com a função de recompensa “correta” pode aprender objetivos que se generalizam de maneiras indesejáveis e fornecem ilustrações tanto concretas quanto hipotéticas do fenômeno.

Erro de generalização do objetivo: por que especificações corretas não bastam para objetivos corretos de Rohin Shah e Vikrant Varma (2022) [Artigo]

Tempo estimado: 30 min

Leia o artigo para ter uma noção mais profunda dos experimentos de Shah et al. e de por que eles os fizeram. Em particular, este artigo fornece uma demonstração empírica de que os objetivos aprendidos de um agente podem diferir dos que esperamos que ele tenha a partir da nossa configuração de treinamento e do comportamento observado inicialmente nos ambientes de teste.

Isso é diferente do “erro de generalização da capacidade” paradigmático porque o agente ainda pode buscar competentemente os objetivos dele no ambiente de teste. No entanto, o agente recebe baixa recompensa no ambiente de teste porque o seu objetivo aprendido diverge daquele no qual o treinamos.

Experimentos mentais fornecem uma terceira âncora de Jacob Steinhardt (2022) [Blog]

Tempo estimado: 5 min

Steinhardt dá algumas razões para esperar que experimentos mentais sejam úteis para pensar sobre como sistemas futuros de aprendizado de máquina se comportarão.

Esta leitura está incluída como uma introdução à próxima leitura neste curso, também de Steinhardt, que usa um experimento mental para introduzir o conceito de “alinhamento enganoso”.

Leitores menos técnicos podem achar este blog (Cotra, 2023) útil para explicar o conceito de sistemas alinhados enganosamente. Em particular, ele faz um bom trabalho para descrever as representações internas de um agente sobre objetivos e como eles poderiam se tornar desalinhados com os objetivos que pretendemos comunicar sob regimes de treinamento-padrão.

Os sistemas de aprendizado de máquina terão modos de falha estranhos de Jacob Steinhardt (2022) [Blog]

Tempo estimado: 15 min

Neste post, Steinhardt descreve um fenômeno proposto como hipótese chamado “alinhamento enganoso”. Ele supõe que , durante o processo de treinamento, uma rede neural desenvolva um objetivo representado internamente que diverge do objetivo do treinamento. Ele então argumenta que a rede será incentivada a ter um desempenho tal que leva esse objetivo representado internamente a ser preservado durante o treinamento, e que isso poderia levar a um repentino mau comportamento durante a implementação.

O problema do alinhamento de uma perspectiva do aprendizado de máquina de Richard Ngo, Soeren Mindermann e Lawrence Chan (2022) [Artigo]

Estimated time: 30 mins

Leia somente as seções 3 e 4.

Embora Shah et al. definam o erro de generalização do objetivo em termos de comportamento indesejável, esta leitura aborda a mesma ideia de modo diferente: raciocinando sobre objetivos em termos das representações internas dos agentes.

Este artigo enfatiza a diferença entre erro de generalização do objetivo e da capacidade. Também estende o argumento para teorizar sobre como o erro de generalização do objetivo poderia ser um mecanismo pelo qual o “comportamento de busca de poder” poderia se manifestar e persistir ao longo do treinamento.

Leitores menos técnicos podem achar útil a seguinte introdução em vídeo ao “alinhamento interno”, que se refere ao problema de agentes aprenderem representações internas dos objetivos errados. “Desalinhamento interno” e “erro de generalização do objetivo” podem ser vistos como conceitos aproximadamente equivalentes, exceto que aquele é tipicamente definido em termos de comportamento, ao passo que este é tipicamente definido em termos de representações internas e aprendidas.

Como é o fracasso de Paul Christiano (2019) [Blog]

Tempo estimado: 10 min

Parte II.

Christiano descreve um cenário no qual o erro de generalização do objetivo poderia levar à catástrofe. Ele descreve uma situação na qual os objetivos os sistemas de IA estão desalinhados com o que pretendemos e que, após uma mudança no ambiente, poderíamos ver esses sistemas rapidamente começarem a se comportar de modos altamente indesejáveis.

Tradução: Luan Marques

Link para o original.

Curso de Alinhamento da IA – Texto Introdutório da Semana 3