Curso de Alinhamento da IA – Texto Introdutório da Semana 6

Interpretabilidade

Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais.

Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como ou por que elas funcionam. Esta semana, abordamos o campo da interpretabilidade, que visa mudar isso desenvolvendo métodos para entender como as redes neurais pensam.

Em certo sentido, o problema central do alinhamento decorre do fato de não sabermos o que nossas redes realmente aprendem. Se a pesquisa de interpretabilidade tiver sucesso, teremos uma melhor compreensão do que nossas redes estão fazendo e como alterá-las.

O currículo desta semana começa com leituras relacionadas à interpretabilidade mecanicista. A interpretabilidade mecanicista é um subcampo da interpretabilidade que visa entender redes ao nível dos neurônios individuais. Após entender os neurônios, podemos identificar como eles constroem representações cada vez mais complexas e desenvolver uma compreensão de baixo para cima de como as redes neurais funcionam.

Depois, passamos para uma área que chamamos de interpretabilidade baseada em conceitos, que se concentra em técnicas para sondar automaticamente (e potencialmente modificar) conceitos humanos interpretáveis armazenados em representações dentro de redes neurais. (Observação: esse não é um termo amplamente utilizado no campo, mas é usado para os propósitos deste currículo por enquanto).

Até o final da sessão, você deverá ser capaz de:
  • Entender a distinção entre interpretabilidade mecanicista e interpretabilidade baseada em conceitos.
    • Definir interpretabilidade mecanicista.
      • Explicar como circuitos são encontrados.
      • Entender a hipótese dos circuitos (3 afirmações do post de introdução aos circuitos).
      • Explicar o conceito de sobreposição e como sobreposições são encontradas.
    • Definir interpretabilidade conceitual.
      • Explicar como sondas funcionam.
      • (Para leitores mais avançados) Explicar como sondas podem ser usadas para melhorar as saídas do modelo, p. ex., no artigo de Burns.
  • Identificar os prós e contras de cada abordagem, a fim de especular sobre como a interpretabilidade mecanicista pode ou não generalizar para conceitos mais abstratos.

Recursos (cerca de 2 h)

Ampliar: uma introdução aos circuitos de Chris Olah, Nick Cammarata, Ludwig Schubert et al. (2020) [Artigo]

Tempo estimado: 35 min

Olah et al. (2020) exploram como os circuitos neurais constroem representações de características de alto nível a partir de características de baixo nível. Este trabalho contribui para tentar fazer engenharia reversa em redes neurais para entender quais representações elas internalizaram e é um pilar do campo da “interpretabilidade mecanicista”.

“Mecanicista” refere-se ao modo altamente metódico, “mecânico”, de examinar representações de diferentes camadas na rede neural.

Leitores menos técnicos podem achar útil começar lendo Visualização de Características (Olah, 2017). Esse foi um dos primeiros trabalhos que tentam fazer engenharia reversa em redes neurais para examinar suas representações internas.

Modelos de brinquedo de sobreposição de Nelson Elhage, Tristan Hume, Catherine Olsson et al. (2022) [Artigo]

Tempo estimado: 30 min

Trabalhando para entender por que alguns neurônios respondem a múltiplas características não relacionadas (“polissemantismo”), Elhage et al. descobrem que modelos simplificados usam “sobreposição” para armazenar mais características do que têm dimensões.

Este trabalho se baseia em trabalhos anteriores sobre circuitos e foi viabilizado pelo desenvolvimento de métodos para examinar ativações em várias camadas e neurônios de uma rede.

Entendendo camadas intermediárias usando sondas classificadoras lineares de Guillaume Alain and Yoshua Bengio (2016) [Artigo]

Tempo estimado: 15 min

Esta é a primeira leitura que introduz a interpretabilidade baseada em conceitos. Ela apresenta a técnica da sondagem linear, uma ferramenta crucial na interpretabilidade baseada em conceitos.

Para grupos avançados de aprendizado de máquina, use este recurso para entender o conceito de sondas lineares antes de avançar para Burns et al. para descobrir técnicas úteis baseadas nesse conceito. Membros iniciantes interessados em aprendizado de máquina também podem se interessar pelo uso de sondas em Burns et al.

Descobrindo comportamentos de modelos de linguagem com avaliações escritas por modelos: post de Ethan Perez (2022) [Blog]

Tempo estimado: 30 min

Este artigo é uma implementação de técnicas de interpretabilidade baseada em conceitos. Ele explora uma técnica para identificar automaticamente se um modelo acredita que declarações são verdadeiras ou falsas sem exigir dados de verdade fundamental (ground truth). Esse método ajuda a descobrir as crenças internamente representadas por um modelo que, de outra forma, seria uma caixa-preta.

Leitores menos técnicos podem achar útil ler Aquisição de Conhecimento de Xadrez no AlphaZero. As duas primeiras seções são uma revisão útil do campo da interpretabilidade. Use isto para entender o campo da interpretabilidade e para potencialmente distinguir a interpretabilidade mecanicista (a primeira metade desta semana) de outras abordagens.

Localizando e editando associações factuais no GPT de Kevin Meng, David Bau, Alex Andonian et al. (2022) [Relatório]

Tempo estimado: 10 min

Meng et al. demonstram como a interpretabilidade baseada em conceitos pode ser usada para modificar os pesos neurais de maneiras semanticamente significativas. Isso demonstra como a interpretabilidade baseada em conceitos pode ajudar diretamente com elementos de alinhamento.


Tradução: Luan Marques

Link para o original.

Deixe um comentário