Curso de Governança da IA – Texto Introdutório da Semana 2

Semana 2: Introdução aos Potenciais Riscos Catastróficos da IA

Muitos dos principais cientistas e empresários em IA pediram que a mitigação do “risco de extinção advindo da IA” seja tornada “uma prioridade global ao lado de outros riscos de escala social, como pandemias e uma guerra nuclear”. Ainda que os danos da IA não se amplifiquem até a extinção, a IA pode contribuir para o uso indevido, conflitos e acidentes em escala global.

A área está longe de ter consenso sobre a gravidade desses riscos1. Ainda assim, uma formulação de políticas responsável deve ser informada pelas razões pelas quais muitos especialistas estão preocupados. Esse é o foco dos recursos desta semana.


1. Pesquisas relevantes incluem: Clarke, et al. (2021)Stein-Perlman, et al. (2022); e Zhang, et al. (2022).


Até o final da semana, você deve ser capaz de:

Explicar o básico das razões pelas quais muitos especialistas estão preocupados com cada um dos seguintes problemas de IA:

  • IAs podem viabilizar cada vez mais várias formas de uso indevido (p. ex., bioterrorismo, desinformação e entrincheiramento perigoso de valores).
  • IAs podem aumentar os riscos de guerra (incluindo guerra nuclear), competição destrutiva e outras formas de conflito.
  • Nas próximas décadas, agentes de IA amplamente capazes poderão buscar objetivos não pretendidos.

Recursos (cerca de 1 h 16 min)

Visão geral de como a IA pode exacerbar riscos catastróficos duradouros da BlueDot Impact (2023) [Artigo]

Tempo estimado: 15 min

Este artigo fornece uma visão geral de como a IA pode exacerbar vários riscos catastróficos de longa duração. Ele se baseia em pesquisas em campos como biossegurança e relações internacionais.

Ao projetar mecanismos de governança para reduzir o risco catastrófico, é importante estar ciente de todos os campos e tipos de risco que a IA poderia impactar.

Conforme agentes-IA como o AutoGPT aceleram a corrida da IA generativa, todos nós precisamos apertar os cintos de Sharon Goldman (2023) [Blog]

Tempo estimado: 7 min

Comportamentos não pretendidos de sistemas de IA podem ser especialmente arriscados se os sistemas de IA forem agentes-IA: IAs que criam e seguem autonomamente planos de várias etapas para alcançar objetivos no mundo real. Engenheiros de IA já implementaram agentes-IA (um tanto primitivos). Este artigo de notícias é menos rigoroso do que a maioria das leituras deste curso, mas tem exemplos úteis de agentes-IA. Note que existem pressões econômicas para desenvolver e implementar agentes-IA mais capazes: fazer isso ajudaria a automatizar tarefas que requerem planejamento de longo prazo.

Também observe que é possível, em princípio, que sistemas de IA sejam agentes. As propriedades que tornam algumas formas de pensamento agentes — planejamento, otimização, seleção estratégica de ações — são processos cognitivos, ou seja, formas de transformar entradas (informações sobre nosso ambiente) em saídas (ações). Aproximadamente todos os processos cognitivos podem ser implementados em computadores, de modo que é possível que programas de computador sejam agentes.

A necessidade do trabalho em alinhamento técnico da IA de Daniel Eth (2022) [Artigo]

Tempo estimado: 20 min

Este artigo é importante para entender o que se entende por “Alinhamento da IA” e também argumenta por que é importante. Em particular, a seção “A IA avançada pode ser difícil de direcionar” explica alguns elementos do problema do alinhamento em termos concretos.

Alinhamento da IA ainda é um termo bastante amplo com algumas definições sutis. Você também pode obter uma visão geral do que se entende por “Alinhamento da IA” na página da Wikipédia, ou para uma leitura mais longa destinada a um público geral, o livro The Alignment Problem.

Manipulação da especificação: o outro lado da engenhosidade da IA de Victoria Krakovna, Jonathan Uesato, Vladimir Mikulik et al. (2020) [Blog]

Tempo estimado: 10 min

Neste artigo, a Dra. Victoria Krakovna e outros pesquisadores de IA da DeepMind explicam um problema que pode levar a comportamentos não pretendidos de agentes-IA: “Manipulação da Especificação.”

Durante o treinamento, um agente-IA pode receber “recompensa” por ações que parecem boas (de acordo com uma métrica simplificada ou um juiz humano), mas que na realidade não são boas. Isso treina inadvertidamente os agentes de IA a realizar ações que se desviam da intenção dos projetistas.

Incluímos isso para examinar um elemento do problema do alinhamento com mais detalhes e mostrar como e onde esse tipo de pesquisa técnica está sendo feito. Há outros elementos do problema do alinhamento, alguns dos quais cobriremos na próxima semana.

Percepções de pesquisadores sobre IA atual e futura de Vael Gates (2022) [Vídeo]

Tempo estimado: 22 min

Apenas assista dos minutos 1:45 – 23:00

Nesta palestra, estudante de pós-doutorado da Universidade Stanford, Vael Gates, apresenta o problema não resolvido de garantir que sistemas de IA não busquem objetivos não pretendidos, como buscar poder.

(Leitura Opcional) Exemplos de manipulação da especificação de Victoria Krakovna (2023) [Lista de recursos]

A Dra. Krakovna compilou uma lista de exemplos em que o ML resolveu o objetivo dado a ele conforme especificado, mas de uma maneira que o programador humano não esperava.

Use este recurso para desenvolver uma intuição sobre como os sistemas de ML podem sair dos trilhos, ou para motivar pontos em coisas que você escrever posteriormente.

Exercício


Tradução: Luan Marques

Link para o original

Deixe um comentário