Luan Rafael, Autor em 80.000 Horas: Como fazer a diferença com sua carreira

Curso de Alinhamento da IA – Texto Introdutório da Semana 6

Interpretabilidade Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais. Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como…

0 Comentários

10/02/2024

Altruísmo Eficaz

Diretivas Ótimas Tendem a Buscar Poder

De Alex Turner, Logan Smith, Rohin Shah, Andrew Critch & Prasad Tadepalli. 2021. Resumo Alguns pesquisadores especulam que agentes inteligentes de aprendizado por reforço (RL) seriam incentivados a perseguir recursos…

0 Comentários

06/02/2024

Altruísmo Eficaz

Fazendo Equipe-Vermelha em Modelos de Linguagem com Modelos de Linguagem

De Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving. 7 de fevereiro de 2022. Em nosso artigo recente, mostramos que é…

0 Comentários

04/02/2024

Altruísmo Eficaz

Críticas Escritas por IA Ajudam Humanos a Perceber Falhas

De Jan Leike, Jeffrey Wu, Catherine Yeh, William Saunders. 13 de junho de 2022. Treinamos modelos de “escrita crítica” para descrever falhas em resumos. Os avaliadores humanos encontram falhas nos…

0 Comentários

04/02/2024

Altruísmo Eficaz

Modelos de Linguagem Realizam Raciocínios via Cadeia de Pensamento

De Jason Wei e Denny Zhou. 11 de maio de 2022. Nos últimos anos, foi demonstrado que aumentar o tamanho dos modelos de linguagem é uma forma confiável de melhorar o desempenho em…

0 Comentários

04/02/2024

Altruísmo Eficaz

Resumindo Livros com Feedback Humano

De Jeffrey Wu, Ryan Lowe e Jan Leike. 23 de setembro de 2021. Amplificando a supervisão humana de sistemas de IA para tarefas que são difíceis de avaliar. Para implementar…

0 Comentários

04/02/2024

Altruísmo Eficaz

Aprendendo Objetivos Complexos com Amplificação Iterada

De Paul Christiano e Dario Almodei. 22 de outubro de 2018. Estamos propondo uma técnica de segurança de IA chamada amplificação iterada que nos permite especificar comportamentos e objetivos complicados…

0 Comentários

04/02/2024

Altruísmo Eficaz

Medindo Progresso na Supervisão Amplificável para Grandes Modelos de Linguagem

De Samuel Bowman et al. 11 de novembro de 2022. Resumo Desenvolver sistemas de IA de propósito geral seguros e úteis exigirá que avancemos na supervisão amplificável: o desafio de…

0 Comentários

04/02/2024

Altruísmo Eficaz

Paul Christiano: o Trabalho Atual no Alinhamento

Do EA Global. 3 de abril de 2020. https://youtu.be/-vsYtevJ2bc Paul Christiano, pesquisador da OpenAI , discute o estado atual da pesquisa sobre o alinhamento da IA com os valores humanos: o que…

0 Comentários

04/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 5

Técnicas Adversárias para Supervisão Amplificável Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.…

0 Comentários

03/02/2024