Arquivos Inteligência Artificial - Página 4 de 7 - 80.000 Horas: Como fazer a diferença com sua carreira

Fazendo Equipe-Vermelha em Modelos de Linguagem com Modelos de Linguagem

De Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving. 7 de fevereiro de 2022. Em nosso artigo recente, mostramos que é…

0 Comentários

04/02/2024

Altruísmo Eficaz

Críticas Escritas por IA Ajudam Humanos a Perceber Falhas

De Jan Leike, Jeffrey Wu, Catherine Yeh, William Saunders. 13 de junho de 2022. Treinamos modelos de “escrita crítica” para descrever falhas em resumos. Os avaliadores humanos encontram falhas nos…

0 Comentários

04/02/2024

Altruísmo Eficaz

Modelos de Linguagem Realizam Raciocínios via Cadeia de Pensamento

De Jason Wei e Denny Zhou. 11 de maio de 2022. Nos últimos anos, foi demonstrado que aumentar o tamanho dos modelos de linguagem é uma forma confiável de melhorar o desempenho em…

0 Comentários

04/02/2024

Altruísmo Eficaz

Resumindo Livros com Feedback Humano

De Jeffrey Wu, Ryan Lowe e Jan Leike. 23 de setembro de 2021. Amplificando a supervisão humana de sistemas de IA para tarefas que são difíceis de avaliar. Para implementar…

0 Comentários

04/02/2024

Altruísmo Eficaz

Aprendendo Objetivos Complexos com Amplificação Iterada

De Paul Christiano e Dario Almodei. 22 de outubro de 2018. Estamos propondo uma técnica de segurança de IA chamada amplificação iterada que nos permite especificar comportamentos e objetivos complicados…

0 Comentários

04/02/2024

Altruísmo Eficaz

Medindo Progresso na Supervisão Amplificável para Grandes Modelos de Linguagem

De Samuel Bowman et al. 11 de novembro de 2022. Resumo Desenvolver sistemas de IA de propósito geral seguros e úteis exigirá que avancemos na supervisão amplificável: o desafio de…

0 Comentários

04/02/2024

Altruísmo Eficaz

Paul Christiano: o Trabalho Atual no Alinhamento

Do EA Global. 3 de abril de 2020. https://youtu.be/-vsYtevJ2bc Paul Christiano, pesquisador da OpenAI , discute o estado atual da pesquisa sobre o alinhamento da IA com os valores humanos: o que…

0 Comentários

04/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 5

Técnicas Adversárias para Supervisão Amplificável Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.…

0 Comentários

03/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 4

Decomposição de Tarefas para Supervisão Amplificável Você pode melhorar significativamente o desempenho dos modelos de linguagem em tarefas difíceis ao pedir que eles decomponham o problema da maneira correta. Esta…

0 Comentários

03/02/2024

Altruísmo Eficaz

Os Sistemas de Aprendizado de Máquina Terão Modos de Falha Estranhos

De Jacob Steinhardt. 25 de janeiro de 2022. Anteriormente, argumentei que os futuros sistemas de aprendizado de máquina (machine learning, ML) podem exibir capacidades emergentes e desconhecidas, e que os experimentos…

0 Comentários

01/02/2024