Arquivos Altruísmo Eficaz - 80.000 Horas: Como fazer a diferença com sua carreira

Curso de Alinhamento da IA – Texto Introdutório da Semana 5

Técnicas Adversárias para Supervisão Amplificável Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.…

0 Comentários

03/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 4

Decomposição de Tarefas para Supervisão Amplificável Você pode melhorar significativamente o desempenho dos modelos de linguagem em tarefas difíceis ao pedir que eles decomponham o problema da maneira correta. Esta…

0 Comentários

03/02/2024

Altruísmo Eficaz

Os Sistemas de Aprendizado de Máquina Terão Modos de Falha Estranhos

De Jacob Steinhardt. 25 de janeiro de 2022. Anteriormente, argumentei que os futuros sistemas de aprendizado de máquina (machine learning, ML) podem exibir capacidades emergentes e desconhecidas, e que os experimentos…

0 Comentários

01/02/2024

Altruísmo Eficaz

Experimentos Mentais Fornecem uma Terceira Âncora

De Jacob Steinhardt. 18 de janeiro 2022. Anteriormente, argumentei que deveríamos esperar que os futuros sistemas de aprendizado de máquina (machine learning, ML) exibissem frequentemente um comportamento “emergente”, no qual adquirissem novas…

0 Comentários

01/02/2024

Altruísmo Eficaz

Erro de Generalização do Objetivo: Por que Especificações Corretas não Bastam para Objetivos Corretos

De Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria Krakovna, Jonathan Uesato & Zac Kenton. 2 de novembro de 2022. Resumos O campo do alinhamento da IA diz respeito…

0 Comentários

01/02/2024

Altruísmo Eficaz

O Problema Fácil da Inferência de Metas ainda é Difícil

De Paul Christiano. 3 de novembro de 2018. Postado como parte da sequência do AI Alignment Forum sobre Aprendizado de Valores. Nota de Rohin: Neste post (original aqui), Paul Christiano analisa a ambiciosa…

0 Comentários

01/02/2024

Altruísmo Eficaz

Como é o Fracasso

De Paul Christiano. 17 de março de 2019. A imagem estereotipada da catástrofe da IA é a de um sistema de IA poderoso e malicioso que apanha os seus criadores…

0 Comentários

01/02/2024

Altruísmo Eficaz

O Problema do Alinhamento de uma Perspectiva do Aprendizado de Máquina

De Richard Ngo, Soeren Mindermann e Lawrence Chan. 19 de março de 2024. Resumo Nas próximas décadas, a inteligência geral artificial (IGA) poderá ultrapassar as capacidades humanas em muitas tarefas…

0 Comentários

01/02/2024

Altruísmo Eficaz

Aprendendo a Resumir com Feedback Humano

De Nisan Stiennon, Paul Christiano, Daniel Ziegler, Ryan Lowe, Jeffrey Wu, Chelsea Voss, Long Ouyang. 4 de setembro de 2020. Aplicamos o aprendizado por reforço a partir do feedback humano…

0 Comentários

01/02/2024

Altruísmo Eficaz

Aprendendo com Preferências Humanas

De Dario Amodei, Paul Christiano e Alex Ray. 13 de junho de 2017. Um passo para a construção de sistemas de IA seguros é eliminar a necessidade de os humanos…

0 Comentários

01/02/2024