Luan Rafael, Autor em 80.000 Horas: Como fazer a diferença com sua carreira

Supervisionando Aprendizes Fortes Amplificando Especialistas Fracos

Paul Christiano, Buck Shlegeris [^1] e Dario Amodei. 19 de outubro de 2018. Resumo Muitas tarefas de aprendizado do mundo real envolvem objetivos complexos ou difíceis de especificar, e usar…

0 Comentários

11/03/2024

Altruísmo Eficaz

Cartilha de Normas e Regulamentos de Segurança para o Desenvolvimento de IA em Escala Industrial

Equipe da AI Safety Fundamentals Ideias fundamentais Esta cartilha introduz vários aspectos das normas de segurança e regulamentações para o desenvolvimento de IA em escala industrial: o que são, seu…

0 Comentários

28/02/2024

Altruísmo Eficaz

Engano Emergente e Otimização Emergente

De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…

0 Comentários

26/02/2024

Altruísmo Eficaz

Considerações de Segurança da Informação para IA e o Futuro a Longo Prazo

De Lennart Heim e Jeffrey Ladish. 2 de maio de 2022. Novas tecnologias em desenvolvimento, mais notoriamente a inteligência geral artificial (IGA), podem apresentar uma ameaça existencial à humanidade. Esperamos…

0 Comentários

14/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 9

Carreiras e projetos A segurança da IA é um campo novo com poucas oportunidades claras, mas, de forma contraintuitiva, há muito trabalho a ser feito. Descobrir o que fazer pode…

0 Comentários

12/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 8

Fundamentos do agente As bases teóricas do campo do aprendizado de máquina se quebram de várias maneiras quando as usamos para descrever agentes do mundo real. Esta semana cobrimos a…

0 Comentários

12/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 7

Governança Resolver o alinhamento técnico é apenas parte do quebra-cabeça. Questões de governança em torno do desenvolvimento e da implementação de IGA também precisarão ser resolvidas. Esta sessão aborda a…

0 Comentários

12/02/2024

Altruísmo Eficaz

Localizando e Editando Associações Factuais no GPT

De Kevin Meng, David Bau, Alex Andonian e Yonatan Belinkov. 2022. Onde estão os fatos dentro de um modelo de linguagem? Conhecer difere de dizer: proferir palavras mecanicamente é diferente de conhecer um fato,…

0 Comentários

11/02/2024

Altruísmo Eficaz

Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos

De Evan Hubinger e Ethan Perez. 20 de dezembro de 2022. Este é um linkpost para https://www.anthropic.com/model-written-evals.pdf "Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos" é um…

0 Comentários

11/02/2024

Altruísmo Eficaz

Entendendo Camadas Intermediárias Usando Sondas Classificadoras Lineares

De Guillaume Alain e Yoshua Bengio. 22 de novembro de 2018. Resumo Os modelos de redes neurais têm a reputação de serem caixas-pretas. Propomos monitorar as características em cada camada…

0 Comentários

10/02/2024