Arquivos Inteligência Artificial - Página 3 de 7 - 80.000 Horas: Como fazer a diferença com sua carreira

Engano Emergente e Otimização Emergente

De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…

0 Comentários

26/02/2024

Altruísmo Eficaz

Considerações de Segurança da Informação para IA e o Futuro a Longo Prazo

De Lennart Heim e Jeffrey Ladish. 2 de maio de 2022. Novas tecnologias em desenvolvimento, mais notoriamente a inteligência geral artificial (IGA), podem apresentar uma ameaça existencial à humanidade. Esperamos…

0 Comentários

14/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 9

Carreiras e projetos A segurança da IA é um campo novo com poucas oportunidades claras, mas, de forma contraintuitiva, há muito trabalho a ser feito. Descobrir o que fazer pode…

0 Comentários

12/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 8

Fundamentos do agente As bases teóricas do campo do aprendizado de máquina se quebram de várias maneiras quando as usamos para descrever agentes do mundo real. Esta semana cobrimos a…

0 Comentários

12/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 7

Governança Resolver o alinhamento técnico é apenas parte do quebra-cabeça. Questões de governança em torno do desenvolvimento e da implementação de IGA também precisarão ser resolvidas. Esta sessão aborda a…

0 Comentários

12/02/2024

Altruísmo Eficaz

Localizando e Editando Associações Factuais no GPT

De Kevin Meng, David Bau, Alex Andonian e Yonatan Belinkov. 2022. Onde estão os fatos dentro de um modelo de linguagem? Conhecer difere de dizer: proferir palavras mecanicamente é diferente de conhecer um fato,…

0 Comentários

11/02/2024

Altruísmo Eficaz

Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos

De Evan Hubinger e Ethan Perez. 20 de dezembro de 2022. Este é um linkpost para https://www.anthropic.com/model-written-evals.pdf "Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos" é um…

0 Comentários

11/02/2024

Altruísmo Eficaz

Entendendo Camadas Intermediárias Usando Sondas Classificadoras Lineares

De Guillaume Alain e Yoshua Bengio. 22 de novembro de 2018. Resumo Os modelos de redes neurais têm a reputação de serem caixas-pretas. Propomos monitorar as características em cada camada…

0 Comentários

10/02/2024

Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 6

Interpretabilidade Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais. Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como…

0 Comentários

10/02/2024

Altruísmo Eficaz

Diretivas Ótimas Tendem a Buscar Poder

De Alex Turner, Logan Smith, Rohin Shah, Andrew Critch & Prasad Tadepalli. 2021. Resumo Alguns pesquisadores especulam que agentes inteligentes de aprendizado por reforço (RL) seriam incentivados a perseguir recursos…

0 Comentários

06/02/2024