Engano Emergente e Otimização Emergente
De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…
De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…
De Lennart Heim e Jeffrey Ladish Novas tecnologias em desenvolvimento, mais notoriamente a inteligência geral artificial (IGA), podem apresentar uma ameaça existencial à humanidade. Esperamos uma pressão competitiva significativa em…
Carreiras e projetos A segurança da IA é um campo novo com poucas oportunidades claras, mas, de forma contraintuitiva, há muito trabalho a ser feito. Descobrir o que fazer pode…
Fundamentos do agente As bases teóricas do campo do aprendizado de máquina se quebram de várias maneiras quando as usamos para descrever agentes do mundo real. Esta semana cobrimos a…
Governança Resolver o alinhamento técnico é apenas parte do quebra-cabeça. Questões de governança em torno do desenvolvimento e da implementação de IGA também precisarão ser resolvidas. Esta sessão aborda a…
De Kevin Meng, David Bau, Alex Andonian e Yonatan Belinkov Onde estão os fatos dentro de um modelo de linguagem? Conhecer difere de dizer: proferir palavras mecanicamente é diferente de conhecer um fato, porque o…
De Evan Hubinger e Ethan Perez Este é um linkpost para https://www.anthropic.com/model-written-evals.pdf "Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos" é um novo artigo da Anthropic escrito…
De Guillaume Alain e Yoshua Bengio Resumo Os modelos de redes neurais têm a reputação de serem caixas-pretas. Propomos monitorar as características em cada camada de um modelo e medir…
Interpretabilidade Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais. Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como…
De Alex Turner, Logan Smith, Rohin Shah, Andrew Critch & Prasad Tadepalli Resumo Alguns pesquisadores especulam que agentes inteligentes de aprendizado por reforço (RL) seriam incentivados a perseguir recursos e…