Engano Emergente e Otimização Emergente
De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…
De Jacob Steinhardt [Nota: esta postagem foi elaborada antes do lançamento de Sydney (o chatbot do Bing), mas Sydney demonstra alguns exemplos especialmente bons de alguns dos problemas que discuto…
De Lennart Heim e Jeffrey Ladish. 2 de maio de 2022. Novas tecnologias em desenvolvimento, mais notoriamente a inteligência geral artificial (IGA), podem apresentar uma ameaça existencial à humanidade. Esperamos…
Carreiras e projetos A segurança da IA é um campo novo com poucas oportunidades claras, mas, de forma contraintuitiva, há muito trabalho a ser feito. Descobrir o que fazer pode…
Fundamentos do agente As bases teóricas do campo do aprendizado de máquina se quebram de várias maneiras quando as usamos para descrever agentes do mundo real. Esta semana cobrimos a…
Governança Resolver o alinhamento técnico é apenas parte do quebra-cabeça. Questões de governança em torno do desenvolvimento e da implementação de IGA também precisarão ser resolvidas. Esta sessão aborda a…
De Kevin Meng, David Bau, Alex Andonian e Yonatan Belinkov. 2022. Onde estão os fatos dentro de um modelo de linguagem? Conhecer difere de dizer: proferir palavras mecanicamente é diferente de conhecer um fato,…
De Evan Hubinger e Ethan Perez. 20 de dezembro de 2022. Este é um linkpost para https://www.anthropic.com/model-written-evals.pdf "Descobrindo Comportamentos de Modelos de Linguagem com Avaliações Escritas por Modelos" é um…
De Guillaume Alain e Yoshua Bengio. 22 de novembro de 2018. Resumo Os modelos de redes neurais têm a reputação de serem caixas-pretas. Propomos monitorar as características em cada camada…
Interpretabilidade Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais. Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como…
De Alex Turner, Logan Smith, Rohin Shah, Andrew Critch & Prasad Tadepalli. 2021. Resumo Alguns pesquisadores especulam que agentes inteligentes de aprendizado por reforço (RL) seriam incentivados a perseguir recursos…