Skip to content
Logo do site 80.000 HORAS
  • Guia de Carreiras
  • Depois de ler o Guia
    • Quais são os maiores problemas do mundo?
    • Qual carreira seguir?
    • Organizações para trabalhar
    • O que devemos ao futuro?
    • O argumento para a redução dos riscos existenciais
    • As perguntas frequentes do Longotermismo
    • Demais Traduções
    • Resenhas e Resumos
    • Manual do Altruísmo Eficaz
    • Glossário
  • Sobre nós
  • Toggle website search
Menu Fechar
  • Guia de Carreiras
  • Depois de ler o Guia
    • Quais são os maiores problemas do mundo?
    • Qual carreira seguir?
    • Organizações para trabalhar
    • O que devemos ao futuro?
    • O argumento para a redução dos riscos existenciais
    • As perguntas frequentes do Longotermismo
    • Demais Traduções
    • Resenhas e Resumos
    • Manual do Altruísmo Eficaz
    • Glossário
  • Sobre nós
  • Toggle website search

Autor: Luan Rafael

Este autor escreveu 70 artigos
Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 6

Interpretabilidade Ao estudar as conexões entre neurônios, podemos encontrar algoritmos significativos nos pesos das redes neurais. Nossos métodos atuais de treinar redes neurais capazes pouco entendimento nos dão sobre como…

0 Comentários
10/02/2024
Altruísmo Eficaz

Diretivas Ótimas Tendem a Buscar Poder

De Alex Turner, Logan Smith, Rohin Shah, Andrew Critch & Prasad Tadepalli. 2021. Resumo Alguns pesquisadores especulam que agentes inteligentes de aprendizado por reforço (RL) seriam incentivados a perseguir recursos…

0 Comentários
06/02/2024
Altruísmo Eficaz

Fazendo Equipe-Vermelha em Modelos de Linguagem com Modelos de Linguagem

De Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving. 7 de fevereiro de 2022. Em nosso artigo recente, mostramos que é…

0 Comentários
04/02/2024
Altruísmo Eficaz

Críticas Escritas por IA Ajudam Humanos a Perceber Falhas

De Jan Leike, Jeffrey Wu, Catherine Yeh, William Saunders. 13 de junho de 2022. Treinamos modelos de “escrita crítica” para descrever falhas em resumos. Os avaliadores humanos encontram falhas nos…

0 Comentários
04/02/2024
Altruísmo Eficaz

Modelos de Linguagem Realizam Raciocínios via Cadeia de Pensamento

De Jason Wei e Denny Zhou. 11 de maio de 2022. Nos últimos anos, foi demonstrado que aumentar o tamanho dos modelos de linguagem é uma forma confiável de melhorar o desempenho em…

0 Comentários
04/02/2024
Altruísmo Eficaz

Resumindo Livros com Feedback Humano

De Jeffrey Wu, Ryan Lowe e Jan Leike. 23 de setembro de 2021. Amplificando a supervisão humana de sistemas de IA para tarefas que são difíceis de avaliar. Para implementar…

0 Comentários
04/02/2024
Altruísmo Eficaz

Aprendendo Objetivos Complexos com Amplificação Iterada

De Paul Christiano e Dario Almodei. 22 de outubro de 2018. Estamos propondo uma técnica de segurança de IA chamada amplificação iterada que nos permite especificar comportamentos e objetivos complicados…

0 Comentários
04/02/2024
Altruísmo Eficaz

Medindo Progresso na Supervisão Amplificável para Grandes Modelos de Linguagem 

De Samuel Bowman et al. 11 de novembro de 2022. Resumo Desenvolver sistemas de IA de propósito geral seguros e úteis exigirá que avancemos na supervisão amplificável: o desafio de…

0 Comentários
04/02/2024
Altruísmo Eficaz

Paul Christiano: o Trabalho Atual no Alinhamento

Do EA Global. 3 de abril de 2020. https://youtu.be/-vsYtevJ2bc Paul Christiano, pesquisador da OpenAI , discute o estado atual da pesquisa sobre o alinhamento da IA ​​com os valores humanos: o que…

0 Comentários
04/02/2024
Altruísmo Eficaz

Curso de Alinhamento da IA – Texto Introdutório da Semana 5

Técnicas Adversárias para Supervisão Amplificável Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.…

0 Comentários
03/02/2024
  • Go to the previous page
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • Go to the next page