Curso de Alinhamento da IA – Texto Introdutório da Semana 5
Técnicas Adversárias para Supervisão Amplificável Podemos treinar modelos para nos informar quando outros modelos estão cometendo erros; mas, atualmente, nem sempre conseguem explicar como sabem que os erros estão ocorrendo.…