De Nisan Stiennon, Paul Christiano, Daniel Ziegler, Ryan Lowe, Jeffrey Wu, Chelsea Voss, Long Ouyang. 4 de setembro de 2020.

Aplicamos o aprendizado por reforço a partir do feedback humano para treinar modelos de linguagem que são melhores em sumarização.

Por que isso importa

Nossos modelos geram resumos melhores do que resumos de modelos 10 vezes maiores treinados apenas com aprendizado supervisionado. Embora treinemos nossos modelos no conjunto de dados Reddit TL;DR, os mesmos modelos são transferidos para gerar bons resumos de artigos de notícias da CNN/DailyMail sem nenhum ajuste fino a mais. Nossas técnicas não são específicas à sumarização; a longo prazo, o nosso objetivo é tornar o alinhamento dos sistemas de IA com as preferências humanas um componente central da pesquisa e da implementação da IA em muitos domínios.

Figura 1: O desempenho de vários procedimentos de treinamento para diferentes tamanhos de modelo. O desempenho do modelo é medido pela frequência com que os resumos desse modelo são preferidos aos resumos de referência escritos por humanos. Nossos modelos pré-treinados são versões iniciais do GPT-3, nossas linhas de base supervisionadas receberam ajuste fino para prever 117 mil TL; DRs escritos por humanos e nossos modelos de feedback humano adicionalmente receberam ajuste fino num conjunto de dados de cerca de 65 mil comparações resumidas.

Modelos de linguagem de larga escala estão se tornando cada vez mais capazes em tarefas de processamento de linguagem natural. Esses modelos geralmente são treinados com o objetivo de prever a próxima palavra num conjunto de dados de textos escritos por humanos. Mas esse objetivo não capta exatamente o que queremos; normalmente, não queremos que nossos modelos imitem os humanos, queremos que eles forneçam respostas de alta qualidade. Essa incompatibilidade fica clara quando um modelo é treinado para imitar textos escritos por humanos de baixa qualidade, mas também pode acontecer de maneiras mais sutis. Por exemplo, um modelo treinado para prever o que um ser humano diria pode inventar fatos quando não tem certeza ou gerar frases que reflitam preconceitos sociais prejudiciais, ambos modos de falha que foram bem documentados [ref. 1, 2, 3 & 4].

Como parte do nosso trabalho em segurança, queremos desenvolver técnicas que alinhem os objetivos dos nossos modelos com o comportamento final que realmente nos importa. À medida que os nossos modelos se tornam mais poderosos, acreditamos que alinhá-los com os nossos objetivos será muito importante para garantir que sejam benéficos para os seres humanos. No curto prazo, queríamos testar se as técnicas de feedback humano poderiam ajudar nossos modelos a melhorar o desempenho em tarefas úteis.

Concentramo-nos no resumo de textos em inglês, pois é um problema desafiador no qual a noção do que constitui um “bom resumo” é difícil de capturar sem a intervenção humana. Aplicamos nosso método principalmente a um conjunto de dados existente [ref. 1] de postagens enviadas para a rede social Reddit ¹ junto com “TL;DRs” escritos por humanos, que são pequenos resumos escritos pelo autor da postagem original.

Primeiro treinamos um modelo de recompensa por meio do aprendizado supervisionado para prever quais resumos os humanos preferirão.² Em seguida, fazemos ajuste fino num modelo de linguagem com aprendizagem por reforço (reinforcement learning, RL) para produzir resumos com pontuação elevada de acordo com esse modelo de recompensa. Descobrimos que isso melhora significativamente a qualidade dos resumos, conforme avaliados por humanos, mesmo em conjuntos de dados muito diferentes daqueles usados para ajuste fino.

Nossa abordagem decorre diretamente de nosso trabalho anterior sobre aprendizado a partir do feedback humano [ref. 7]. Também houve outros trabalhos sobre o uso do feedback humano para treinar modelos de sumarização [ref. 8]. Levamos a técnica ainda mais longe amplificando para modelos maiores, coletando mais dados de feedback, monitorando de perto a concordância entre pesquisador e rotulador e fornecendo feedback frequente aos rotuladores. O feedback humano também tem sido usado para treinar modelos em vários outros domínios, como diálogo [ref. 9, 10 & 11], análise semântica [ref. 12], tradução [ref. 13 & 14], narrativa [ref. 15] e geração de resenhas [ref. 16], extração de evidências [ref. 17] e tarefas de RL mais tradicionais [ref. 18 & 19].

Índice

Resultados

Postagem do Reddit (r/AskReddit)
Recomendações para Programas de Pós-Graduação em Psicologia I/O?
Estou no terceiro ano agora, quando devo descobrir o que preciso fazer da minha vida (pós-graduação versus trabalho de tempo integral) e, então, pretendia ir para a pós-graduação para fazer um mestrado e terminar a escola para sempre. A questão é que não sei quais escolas são realmente boas e valem seu dinheiro para programas de I/O. Já fiz uma pesquisa cruzada para restringir minha opções a estas e poderia restringi-las ainda mais: CSU Long Beach, CSU San Bernardino, CSU San Francisco, San Jose State, San Diego State, Chapman University e Claremont Graduate University. Sim? Não? Eu deveria viajar no tempo e começar de novo?

Estou firme sobre ficar na Califórnia para os estudos de pós-graduação e se I/O não der certo, talvez um MBA funcione? Eu só ficaria no quarto ano para ganhar tempo para conseguir pesquisas, estágios e especialização em administração de empresas. Será que funcionaria se eu conseguisse uma pontuação bem boa no GMAT com especialização em administração de empresas?

Resumo de referência escrito por humanos
Programas de graduação de I/O recomendados que possam ser perdidos de vista nas pesquisas. Opcional responder à última pergunta referente à decisão sobre o MBA.

Modelo 6B de feedback humano
Estou no terceiro ano e estou pensando em fazer pós-graduação em psicologia I/O. Quais são algumas boas faculdades para procurar programas de I/O? Estou na Califórnia.

Modelo 6B supervisionado
Estou no terceiro ano e não tenho certeza de quais faculdades são boas para programas de I/O. Também não tenho certeza se devo fazer pós-graduação ou arranjar um emprego.

Modelo 6B pré-treinado
Estou no terceiro ano agora, quando devo descobrir o que preciso fazer da minha vida (pós-graduação versus trabalho de tempo integral) e, portanto, pretendia ir para a pós-graduação para fazer um mestrado e terminar a escola

Postagem do Reddit (r/em execução)
Algum corredor de um rim aqui?
Olá a todos,

Durante a maior parte da minha vida, estive na lista para doar um rim ao meu irmão. Sempre brincamos sobre isso e nunca pensamos nisso muito a sério, mas agora esse dia está próximo.

Não sou um corredor particularmente rápido ou especialista de forma alguma. Já corri uma maratona, estou treinando para correr uma maratona mais rápida e planejo[planejei] fazer minha primeira ultra nesta primavera.

No entanto, não sei se isso é viável com um rim. Nem sei se é possível fazer uma maratona completa. Falei com minha primária sobre isso (ela não é especialista no assunto) e me encontrarei com um nefrologista em alguns meses para obter uma opinião especializada.

Estou me sentindo meio perdido. Correr se tornou parte da minha vida e me tornou um ser humano melhor. Não é algo de que eu queira desistir e eu egoisticamente desejo que esse negócio de doador possa ser adiado por mais 5 anos para que eu possa tentar o meu objetivo dos sonhos de uma ultra de 100mi.

Só estou me perguntando se há algum corredor de um rim aqui para me dar esperança e inspiração nos próximos anos.

Resumo de referência escrito por humanos
Daqui a alguns meses vou doar um rim, mas quero um dia correr ultramaratonas. Não tenho certeza se isso é possível.

Modelo 6B de feedback humano
Sou um corredor que está na lista para doar um rim ao meu irmão. Estou preocupado se posso ou não continuar a correr com um rim. Procurando por algum corredor de um rim para me dar esperança.

Modelo 6B supervisionado
Sou corredor e não tenho certeza se consigo correr uma maratona com um rim. Algum corredor de um rim aqui para me dar esperança e inspiração nos próximos anos?

Modelo 6B pré-treinado
Sou corredor e vou doar um rim para meu irmão. Não tenho certeza se posso fazer uma maratona completa ou não.

Postagem do Reddit (r/AskReddit)
14 Tilhões de Dólares, o que Realmente Significa Atingir o Teto da Dívida?
Aparentemente, na segunda-feira, os Estados Unidos atingiram o teto da dívida de 14 trilhões de dólares e, embora eu queira me considerar bastante bem informado sobre como o país chegou a essa posição de enorme dívida, não me é totalmente claro o que alcançar um teto da dívida significa para a economia americana.

As propostas de ambos os lados do espectro político dizem que é necessária uma redução dos gastos (com os democratas propondo um aumento de impostos na classe alta?), mas que dimensão de um orçamento anual seria realmente necessária para reduzir 14 trilhões de dólares? Não se acumula esse tipo de dívida da noite para o dia e tenho dificuldade em ver exatamente como é que qualquer redução poderia lhes permitir atingir o ponto de equilíbrio e muito menos começar a reduzir essa carga de dívida, dado o grande déficit que as administrações vêm tendo.

E digamos por um minuto que eles não consigam descobrir uma maneira de aliviar esse teto de dívida. Quais são as consequências da inação? Quais são outros meios de resolver esse problema?

Resumo de referência escrito por humanos
o que atingir o teto da dívida significa para o governo americano? Qual será a dimensão necessária do corte orçamental? Quais são as consequências de permitir que a dívida cresça significativamente para além dos 14 trilhões?

Modelo 6B de feedback humano
Os EUA atingiram o seu teto da dívida de 14 trilhões de dólares, o que isso significa para a economia americana e quais são as consequências de não agir para resolver essa questão?

Modelo 6B supervisionado
O que significa atingir o teto da dívida e quais são as consequências de não fazer nada a respeito disso?

Modelo 6B pré-treinado
O que realmente significa o teto da dívida?

Postagem do Reddit (r/AskReddit)
Seguir um doutorado de ciência da computação ou continuar trabalhando? Especialmente se alguém não tem intenção real de trabalhar na academia mesmo depois da pós-graduação…
Postagem bastante autoexplicativa, mas só para elaborar um pouco mais…

Alguém, depois de trabalhar por um período de tempo, já decidiu por qualquer motivo voltar à academia para fazer um doutorado em Ciência da Computação, sem intenção de ingressar no mundo acadêmico, mas pretende voltar para a indústria? Se sim, quais foram os motivos? Além disso, como aconteceu? Houve alguma coisa de que você se arrependeu? Deu certo?

A razão pela qual estou pedindo conselhos é que atualmente trabalho em tempo integral e sei como sou sortudo por ter um emprego nestes tempos difíceis. No entanto, sendo de um país estrangeiro e trabalhando no Reino Unido, estão dificultando a prorrogação do visto de trabalho porque não possuo mestrado/doutorado e apenas bacharelado.

É um pouco frustrante porque estou aqui há quase meia década, mas estou com um visto que não conta para residência e em breve terei que solicitar um visto com ainda mais restrições.

Estou, portanto, considerando aumentar as minhas qualificações no papel, de modo a evitar que me encontre novamente numa situação dessas. Acredito que a bolsa da pós-graduação na verdade pague quase tanto quanto ganho agora (em termos de poder de compra, não de conversão direta de moeda), mas, claro, se eu passasse 5 anos trabalhando em vez de estudar, poderia haver oportunidades para aumentos/promoções.

Obviamente, mergulhar num doutorado apenas por esse motivo certamente gerará olhares de desaprovação. Claro, tenho interesse em ampliar meus conhecimentos e ter a oportunidade de ter um tempo para mim. Tenho experiência em pesquisa (publiquei um artigo, apresentei em conferências); por isso estou ciente dos desafios que a pesquisa apresenta.

Algum conselho de pessoas que passaram por situações semelhantes? Adoraria ouvir de vocês.

Resumo de referência escrito por humanos
Engenheiro de software com um trabalho no qual estou feliz (por enquanto), decidindo se farei um doutorado para melhorar qualificações e explorar interesses e um novo desafio.

Modelo 6B de feedback humano
Atualmente empregado, pensando em fazer doutorado em Ciência da Computação para evitar ficar sem visto de residência novamente. Alguém já fez doutorado em prol da pesquisa, sem intenção de ingressar no mundo acadêmico?

Modelo 6B supervisionado
Não tenho intenção de trabalhar na indústria depois da pós-graduação, mas quero fazer um doutorado. Quais são as razões? Como aconteceu?

Modelo 6B pré-treinado
Estou pensando em fazer doutorado em Ciência da Computação, mas estou preocupado com o futuro. Atualmente estou empregado em tempo integral, mas estou preocupado com o futuro.

Postagem do Reddit (r/AskReddit)
Espero que isso seja apropriado para o AskReddit, mas estou procurando pesquisas/trabalhos de verão de última hora. Alguém tem alguma idéia do que eu poderia fazer?
Estou morando na casa dos meus pais em Houston, Texas. Sou um estudante de pós-graduação na UH, estou fazendo aulas para entrar num programa de mestrado em ciência da computação e já me formei numa escola de ponta com bacharelado em geofísica. Também trabalhei durante anos fazendo desenvolvimento web e tenho uma ampla experiência, e posso programar decentemente, além de ter ampla experiência em desenvolvimento web.

Há muitos estágios que eu provavelmente *poderia* ter conseguido se não tivesse esperado tanto, mas como é a última hora não sei o que fazer. Não posso trabalhar em casa, na verdade. Alguma ideia? O pagamento não é importante, se eu conseguir uma boa experiência de trabalho/pesquisa. Apesar de que o pagamento seria legal. 🙂

Resumo de referência escrito por humanos
desculpe se esta é uma pergunta idiota para o AskReddit, mas preciso de algo em que possa trabalhar neste verão, com ou sem pagamento. Com sorte, algo relacionado a ciência da computação. Alguma ideia?

Modelo 6B de feedback humano
Sou recém-formado com bacharelado em geofísica e experiência em desenvolvimento web, procurando pesquisas/trabalhos de verão de última hora. Alguma ideia? O pagamento não é importante.

Modelo 6B supervisionado
Estou procurando pesquisas/trabalhos de verão de última hora. Sou estudante de pós-bacharelado da UH, estou tendo aulas para entrar num programa de mestrado em Ciência da Computação e já me formei numa escola de ponta com bacharelado em

Modelo 6B pré-treinado
Sou estudante de pós-bacharelado na UH, estou tendo aulas para entrar num programa de mestrado em ciência da computação e já me formei numa escola de ponta com bacharelado em geofísica. Também trabalhei durante anos fazendo web

Postagem do Reddit (r/relationship_advice)
Dificuldades com uma faculdade diferente, relacionamento à distância
Estou terminando a última semana do trimestre de outono do meu segundo ano de graduação. Estou num relacionamento à distância, com oito horas de separação. A faculdade que frequento foi minha primeira escolha, embora eu nunca tenha tido nenhum motivo real para querer cursar, só queria. A faculdade do meu namorado também é sua primeira escolha. Fui aceita em ambas. Ambas são faculdades fantásticas, a dele até mesmo tem uma classificação superior à minha. No entanto, depois de conversarmos sobre o assunto, decidimos que eu me afastar para a faculdade, a faculdade que eu originalmente queria frequentar, seria a melhor opção. Eu ia para a faculdade dele e nós íamos terminar, eu ia me sentir boba por escolher uma faculdade por um menino, ele ia se sentir culpado por me deixar fazer essa escolha e, no geral, íamos nos sentir péssimos. Então decidimos fazer o negócio da longa distância.

Já namoramos há mais de três anos e meio e o último ano foi difícil. Mas sobrevivemos e estamos ainda melhores do que antes. Nosso relacionamento parece sólido. Temos problemas e eles muitas vezes são agravados pela longa distância, mas seguimos em frente. No entanto, apesar de tudo, me sinto muito culpada por fazer nosso relacionamento passar por isso. Parece que este é um relacionamento que vai durar e que tornaria a vida dez vezes mais fácil se estivéssemos na mesma faculdade. Ele sempre me culpa pelos problemas que temos, porque optei por me mudar. Eu realmente não sei como lidar com isso. Como posso ajudá-lo a superar a decisão e resolver os problemas que surgem, em vez de me culpar pela minha decisão acadêmica?

Desculpe pelo longo post. Está cada vez mais difícil.

Resumo de referência escrito por humanos
Escolhi uma faculdade distante, como ajudar o namorado a superar essa decisão “egoísta” para fortalecer melhor nosso relacionamento?

Modelo 6B de feedback humano
Escolhi me mudar para fazer faculdade, meu namorado escolheu ficar na faculdade dele. O relacionamento está sofrendo por causa da distância. Como posso ajudá-lo a superar a decisão e resolver os problemas?

Modelo 6B supervisionado
Estou num relacionamento à distância e me sinto culpada por fazê-lo passar por isso. Como posso ajudá-lo a superar a decisão e resolver os problemas que surgem, em vez de me culpar pela minha decisão acadêmica?

Modelo 6B pré-treinado
Estou num relacionamento à distância e me sinto culpada por fazê-lo passar por isso.

Postagem do Reddit (r/relationship_advice)
vários anos de diferença e em diferentes fases da vida, além de longa distância. alguém já passou por algo semelhante com sucesso?
então basicamente estou num ponto da vida em que quero me estabelecer, comprar uma casa, começar minha carreira e sair de férias anuais e em cerca de 5 a 10 anos começar uma família.

meu companheiro está apenas entrando na idade adulta. descobrindo o que quer fazer da vida. quer gastar seu dinheiro viajando pelo mundo antes de “se estabelecer”.

estamos em estágios fundamentalmente diferentes de nossas vidas.

estou nos 20 e tantos anos, perto dos 30 (grande pânico para mim devido às expectativas do que quero realizar até esse ponto, etc.), meu companheiro está com 20 e muito poucos anos.

e vivemos literalmente em lados opostos do globo.

alguém já esteve em uma situação semelhante com palavras de conselho como a parte mais velha?

Resumo de referência escrito por humanos
tentando conciliar meu sentimento de querer me estabelecer com o sentimento de deixar companheiro livre para fazer o que quiser.

Modelo 6B de feedback humano
parte mais velha com 20 e tantos anos querendo se estabelecer, parceiro com 20 e poucos anos quer viajar pelo mundo antes de se estabelecer. vivemos em lados opostos do globo. alguém já passou por algo semelhante com sucesso?

Modelo 6B supervisionado
parte mais velha quer se estabelecer, constituir família, viajar pelo mundo, enquanto parte mais jovem quer viajar pelo mundo, se estabelecer, constituir família.

Modelo 6B pré-treinado
Tenho 20 e tantos anos e meu companheiro tem 20 e poucos anos. Vivemos em lados opostos do globo. Algum conselho?

Postagem do Reddit (r/AskReddit)
Caro Reddit, meu namorado e eu moramos em continentes diferentes; como ele pode obter um visto para os Estados Unidos?
Algumas informações básicas:

Sou estudante universitária. Meu namorado (mais ou menos da mesma idade) mora na Austrália e, até agora, nosso relacionamento tem sido puramente on-line. Ele gostaria de se mudar para os Estados Unidos no final deste ano para que possamos ficar juntos, mas precisaria encontrar moradia e emprego. Temos alguns fundos, e meu namorado está ganhando cerca de 13 mil por ano com um emprego de meio período e em breve conseguirá outro emprego, então, embora não estejamos ganhando dinheiro, o dinheiro não é o verdadeiro problema. Estamos mais preocupados em ele conseguir um visto.

No site do Departamento de Estado, os três tipos de vistos de imigrante são 1) patrocinados pela família, 2) patrocinados pelo empregador e 3) imigrantes especiais.

1) Ele não é da família, mas poderia conseguir um visto se ficássemos noivos e nos casássemos. Essa opção parece ser a nossa única escolha, mas nenhum de nós quer se casar sem nos conhecermos pessoalmente.
2) Ao nosso entender, os vistos de emprego são concedidos apenas a quem é trabalhador qualificado e não vemos como o meu namorado conseguiria ser patrocinado por um empregador.
3) Não se aplica.

Além disso, ele não pode solicitar um visto de estudante para a faculdade porque não temos fundos para pagar as mensalidades e custos adicionais, e sua família (e a minha, neste caso) não está disposta a apoiá-lo.

Resumo de referência escrito por humanos
Como ele pode obter um visto que lhe permitirá residir nos EUA e manter um emprego?

Modelo 6B de feedback humano
Namorado da Austrália quer se mudar para os EUA para ficar comigo, mas precisa de visto. Não podemos conseguir para ele um visto patrocinado pela família porque nenhum de nós quer se casar sem nos conhecermos primeiro, e ele não pode solicitar um

Modelo 6B supervisionado
Namorado quer se mudar para os EUA, mas não tem visto. Como ele pode conseguir um?

Modelo 6B pré-treinado
Meu namorado e eu moramos em continentes diferentes e ele precisa de visto para se mudar para os Estados Unidos. Não queremos nos casar sem nos conhecermos pessoalmente e não temos recursos para pagar a faculdade.

Postagem do Reddit (r/AskReddit)
Reddit, meu contrato militar termina em 145 dias e estou pensando seriamente em sair, apesar de não ter um plano claro. Algum de vocês já correu grandes riscos na carreira? Como aconteceu?
Gosto das forças armadas porque recebo um dinheiro bastante decente pela quantidade de trabalho que faço. Também recebo seguro médico, odontológico, seguro de vida, voos gratuitos (embora não muito confiáveis) para quase qualquer lugar e posso me aposentar após 20 anos. A questão é que eu quero algo diferente. Fico entediado com as coisas muito rápido e estou começando a ficar muito entediado com minha carreira. Além disso, 20 anos nas forças armadas podem realmente afetar uma pessoa e, quando eu terminar, o que acontecerá? Suponho que pudesse conseguir um emprego fazendo isso, trabalhando para os militares como civil, fazendo praticamente a mesma coisa. Eu gostaria de abrir um negócio por conta própria e acho que, se vou tomar uma atitude, devo fazer isso agora, antes de investir muito tempo nas forças armadas.

Resumo de referência escrito por humanos
Estou cansado das forças armadas e quero sair para fazer outra coisa, mas ainda não sei o quê. Você deu um salto de fé em termos de carreira? Como funcionou?

Modelo 6B de feedback humano
Meu contrato militar termina em 145 dias e estou pensando em sair, apesar de não ter um plano claro sobre o que quero fazer depois. Algum de vocês assumiu grandes riscos na carreira e como isso aconteceu?

Modelo 6B supervisionado
Estou pensando em deixar o serviço militar porque estou entediado com minha carreira e quero fazer outra coisa. Como você fez isso?

Modelo 6B pré-treinado
Gosto das forças armadas, mas quero fazer algo diferente. Quero abrir um negócio por conta própria. Como você fez a mudança?

Postagem do Reddit (r/jobs)
Quero que a Faculdade Escreva para a Pós-Graduação On-Line, como Escrever a Proposta
Olá a todos. Trabalho no meu atual empregador há quase três anos. Meu empregador é muito generoso e nos manda técnicos de TI (sou do suporte técnico, mas somos um pequeno grupo de TI e nos envolvemos em muitos projetos fazendo muito mais do que isso) para formação anual. É um trabalho no exterior e isso significa que a maior parte da formação técnica deve ser feita numa região de outro país ou num lugar distante, nos Estados Unidos. Outros com um nível salarial mais alto recebem benefícios de mensalidade, eu não. Não estou reclamando, meu primeiro emprego fora da escola não pagaria nem uma formação descendo a rua…

Então quero escrever uma proposta para que eu possa planejar um mestrado on-line em Ciência da Computação, que todo ano seria mais barato do que me pagar um voo para o extrangeiro, me colocar num hotel e pagar por um curso de formação caro. Alguém tem experiência com isso? Qual formato devo usar? Alguém sabe onde encontrar amostras? Não tenho certeza de como chamar isso.

Resumo de referência escrito por humanos
Quero escrever para meu empregador dizendo que posso fazer pós-graduação mais barato do que sessões de formação anuais. Como eu escreveria um relatório/proposta para perguntar?

Modelo 6B de feedback humano
Quero escrever uma proposta para mestrado on-line em Ciência da Computação que todo ano seria mais barato do que me pagar um voo para o estrangeiro, me colocar num hotel e pagar por um curso de formação caro. Alguém tem experiência com isso?

Modelo 6B supervisionado
Quero escrever uma proposta para que uma escola escreva um mestrado on-line em Ciência da Computação para mim. Como eu faço isso?

Modelo 6B pré-treinado
Quero escrever uma proposta de mestrado em Ciência da Computação que possa fazer on-line.

Postagem do Reddit (r/relationship_advice)
Minha [H/20] namorada [M/22] pode não entrar na pós-graduação que deseja.
Basicamente, minha namorada pode não conseguir entrar na desejada pós-graduação devido a certas complicações acadêmicas e financeiras. Ela tem uma ou duas disciplinas com nota indesejável e deseja refazê-las. Mas com as mensalidades da faculdade custando tanto quanto hoje, isso a coloca em uma posição difícil porque ela não pode refazer os cursos para obter uma nota melhor. Sinceramente, gostaria de poder ajudá-la e pagar tudo, mas tenho minhas próprias mensalidades crescentes para cobrir, além de moradia.

Estou tentando apoiá-la e ajudá-la o melhor que posso, mas parece que não há muito que eu possa fazer… Ou pelo menos nada me vem à mente. Esta é uma grande fonte de estresse e infelicidade no momento, para nós dois. Ela tem chorado por causa disso quase todas as noites, ela também ficou irritadiça e um tanto fria e distante. Tenho dado mais espaço a ela e apenas estado presente quando ela precisa de mim. Mas não posso deixar de me sentir extremamente inútil e impotente neste momento, e é provavelmente um dos piores sentimentos que já experimentei. Será que algo que eu possa fazer para tornar as coisas um pouco mais fáceis, aliviar um pouco o estresse. Eu só quero vê-la sorrir novamente…

Resumo de referência escrito por humanos
A namorada está preocupada em não conseguir entrar na pós-graduação, extremamente estressada. Quero ajudar de todas as maneiras possíveis, mas parece que não há muito que eu possa fazer por ela.

Modelo 6B de feedback humano
Minha namorada pode não conseguir entrar na pós-graduação que deseja devido a complicações acadêmicas e financeiras. Estou me sentindo extremamente impotente e inútil agora. O que posso fazer para tornar as coisas um pouco mais fáceis?

Modelo 6B supervisionado
A namorada pode não conseguir entrar na pós-graduação que deseja, e estou me sentindo inútil e impotente. O que posso fazer para ajudá-la?

Modelo 6B pré-treinado
Minha namorada pode não conseguir entrar na desejada pós-graduação devido a certas complicações acadêmicas e financeiras. Ela tem uma ou duas disciplinas com nota indesejável e deseja refazê-las. Mas com a mensalidade da faculdade custando tanto quanto

Postagem do Reddit (r/relationship_advice)
Eu [M/23] estou considerando num relacionamento à distância pela primeira vez e estou apavorada.
Graças ao Reddit, conheci uma pessoa maravilhosa que inesperadamente me fez considerar um relacionamento à distância. Conversei com muitas pessoas on-line, mas no momento em que começamos a conversar eu sabia que era completamente diferente. Ele é perfeito.

Felizmente estou começando uma nova carreira na qual viajo, então sei que dentro de 4 meses poderei conhecê-lo.

O que me preocupa são os 4 meses que antecedem esse período. Nunca pensei que estaria em posição de estar com alguém até agora, mas ele me faz querer isso.

É aí que preciso da sua ajuda… Como faço para que isso funcione? Quais são algumas coisas que tornam esse negócio de longa distância um pouco mais fácil?

Estou aberta a enviar coisas pelo correio, se isso ajudar.

Resumo de referência escrito por humanos
Eu conheci um cara incrível. Ele mora a 7 estados de distância. Nunca fiz longa distância e preciso de ajuda sobre como podemos fazer a distância funcionar até nos encontrarmos em 4 meses.

Modelo 6B de feedback humano
Conheci alguém que me faz querer um relacionamento à distância. Sei que poderei acabar conhecendo-o, mas estou preocupada com os 4 meses que antecedem esse momento. Quais são algumas coisas que posso fazer para tornar isso mais fácil?

Modelo 6B supervisionado
Estou pensando num relacionamento à distância pela primeira vez e estou apavorada. Como faço para que isso funcione?

Modelo 6B pré-treinado
Tenho 23 anos e estou pensando num relacionamento à distância pela primeira vez. Estou apavorada.

Postagem do Reddit (r/AskReddit)
Mulher de 21 anos, entrevista de emprego na GameStop, algum outro trabalhador que possa responder perguntas?
Tenho uma entrevista de emprego na GameStop, só queria saber se alguém poderia me dizer o quanto devo me arrumar para essa entrevista? Eu não quero me vestir de menos ou demais. Além disso, isso é algo para o qual devo trazer um currículo? Entreguei minha inscrição e consegui a entrevista, mas também quero conseguir o emprego. Tenho experiência, incluindo 3 anos como gerente assistente em outra loja de varejo. Desde então, mudei de estado para estudar e saí em boas condições. Eu gostaria MUITO de ter esse emprego. Qualquer conselho seria apreciado!

Resumo de referência escrito por humanos
Entrevista de emprego na GameStop, em busca de conselhos sobre como se vestir e o que levar. (Ou seja, currículo, qualquer outra documentação)

Modelo 6B de feedback humano
Mulher de 21 anos, entrevista de emprego na GameStop, algum outro trabalhador que possa responder perguntas? Tenho experiência em varejo e gostaria de conseguir esse emprego. Qualquer conselho seria apreciado!

Modelo 6B supervisionado
Tenho uma entrevista de emprego na GameStop, algum outro funcionário que possa responder perguntas? Além disso, isso é algo para o qual devo trazer um currículo?

Modelo 6B pré-treinado
Tenho uma entrevista de emprego na GameStop, só queria saber se alguém poderia me dizer o quanto devo me arrumar para essa entrevista? Eu não quero me vestir de menos ou demais. Além disso, isso é algo para o qual eu deveria trazer

Postagem do Reddit (r/AskReddit)
Sou naturalmente preguiçoso, como posso ficar motivado para trabalhar?
Sou programador autodidata, nunca terminei a faculdade porque tenho preguiça nela. Não sinto vontade de estudar naquela época porque acho que não vai me adiantar nada na carreira que escolhi (eu estava cursando biblioteconomia, mas gosto muito de programação de qualquer maneira).

Agora estou trabalhando como desenvolvedor web. E muitas vezes simplesmente passo meu tempo jogando jogos de console ou League of Legends ou navegando no Reddit em vez de trabalhar. Eu simplesmente nãotenho vontade de trabalhar. Não é que eu odeie trabalhar, na verdade acho que tenho o melhor chefe do mundo. O salário é bom. Todas as coisas boas, na verdade. Mas não sei por que sou preguiçoso.

Reddit, como posso ficar motivado no trabalho?

Resumo de referência escrito por humanos
programador autodidata que largou a faculdade, trabalhando agora como desenvolvedor web, joga videogame em vez de trabalhar, por favor, ajude-me a ficar motivado.

Modelo 6B de feedback humano
Sou naturalmente preguiçoso, trabalho como desenvolvedor web. Às vezes passo meu tempo jogando games em vez de trabalhar. Como posso ficar motivado a trabalhar?

Modelo 6B supervisionado
Sou preguiçoso, como fico motivado a trabalhar? Eu tenho o melhor chefe do mundo.

Modelo 6B pré-treinado
Sou programador autodidata, nunca terminei a faculdade porque tenho preguiça nela. Não tenho vontade de estudar naquela época porque acho que não vai me adiantar nada na carreira que escolhi (eu estava cursando biblioteconomia, mas gosto muito

Avaliamos vários modelos de sumarização diferentes – alguns foram pré-treinados em uma ampla distribuição de textos da Internet, outros receberam ajuste fino por meio de aprendizado supervisionado para prever TL;DRs e alguns receberam ajuste fino por meio do feedback humano.³ Para avaliar cada modelo, fizemos um resumo das postagens do conjunto de validação e pedimos aos humanos que comparassem seus resumos com o TL;DR escrito por humanos. Os resultados são mostrados na Figura 1.

Descobrimos que o ajuste fino de RL com feedback humano teve um efeito muito grande na qualidade em comparação com o ajuste fino supervisionado e o aumento do tamanho do modelo. Em particular, nosso modelo de 1,3 bilhão de parâmetros (1,3B) treinado com feedback humano supera nosso modelo 12B treinado apenas com aprendizado supervisionado. Os resumos de nossos modelos de feedback humano 1,3B e 6,7B são preferidos por nossos rotuladores aos TL;DRs originais escritos por humanos no conjunto de dados.⁴

As pessoas fazem diferentes escolhas ao escrever resumos, inclusive entre concisão e cobertura do texto original; dependendo da finalidade do resumo, podem ser preferidos diferentes comprimentos de resumo. Nossos rotuladores tendiam a preferir resumos mais longos, de modo que nossos modelos se adaptaram a essa preferência e convergiram ao maior comprimento permitido. O controle do comprimento reduziu as preferências humanas para os resumos do nosso modelo 6,7B de 70% para 65%, explicando uma minoria dos nossos ganhos.⁵

Resultados da transferência

O desempenho (qualidade de resumos classificados por humanos numa escala de 1 a 7) de vários procedimentos de treinamento e tamanhos de modelos. Observe que nossos modelos de feedback humano geram resumos que são consideravelmente mais curtos que resumos de modelos treinados na CNN/DM.

Num dado comprimento de resumo, nosso modelo de feedback humano 6,7b treinado no Reddit tem um desempenho quase tão bom quanto o de um modelo T5 11B com ajuste fino, apesar de não ser retreinado na CNN/DM.

Resultados

Artigo da CNN/DM (dailymail)
McDonald’s anuncia aumentos salariais para funcionários de 1.500 restaurantes em todo o país
A cadeia de fast-food mais rentável do mundo irá partilhar um pouco mais da sua receita com os seus trabalhadores, visto que a empresa revelou planos para aumentar os salários nos seus restaurantes nos EUA.

O McDonald’s anunciou na quarta-feira que aumentará os salários iniciais dos funcionários de meio período e período integral para um dólar acima do salário mínimo onde operam os restaurantes de sua propriedade.

A empresa disse que o aumento será instituído a partir de 1º de julho. Ela espera que o salário médio seja superior a US$ 10 por hora até o final de 2016, acima da taxa atual de US$ 9 por hora.

Contracheques que engordam: O McDonald’s anunciou na quarta-feira que aumentará os salários iniciais em seus restaurantes para um dólar acima do salário mínimo a partir de 1º de julho.

O McDonald’s EUA possui cerca de 10 por cento dos mais de 14.300 restaurantes McDonald’s em todo o país, com o restante operado como franquias que não estarão sujeitas aos aumentos salariais.

A marca de hambúrgueres junta-se a outras grandes empresas que aumentam o salário básico num contexto de melhoria da economia e de pressão pública para aumentar os salários.

Trabalhadores de cadeias de fast-food, incluindo o McDonald’s, organizaram protestos no ano passado, pedindo às empresas que aumentassem os salários para 15 dólares por hora e exigindo um sindicato.

As reclamações apresentadas ao Conselho Nacional de Relações Trabalhistas e à Administração de Segurança e Saúde Ocupacional dos EUA também alegaram violações, incluindo negação de pagamento de horas extras e condições de trabalho inseguras na cadeia de restaurantes.

Entretanto, a economia continuou a se fortalecer, com a taxa de desemprego caindo de 6,7% para 5,5% no último ano.

O presidente do McDonald’s nos EUA, Mike Andres, disse à Associated Press que apenas alguns funcionários do McDonald’s aderiram às manifestações e que elas não afetaram a reputação da empresa.

Manifestações: Organizadores trabalhistas com uma campanha para aumentar os salários da indústria de fast-food para US$ 15 por hora dizem que estão lutando para sindicalizar os trabalhadores de baixos salários em vários setores.

“Eles não estão levando prejuízo”, afirmou Andres.

“É um ambiente muito competitivo”, afirmou Andres. “Uma razão significativa para este plano é que queremos ser o empregador mais competitivo e atraente.”

No mês passado, o diretor administrativo do McDonald’s, Pete Bensen, deu a entender que tal comunicado poderia estar em andamento.

Bensen disse à época que uma grande parte do esforço de recuperação nos EUA seria o que a empresa está fazendo “em torno da imagem do emprego e da nossa relação empregado-empregador”.

Além dos aumentos salariais, o McDonald’s afirma que os trabalhadores dos comércios de propriedade da empresa receberão folga remunerada.

Os funcionários que trabalham para a empresa há pelo menos um ano e trabalham em média 20 horas por semana terão direito a acumular cerca de 20 horas de folga remunerada por ano.

Os trabalhadores que não tirarem folga serão pagos pelo valor desse tempo, disse o McDonald’s.

Kwanza Brooks, funcionário do McDonald’s na Carolina do Norte, classificou a medida como “muito pequena para fazer uma diferença real”.

“Aumentar um pouco os salários, por apenas uma pequena parcela, não é mudança. É puro truque”, disse ela em teleconferência organizada por organizadores trabalhistas.

Os negócios do McDonald’s nos EUA têm enfrentado dificuldades, com as vendas e o número de clientes em locais estabelecidos caindo por dois anos consecutivos.

Em janeiro, a empresa nomeou Steve Easterbrook, seu diretor de marca, como seu novo diretor-executivo. Essa mudança entrou em vigor no mês passado.

“Sabemos que uma força de trabalho motivada leva a um melhor atendimento ao cliente; por isso acreditamos que este passo inicial não só beneficia nossos funcionários, mas também melhorará a experiência do restaurante McDonald’s”, disse Easterbrook em comunicado na quarta-feira.

O McDonald’s também disse que está expandindo os benefícios para ajudar os trabalhadores de restaurantes da empresa e de franquias a concluírem o ensino médio e a faculdade. Não forneceu imediatamente detalhes sobre esse programa.

Resumo de referência escrito por humanos
A rede de fast-food pagará um dólar a mais do salário mínimo nos restaurantes de sua propriedade. O aumento salarial não afetará os restaurantes franqueados, que respondem por 90% das localidades do McDonald’s. A empresa foi alvo de protestos no ano passado, com trabalhadores de fast-food manifestando-se por um sindicato e por um salário de 15 dólares por hora.

Modelo 6B de feedback humano (transferência)
O Mcdonald’s está aumentando os salários iniciais de seus funcionários em todo o país. A gigante dos hambúrgueres junta-se a outras grandes empresas que aumentam os salários básicos num contexto de melhoria da economia e de pressão pública para aumentar os salários.

Modelo 6B supervisionado (transferência)
O McDonald’s está aumentando seu salário inicial para US$ 10 por hora e aumentará o salário mínimo para US$ 9 por hora.

Modelo 6B pré-treinado
O McDonald’s anunciou na quarta-feira que aumentará os salários iniciais em seus restaurantes para um dólar acima do salário mínimo a partir de 1º de julho.

Modelo T5 11B (ajustado no CNN/DM)
O Mcdonald’s anunciou na quarta-feira que aumentará os salários iniciais dos funcionários de meio período e período integral para um dólar acima do salário mínimo. A empresa disse que o aumento será instituído a partir de 1º de julho. Ela espera que o salário médio seja superior a US$ 10 por hora até o final de 2016, acima da taxa atual de US$ 9 por hora.

Modelo 6B supervisionado (ajustado no CNN/DM)
O McDonald’s anunciou na quarta-feira que aumentará os salários iniciais dos funcionários de meio período e período integral para um dólar acima do salário mínimo. A empresa espera que o salário médio seja superior a US$ 10 por hora até o final de 2016, acima da taxa atual de US$ 9 por hora. O Mcdonald’s USA possui cerca de 10% dos mais de 14.300 restaurantes McDonald’s em todo o país.

Artigo da CNN/DM (dailymail)
Jack Grealish deve se concentrar no Aston Villa e não no futuro internacional, diz Tim Sherwood
Jack Grealish deve se concentrar em sua carreira no Aston Villa e não em seu futuro internacional, de acordo com Tim Sherwood.

Sherwood ficou impressionado com o jovem de 19 anos que estrelou pelo Villa na vitória nas semifinais da FA Cup sobre o Liverpool no domingo e agora está no centro de um cabo de guerra entre a República da Irlanda e a Inglaterra.

Mas Sherwood quer que Grealish se concentre em continuar a forçar sua entrada no time principal do Villa.

Jack Grealish enfrenta Emre Can, do Liverpool, no Wembley, durante a vitória do Aston Villa por 2 a 1 no Wembley

Grealish (centro) impressionou contra o Liverpool e é desejado pela República da Irlanda e pela Inglaterra

“Depende do Jack onde ele quer ir. Depende puramente dele. O que tenho que fazer é garantir que ele tenha essa decisão a tomar. Ele deve estar fazendo algo certo pelo Aston Villa se tiver essas opções. Essa é a minha prioridade”, disse Sherwood ao talkSport.

“Então cabe ao Jack decidir para onde quer ir. Passei pela mesma situação com Nabil Bentaleb [no Tottenham], que poderia ter jogado pela França, mas decidiu escolher a Argélia. Conversei com ele e ele me perguntou o que fazer. Eu apenas disse: ‘você tem que seguir com o coração. Você acha que é francês ou argelino?’

“Essa é a decisão que ele teve que tomar e agora o Jack tem que tomar essa decisão. Ele terá que jogar mais algumas vezes pelo Aston Villa antes de tomar essa decisão. Às vezes, quando alguns garotos vêm jogar com o time principal, ficam um pouco intimidados, mas o Jack não.

“Ele recebe a bola e dribla as pessoas. Eles o chutam até tirar pedaço porque ele é muito confiante. A bola é amiga dele, gruda no pé dele. Quanto mais oportunidades ele tiver, melhor ele vai ficar.”

Espera-se que Grealish escolha entre Irlanda e Inglaterra no final da temporada e o Sportsmail entende que está dividido entre os dois países neste momento.

O pai de Grealish, Kevin, concordou que seu filho deve se concentrar primeiro no futebol do seu clube.

“Esse é um [conselho] fantástico. Ele fez um bom jogo contra [o Liverpool] e alguns jogos decentes recentemente, e precisa continuar fazendo isso primeiro, e as coisas internacionais virão”, disse ele ao talkSport.

“Será uma decisão difícil e depende inteiramente do Jack.

“Há um amistoso em breve e ele poderá jogar 45 minutos pela Irlanda e 45 minutos pela Inglaterra.”

Grealish (à esquerda) jogou pelas seleções juvenis da República da Irlanda, mas a Inglaterra espera fazê-lo mudar de ideia

Tim Sherwood comemora a vitória do Villa sobre o Liverpool e quer mais do mesmo de Grealish

Resumo de referência escrito por humanos
Jack Grealish é desejado pela República da Irlanda e pela Inglaterra. Tim Sherwood quer que o jovem de 19 anos se concentre em jogar mais pelo Villa. Grealish tomará uma decisão sobre o futuro internacional no final da temporada.

Modelo 6B de feedback humano (transferência)
Tim Sherwood quer que Jack Grealish se concentre em sua carreira no Aston Villa, e não em seu futuro internacional. O jovem de 19 anos está dividido entre a Irlanda e a Inglaterra neste momento.

Modelo 6B supervisionado (transferência)
Jack Grealish deve se concentrar em sua carreira no Aston Villa e não em seu futuro internacional, de acordo com Tim Sherwood.

Modelo 6B pré-treinado
Jack Grealish deve se concentrar em sua carreira no Aston Villa e não em seu futuro internacional, de acordo com Tim Sherwood.

Modelo T5 11B (ajustado no CNN/DM)
Jack Grealish estrelou a vitória do Aston Villa nas semifinais da Copa da Inglaterra sobre o Liverpool. O jovem de 19 anos é desejado pela República da Irlanda e pela Inglaterra. Tim Sherwood quer que Grealish se concentre em sua carreira no Aston Villa.

Modelo 6B supervisionado (ajustado no CNN/DM)
Jack Grealish é desejado pela República da Irlanda e pela Inglaterra. O meio-campista do Aston Villa deverá escolher entre as duas. O pai de Grealish, Kevin, diz que seu filho deve se concentrar em sua carreira no clube.

Artigo do CNN/DM (dailymail)
David Cameron come cachorro-quente com FACA E GARFO e diz que não esconde que é fino
David Cameron rejeitou as críticas de que é fino demais, insistindo que não mudará a forma como age ou fala para conquistar eleitores.

O primeiro-ministro aparentemente tem tanto orgulho de ser fino que ficou feliz de ser fotografado comendo cachorro-quente com garfo e faca.

A bizarra etiqueta gastronômica durante uma visita de campanha a Dorset foi quase certamente planejada para evitar uma repetição da tentativa desastrosa de Ed Miliband de comer um sanduíche de bacon.

Vá para baixo para ver o vídeo

David Cameron comeu seu cachorro-quente com talheres enquanto almoçava com Lilli Docherty e sua filha Dakota ao Sol durante uma visita a Poole em Dorset.

Parece provável que o Sr. Cameron estava tentando evitar o destino do líder trabalhista Ed Miliband, que foi muito ridicularizado por sua tentativa de comer um sanduíche de bacon na campanha do ano passado

Poucas pessoas conseguem parecer atraentes enquanto comem em público, mas na campanha uma combinação de fome e o desejo de não ofender os anfitriões significa que pode ser complicado evitar.

A parada do Sr. Cameron em um jardim em Poole, Dorset, ontem, incluiu um almoço.

O líder conservador encheu seu prato com salada de batata, pepino, tomate e cachorro-quente antes de se sentar ao lado de Lilli Docherty e sua filha Dakota.

Mas ele surpreendeu os espectadores com seu estilo de comer, pegando faca e garfo para picar o cachorro-quente.

O PM tem uma história conturbada com cachorro-quente. Em 2010, ele causou indignação em visita a Nova York ao pedir um de salsicha simples, sem mesmo cebola.

E em março de 2012 ele teria tentado comer um de lado durante um jogo de basquete com o presidente Obama.

Ele também provocou uma minitempestade depois de optar pelo ketchup à mostarda, o condimento preferido de muitos americanos.

O primeiro-ministro obviamente gostou do almoço e foi fotografado recostado na cadeira ao Sol.

Numa nova entrevista, o velho etoniano insiste que nunca tentou esconder a sua educação privilegiada e recusa-se a mudar a forma como fala ou se comporta

Enquanto os assessores podem se preocupar com a impressão que o Sr. Cameron deu ao comer seu churrasco com talheres, o próprio homem está despreocupado.

Em entrevista que será transmitida esta noite, ele deixa claro que não vai mudar seu comportamento para esconder sua “fineza”.

O velho etoniano insiste que nunca tentou esconder a sua educação privilegiada.

Ele disse ao programa Tonight da ITV: “Fui de uma escola muito fina, tive uma educação muito privilegiada com pais que eram incrivelmente amorosos e brilhantes.

“Nunca tentei esconder isso, não vou mudar meu sotaque nem falar de uma forma diferente.”

Em 2010 (à esquerda), Cameron causou indignação numa visita a Nova Iorque quando pediu um cachorro-quente de salsicha simples, sem mesmo cebola. Em Março de 2012 (à direita), Cameron teria tentado comer um de lado durante um jogo de basquetebol com o Presidente Obama.

Cameron acrescentou: “Aceito que precisamos fazer mais para demonstrar que a economia que estamos proporcionando, os empregos, as reduções de impostos as casas que estamos construindo, as escolas que estão melhorando.

“Isso é para pessoas que trabalham duro, que fazem a coisa certa. Isso não é para algum tipo de economia do eles e nós, é para pessoas que trabalham duro.

“É isso que tenho feito nos últimos quatro anos e meio. Mas aceito que, na política, as percepções são tão importantes quanto a realidade e precisamos, temos que trabalhar mais para acertar nisso.

Resumo de referência escrito por humanos
O primeiro-ministro opta pelos talheres enquanto come churrasco numa visita a Dorset. Etiqueta de jantar feita para evitar o desastre do sanduíche de bacon de Ed Miliband. “O líder conservador aproveita a entrevista para admitir que teve uma ‘educação privilegiada'” . Insiste que não mudará a forma como fala ou se comporta para ganhar votos.

Modelo 6B de feedback humano (transferência)
David Cameron comeu um cachorro-quente com talheres durante uma visita de campanha a Dorset ontem, mas insiste que não mudará seu comportamento para ganhar votos.

Modelo 6B supervisionado (transferência)
David Cameron comeu seu cachorro-quente com talheres enquanto almoçava com Lilli Docherty e sua filha Dakota ao Sol durante uma visita a Poole em Dorset.

Modelo 6B pré-treinado
David Cameron rejeitou as críticas de que é fino demais, insistindo que não mudará a forma como age ou fala para conquistar eleitores.

Modelo T5 11B (ajustado na CNN/DM)
O primeiro-ministro fotografado comendo um cachorro-quente com garfo e faca em Poole. Ele foi acompanhado para um almoço por Lilli Docherty e sua filha Dakota. Cameron rejeitou as críticas de que é fino demais para os eleitores. Ele insiste que nunca tentou esconder sua educação privilegiada.

Modelo 6B supervisionado (ajustado na CNN/DM)
Primeiro Ministro fotografado comendo cachorro-quente com garfo e faca durante parada de campanha. Ele foi fotografado almoçando com Lilli Docherty e sua filha Dakota. Cameron insiste que nunca tentou esconder a sua educação privilegiada.

Artigo da CNN/DM (dailymail)
Polícia do Texas vira fazendeiros e arrebanha Big Boy, o BÚFALO, em perseguição em alta velocidade
Este é o momento em que a polícia do Texas vira fazendeiros numa tentativa determinada de pastorear um búfalo perdido.

Imagens da câmera do para-brisa mostram os policiais usando seus veículos de patrulha para tirar o bisão de uma tonelada da estrada e levá-lo de volta à sua fazenda perto da cidade de Round Rock.

Enquanto buzinam, o animal, chamado Big Boy, continua a correr pela calçada, mas a certa altura ele passa na frente do carro da polícia e vai para o outro lado da estrada.

Apesar do desvio, o búfalo voltou para casa em segurança, livre de ferimentos.

Seu dono, Joe Don Kotrla-Chipps, de 79 anos, disse à Fox News que Big Boy adquiriu maus hábitos recentemente e começou a pular a cerca.

“Tem sido bastante adequado há 25 anos com todos os meus outros búfalos, mas este é um saltador”, disse o fazendeiro.

Aparentemente, Big Boy conseguiu passar por uma cerca elétrica e uma barreira de arame farpado para escapar de seu cercado na manhã da sexta-feira passada, por volta das 7h.

A polícia diz que deu ao seu proprietário uma multa por violar a “lei do pasto aberto” com uma cerca inadequada.

Em fuga: Este é o momento em que a polícia do Texas [vira] fazendeiros enquanto tentam com determinação pastorear um búfalo.

Perseguição em alta velocidade: Imagens da câmera do para-brisa mostram os policiais usando seus veículos de patrulha para tirar o bisão de uma tonelada da estrada e levá-lo de volta para sua fazenda perto a cidade de Round Rock

Luz, câmera, ação: Enquanto buzinam, o animal, chamado Big Boy, continua correndo pela calçada, mas em determinado momento ele passa na frente do carro da polícia e vai para o outro lado da estrada

Como resultado, Kotrla-Chipps está supostamente instalando uma cerca mais alta.

Entretanto, Big Boy, de cinco anos, foi transferido para outro pedaço de terra.

Foi um morador local que relatou a fuga do animal para a liberdade após avistá-lo na rodovia.

A polícia disse que os policiais e uma unidade de Controle de Animais responderam a um relato de “gado solto” e conseguiram atrair o bisão para uma área segura.

Habilidades atléticas: Seu dono, Joe Don Kotrla-Chipps, de 79 anos, disse à Fox News que Big Boy adquiriu maus hábitos recentemente e começou a pular sua cerca.

Lance pela liberdade: Aparentemente, Big Boy conseguiu passar pela cerca elétrica e uma cerca de arame farpado para escapar de seu cercado na manhã da sexta-feira passada, por volta das 7h.

Felizmente, ninguém ficou ferido durante o incidente.

Posteriormente, as autoridades destacaram os perigos da situação.

“Estes animais são grandes, rápidos e podem causar danos se forem encontrados nas circunstâncias erradas”, observaram.

Junto com os búfalos, Kotrla-Chipps mantém uma variedade de animais em sua fazenda, incluindo porcos, cães e pavões.

Tocando no drama recente, ele concluiu: ‘[Big Boy] é um búfalo excepcional. E é por isso que quero mantê-lo, sabe? Há algo ali que está acima de todos os meus outros.

Resumo de referência escrito por humanos
Imagens da câmera do para-brisa mostram os policiais usando seus veículos de patrulha para tirar o bisão de uma tonelada da estrada e levá-lo de volta à sua fazenda perto da cidade de Round Rock. Enquanto buzinam, o Animal, chamado Big Boy, continua correndo pela calçada. No entanto, a certa altura, ele passa na frente do carro da polícia e vai para o outro lado da estrada. Apesar do desvio, o búfalo voltou para casa em segurança, livre de ferimentos. .

Modelo 6B de feedback humano (transferência)
A polícia do Texas atraiu com sucesso um búfalo de volta ao seu dono depois que ele escapou de seu cercado na manhã da sexta-feira passada.

Modelo 6B supervisionado (transferência)
A polícia do Texas está determinada a conduzir um búfalo de volta à fazenda de seu dono.

Modelo 6B pré-treinado
A polícia do Texas usou seus veículos de patrulha para conduzir um búfalo de volta à sua fazenda depois que ele escapou de seu cercado.

Modelo T5 11B (ajustado na CNN/DM)
Imagens da câmera do para-brisa mostram os policiais usando seus veículos de patrulha para tirar o bisão de uma tonelada da estrada e levá-lo de volta à sua fazenda perto da cidade de Round Rock. Enquanto buzinam, o Animal, chamado Big Boy, continua a correr pela calçada, mas a certa altura ele passa na frente do carro da polícia e vai para o outro lado da estrada. Seu dono, Joe Don kotrla-chipps, de 79 anos, disse que Big Boy adquiriu maus hábitos recentemente e começou a pular a cerca.

Modelo 6B supervisionado (ajustado na CNN/DM)
Imagens da câmera do para-brisa mostram os policiais usando seus veículos de patrulha para tirar o bisão de uma tonelada da estrada e levá-lo de volta à sua fazenda. Enquanto buzinam, o Animal, chamado Big Boy, continua a correr pela calçada, mas a certa altura ele passa na frente do carro da polícia e vai para o outro lado da estrada. Apesar do desvio, o búfalo voltou para casa em segurança, livre de ferimentos.

Artigo da CNN/DM (dailymail)
Lionel Messi e Cristiano Ronaldo são alvos de time da segunda divisão dos Estados Unidos do ex-astro brasileiro Ronaldo
Lionel Messi e Cristiano Ronaldo são considerados dois grandes rivais do futebol moderno, mas se o ex-atacante brasileiro Ronaldo conseguir o que quer, um dia poderão estar no mesmo time.

O vencedor da Copa do Mundo de 2002 é coproprietário do Fort Lauderdale Strikers, time da segunda divisão dos Estados Unidos, e Ronaldo não quer deixar pedra sobre pedra em sua busca para tornar o time uma grande força global.

O ex-atacante do Barcelona e do Real Madrid admitiu o desejo de ver os melhores talentos do mundo em seu clube.

Ronaldo diz que “pagaria do próprio bolso” para contratar Lionel Messi para seu time de futebol dos Estados Unidos

Cristiano Ronaldo também é alvo do time americano do ex-atacante do Brasil e do Inter de Milão

Ronaldo é coproprietário do time da segunda divisão dos Estados Unidos, Fort Lauderdale Strikers

“Eu pagaria do meu próprio bolso para contratar o Messi”, Ronaldo teria dito no Marca. “Este clube será ótimo. Por que não o Messi, o Cristiano Ronaldo, por que não? Em alguns anos vamos poder alcançar isso. Nada é impossível.”

Ronaldo acredita que a popularidade do futebol continuará a crescer nos Estados Unidos e que o estilo de vida oferecido na América apela ao calibre de elite dos jogadores.

“Os EUA são o segundo país do mundo, depois da China, onde o futebol cresce”, disse Ronaldo. “Muitos jogadores famosos querem vir jogar no sul da Flórida pela qualidade de vida. Quem não gostaria de morar aqui?”

Resumo de referência escrito por humanos
O ex-atacante brasileiro Ronaldo é coproprietário do Fort Lauderdale Strikers. Ronaldo insiste que o clube terá como objetivo contratar os melhores jogadores do mundo. Ronaldo acredita que o estilo de vida nos Estados Unidos atrai os melhores jogadores.

Modelo 6B de feedback humano (transferência)
Ronaldo quer contratar Lionel Messi para o seu time americano, acredita que os EUA são o segundo maior país futebolístico do mundo e acredita que o estilo de vida oferecido na América atrai os melhores jogadores.

Modelo 6B supervisionado (transferência)
Ronaldo quer contratar Messi e Messi quer contratar Ronaldo. Eles poderiam jogar juntos no futuro.

Modelo 6B pré-treinado
Lionel Messi e Cristiano Ronaldo são considerados dois grandes rivais do futebol moderno, mas se o ex-atacante brasileiro Ronaldo conseguir o que quer, um dia poderão estar no mesmo time.

Modelo T5 11B (ajustado na CNN/DM)
Cristiano Ronaldo é coproprietário do Fort Lauderdale Strikers, da segunda divisão dos EUA. Ronaldo diz que “pagaria do próprio bolso” para contratar Lionel Messi. O ex-atacante brasileiro também quer contratar Cristiano Ronaldo.

Modelo 6B supervisionado (ajustado na CNN/DM)
Cristiano Ronaldo é coproprietário do Fort Lauderdale Strikers, da segunda divisão dos Estados Unidos. O ex-atacante brasileiro diz que pagaria do próprio bolso para contratar Lionel Messi. Ronaldo acredita que a popularidade do futebol continuará a crescer nos Estados Unidos.

Artigo da CNN/DM (dailymail)
Wayne Rooney fotografado abastecendo seu Range Rover de £ 100.000 após a derrota do Manchester United para o rival Chelsea na Premier League
Wayne Rooney ficou desanimado depois de ser flagrado abastecendo seu Overfinch Range Rover de £ 100.000, apenas alguns dias após a derrota de seu time para o Chelsea, apesar de ter 70 por cento de posse de bola.

Um gol solitário de Eden Hazard no primeiro tempo foi suficiente para o time de José Mourinho, que mostrou como “estacionar o ônibus” com uma excelente exibição defensiva, enquanto o Manchester United lutava para derrotá-los e criar oportunidades claras.

Rooney não parecia muito satisfeito com o fotógrafo enquanto fazia uma careta ao ver sua foto ser tirada.

Wayne Rooney não parece muito satisfeito depois de ser flagrado abastecendo seu Range Rover de £ 100.000.

O capitão da Inglaterra ficou desapontado com o resultado de sábado, mas achou que seu time merecia tirar algo do jogo.

Ele disse: “Em termos da forma como movimentamos os jogadores do Chelsea, fazendo-os trabalhar, foi excelente.

“Nos últimos meses tudo começou a dar certo e os jogadores entenderam o que o técnico quer. Isso está aparecendo nos desempenhos.

“Raramente vi um time chegar ao Stamford Bridge e dominar tanto. Só faltava o gol.”

O jogador de 29 anos parecia triste apenas alguns dias após a derrota de seu time para o Chelsea na Premier League

O capitão da Inglaterra foi visto aqui dirigindo seu Overfinch Range Rover de £ 100.000 para treinar em Carrington

Rooney desempenhou um papel mais importante contra o Chelsea, mas não conseguiu ajudar o seu time a reclamar pontos

Resumo de referência escrito por humanos
Wayne Rooney olhava para baixo enquanto abastecia seu Range Rover de £ 100.000. Rooney jogou no meio-campo durante a derrota do Manchester United para o Chelsea. O jogador de 29 anos ficou feliz com o desempenho do seu time, apesar da derrota.

Modelo 6B de feedback humano (transferência)
Wayne Rooney foi flagrado abastecendo seu Range Rover de £ 100.000 apenas alguns dias após a derrota de seu time para o Chelsea na Premier League. O capitão da Inglaterra parecia abatido.

Modelo 6B supervisionado (transferência)
Rooney foi visto dirigindo seu Range Rover de £ 100.000 para o treinamento em Carrington na manhã de segunda-feira.

Modelo 6B pré-treinado
Wayne Rooney foi flagrado abastecendo seu Range Rover de £ 100.000 após a derrota de seu time para o Chelsea.

Modelo T5 11B (ajustado na CNN/DM)
O Manchester United perdeu por 1 a 0 para o Chelsea no Stamford Bridge no sábado. Wayne Rooney foi flagrado abastecendo seu Range Rover de £ 100.000. O capitão da Inglaterra não parecia muito satisfeito com o fotógrafo.

Modelo 6B supervisionado (ajustado na CNN/DM)
Wayne Rooney foi flagrado abastecendo seu Range Rover de £ 100.000. O Manchester United perdeu por 1 a 0 para o Chelsea na Premier League no sábado. Rooney ficou desapontado com o resultado, mas achou que o seu time merecia algo do jogo.

Artigo da CNN/DM (dailymail)
O Manchester City deve dizer a Yaya Touré que ele é uma lenda no clube e quer que ele fique, diz o agente do meio-campista marfinense
Yaya Touré quer se encontrar com o Manchester City para decidir seu futuro, segundo seu polêmico agente.

Os dias de Toure no Etihad Stadium podem estar contados, com o City preparado para ouvir ofertas pelo jogador de 31 anos e o próprio jogador admitindo que está aberto a novos desafios.

Agora, o agente internacional da Costa do Marfim, Dimitri Seluk, revelou que quer conversar com o City sobre o caminho a seguir.

O meio-campista do Manchester City, Yaya Toure, deu a entender que está aberto a deixar o Manchester City neste verão.

Toure é desafiado por Mark Noble, do West Ham, durante a vitória do City por 2 a 0 no Etihad, na tarde de domingo.

O técnico do Inter de Milão, Roberto Mancini, quer se reunir com Toure na próxima temporada depois de treiná-lo no City

“Recebemos ofertas diferentes para Yaya, mas precisamos falar com o Manchester City”, disse Seluk.

“As pessoas pensam que ele vai ficar por causa do dinheiro, mas não nos importamos com dinheiro. Se o Manchester City não o quiser, não há problema.

“Quero que alguém diga que quer que Yaya fique no Manchester City. Yaya é uma lenda no clube. Todos os torcedores gostam dele, ele os ajudou a fazer história.”

Apesar das afirmações de Seluk, o fato de Toure ganhar mais de £ 1 milhão por mês no City ainda pode dificultar uma possível transferência para um clube como o Inter de Milão, na Itália.

Toure ainda tem dois anos de contrato atual, mas não conseguiu ter a mesma influência no time de Manuel Pellegrini nesta temporada.

Toure comemora com Sergio Aguero e Jesus Navas após o gol do argentino contra o West Ham

O técnico do Manchester City, Manuel Pellegrini, deve convencer Toure a continuar sua carreira no Etihad

Resumo de referência escrito por humanos
Yaya Toure foi relacionado com uma transferência para o Inter de Milão e o psg está interessado. O meio-campista do Manchester City tem lutado para manter a forma nesta temporada. O agente Dimitri Seluk disse que o clube deve fazer com que a estrela da Costa do Marfim se sinta desejada. Seluk disse que Toure é uma lenda do clube e que o dinheiro não é sua motivação.

Modelo 6B de feedback humano (transferência)
O agente do internacional marfinense Yaya Touré, Dimitri Seluk, diz que quer se encontrar com o Manchester City para discutir seu futuro. Toure ganha £ 1 milhão por mês no clube.

Modelo 6B supervisionado (transferência)
O agente de Yaya Toure, Dimitri Seluk, quer se encontrar com o Manchester City para discutir seu futuro.

Modelo 6B pré-treinado
O agente de Yaya Touré revelou que o meio-campista quer se encontrar com o Manchester City para discutir seu futuro.

Modelo T5 11B (ajustado na CNN/DM)
Yaya Toure deu a entender que está aberto a deixar o Manchester City. O agente do jogador de 31 anos, Dimitri Seluk, revelou que quer se encontrar com o City para discutir seu futuro. Toure ganha mais de £ 1 milhão por mês no Etihad Stadium.

Modelo 6B supervisionado (ajustado na CNN/DM)
Yaya Toure deu a entender que está aberto a deixar o Manchester City. O meio-campista ainda tem mais dois anos de contrato atual com o Etihad. O agente de Toure, Dimitri Seluk, revelou que quer falar com o City. Seluk disse: “recebemos ofertas diferentes para Yaya, mas precisamos falar com o Manchester City”

Artigo da CNN/DM (cnn)
TEPCO abandona robô preso dentro da fábrica de Fukushima
O operador da usina nuclear danificada de Fukushima Daiichi desistiu de tentar recuperar uma sonda robótica depois que ela parou de se mover dentro de um dos reatores.

A Tokyo Electric Power Company (TEPCO) implantou o robô controlado remotamente na sexta-feira dentro de um dos reatores danificados que sofreram um colapso após um devastador terremoto e tsunami em 2011.

Foi a primeira vez que a sonda foi usada.

O robô, que tinha como objetivo coletar dados sobre os níveis de radiação e investigar a propagação de detritos, parou após se mover por cerca de 10 metros, segundo comunicado divulgado pela TEPCO.

Um relatório recém-divulgado e imagens do robô mostram que um objeto caído bloqueou seu caminho e o deixou encalhado.

A TEPCO decidiu cortar o cabo conectado ao aparelho no domingo, pois já havia percorrido dois terços do percurso originalmente planejado.

Conseguiu recolher dados sobre os níveis de radiação em 14 dos 18 locais visados.

Quatro anos após a devastadora crise nuclear, os níveis de radiação no interior dos três reatores danificados ainda são extremamente elevados e permanecem inseguros para a entrada de pessoas.

O trabalho de descomissionamento está estimado em US$ 50 bilhões e levará anos para ser concluído.

A TEPCO chamou a sonda robótica de um experimento “sem precedentes”.

Yoko Wakatsuki da CNN relatou de Tóquio, Japão e Naomi Ng escreveu de Hong Kong.

Resumo de referência escrito por humanos
A operadora da usina nuclear de Fukushima disse que abandonou uma sonda robótica dentro de um dos reatores danificados. Um relatório afirmou que um objeto caído deixou o robô preso. O robô coletou dados sobre os níveis de radiação e investigou a propagação de detritos.

Modelo 6B de feedback humano (transferência)
A sonda robótica da Tepco que explorava a usina nuclear de Fukushima Daiichi parou de funcionar depois de ser bloqueada por um objeto caído. Conseguiu recolher dados sobre os níveis de radiação em 14 dos 18 locais visados.

Modelo 6B supervisionado (transferência)
A sonda robótica da Tepco parou de se mover dentro de um reator danificado, interrompendo sua capacidade de coleta de dados.

Modelo 6B pré-treinado
O operador da usina nuclear danificada de Fukushima Daiichi desistiu de tentar recuperar uma sonda robótica depois que ela parou de se mover dentro de um dos reatores.

Modelo T5 11B (ajustado na CNN/DM)
A Tokyo Electric Power Company implantou o robô controlado remotamente na sexta-feira dentro de um dos reatores danificados. O robô parou após se mover a cerca de 10 metros, segundo comunicado divulgado pela TEPCO. Conseguiu recolher dados sobre os níveis de radiação em 14 dos 18 locais visados.

Modelo 6B supervisionado (ajustado na CNN/DM)
O robô foi implantado na sexta-feira para coletar dados sobre os níveis de radiação. Foi a primeira vez que a sonda foi usada. Ele parou depois de se mover a cerca de 10 metros.

Artigo da CNN/DM (dailymail)
Kenny Bayless será árbitro da luta entre Floyd Mayweather e Manny Pacquiao
O homem amplamente considerado o maior árbitro do mundo será o responsável pela luta mais rica de todos os tempos.

Kenny Bayless tem a honra de ser o terceiro homem no ringue com Floyd Mayweather e Manny Pacquiao no dia 2 de maio.

O árbitro Kenny Bayless (à esquerda) segura Floyd Mayweather durante sua luta contra Marcos Maidana

Bayless quebra a tensão entre Mayweather (à direita) e Maidana durante a luta em setembro de 2014

Manny Pacquiao conduz um treino após sua corrida matinal em Los Angeles na terça-feira

Pacquiao é assistido por um grupo de fãs que se reúnem para ver seu homem em ação antes da superluta.

Bob Arum, promotor de Pacquiao, diz: “Bayless é o melhor que existe.”

Bayless, veterano de inúmeras grandes lutas em Las Vegas, comemorará seu 65º aniversário dois dias depois de supervisionar a Luta do Século na MGM Grand Garden Arena.

A Comissão Atlética do Estado de Nevada, perfeitamente consciente de que a arbitragem deve ser da mais alta ordem, visto que a luta provavelmente atrairá um público muito além daqueles que costumam assistir ao boxe, colocou sabiamente sua confiança na grande presença física e na personalidade imperturbável de Bayless.

Resultados controversos recentes colocaram a Comissão sob pressão para trazer funcionários de fora de Nevada para as megalutas aqui e fizeram uma concessão com respeito a isso.

Glenn Feldman, um juiz muito respeitado de Connecticut, estará entre os três sábios marcando uma luta que a maioria espera durar 12 assaltos.

Os outros dois juízes são Dave Moretti, residente em Las Vegas, e Burt Clements, de Reno.

Foi considerada seriamente a inclusão de um juiz estrangeiro e John Keane, um oficial estrela A do British Boxing Board de Wellingingborough, Northampton, foi considerado o favorito.

Bayless já arbitrou superlutas anteriores envolvendo Mayweather e Pacqiao. Recentemente, ele comandou a difícil batalha física de Mayweather contra Marcos Maidana e o nocaute espetacular de Pacquiao contra Juan Manuel Márquez.

Ele receberá US$ 25.000 (£ 16.600) pelo trabalho noturno em maio, enquanto os juízes receberão cada um US$ 20.000 (£ 13.300). Ainda é uma ninharia em comparação com os 180 milhões e 120 milhões de dólares, que são os respectivos mínimos esperados por Mayweather e Pacquiao, mas os funcionários estão recebendo um pouco mais do que o esperado.

Pacquiao continua fazendo seus abdominais e treinos no parque de Los Angeles antes de seu confronto com Mayweather

O primeiro e único campeão das oito divisões Pacquiao enfrentará o invicto Mayweather em Las Vegas

Bayless segura Pacquiao (à esquerda) enquanto ele fica sobre Ricky Hatton durante a luta em 2009

Pacquiao (à esquerda) fica sobre um Hatton derrubado enquanto Bayless começa sua contagem durante a luta em 2009

Resumo de referência escrito por humanos
O veterano Kenny Bayless foi nomeado o terceiro homem no ringue para a tão aguardada luta entre Floyd Mayweather e Manny Pacquiao. Bayless já supervisionou inúmeras lutas de alto nível em Las Vegas, incluindo várias de Mayweather e Pacquiao. Ele comemorará seu 65º aniversário no dia 4 de maio, dois dias após a Luta.

Modelo 6B de feedback humano (transferência)
Kenny Bayless será o terceiro homem no ringue com Floyd Mayweather e Manny Pacquiao no dia 2 de maio. Bayless é amplamente considerado o melhor árbitro do mundo.

Modelo 6B supervisionado (transferência)
Bayless é o melhor que existe. Bayless tem 65 anos. Bayless é o melhor que existe. Bayless tem 65 anos. Bayless é o melhor que existe. Bayless tem 65 anos. Bayless é o melhor que existe. Bay

Modelo 6B pré-treinado
O homem amplamente considerado o maior árbitro do mundo será o responsável pela luta mais rica de todos os tempos.

Modelo T5 11B (ajustado no CNN/DM)
Floyd Mayweather e Manny Pacquiao lutarão em Las Vegas no dia 2 de maio. O árbitro Kenny Bayless será o responsável pela superluta. Bayless já arbitrou superlutas anteriores envolvendo Mayweather e Pacquiao.

Modelo 6B supervisionado (ajustado no CNN/DM)
Kenny Bayless será o árbitro de Floyd Mayweather e Manny Pacquiao. O homem de 65 anos estará no ringue com os dois boxeadores no dia 2 de maio. Bayless já arbitrou lutas anteriores de Mayweather e Pacquiao.

Artigo da CNN/DM (dailymail)
Avanço no câncer de próstata cientistas britânicos descobrem POR QUE a doença se espalha
Cientistas descobriram um calcanhar de Aquiles no câncer de próstata (foto) que poderia levar a um melhor tratamento para muitos homens diagnosticados com a doença

Cientistas britânicos descobriram um “calcanhar de Aquiles” no câncer de próstata que poderia levar a melhores tratamentos.

A doença ceifa quase 11.000 vidas por ano no Reino Unido, com a maioria das mortes ocorrendo depois que ela se espalha pelo corpo.

O estudo mais recente chega à raiz dessa propagação e pode significar melhores resultados para os 42 mil homens diagnosticados anualmente com a doença.

Cientistas financiados pela Cancer Research UK estudaram amostras retiradas de tumores na próstata e em todo o corpo em dez homens afetados.

A leitura do DNA revelou detalhes de como o câncer metastatiza ou se espalha, permitindo-lhes construir uma “árvore genealógica” de como a doença muda ao longo do tempo.

Parece que a maioria das células de um tumor permanece onde está. No entanto, um pequeno número tem a capacidade de viajar pelo corpo, criando novos tumores à medida que avança.

Essas células são a “raiz” do câncer e, para que o tratamento funcione, devem ser destruídas.

No futuro, os médicos poderão encontrar essas células-chave em pacientes individuais.

Eles poderiam então receber medicamentos para eliminá-las, com o tratamento de cada paciente adaptado à falha genética que está na origem do câncer.

Isso deve matar os novos tumores e impedir a formação de outros, aumentando muito as chances de sobrevivência.

O pesquisador da Universidade de Cambridge, Professor David Neal, disse que já existem alguns medicamentos adequados e que novos estão sendo desenvolvidos o tempo todo.

No entanto, ele advertiu que serão necessários de três a cinco anos até que os conhecimentos mais recentes possam ser utilizados rotineiramente no NHS.

O principal autor do estudo, Professor Ros Eeles, do Instituto de Pesquisa do Câncer de Londres, disse: “Ganhamos uma visão muito mais ampla do câncer de próstata ao estudar tanto o câncer original quanto as células que se espalharam para outras partes do corpo.

“Descobrimos que todas as células que se libertaram compartilhavam uma célula ancestral comum na próstata.

“As falhas comuns que encontramos em cada homem poderiam oferecer novos alvos para tratamento.”

O coautor Dr. Ultan McDermott, do Wellcome Trust Sanger Institute em Cambridgeshire, descreveu a descoberta como um “potencial calcanhar de Aquiles”.

O professor Peter Johnson, clínico-chefe da Cancer Research UK, disse: “Esta pesquisa nos permite examinar diretamente o núcleo molecular do câncer.”

Amostras foram coletadas de tumores na próstata e ao redor do corpo em dez homens com a doença (foto). A leitura do DNA revelou detalhes de como o câncer metastatiza – ou se espalha – permitindo aos cientistas entender como a doença muda ao longo do tempo.

Resumo de referência escrito por humanos
Cientistas britânicos dizem que chegaram à “raiz” do câncer de próstata. Expuseram um calcanhar de Aquiles que pode levar a melhores chances de sobrevivência. Poderia significar que os homens receberão tratamentos individualizados dentro de alguns anos.

Modelo 6B de feedback humano (transferência)
Os cientistas descobriram uma falha genética no câncer de próstata que pode levar a um melhor tratamento no futuro. Isso poderia significar melhores chances de sobrevivência para muitos homens diagnosticados com a doença.

Modelo 6B supervisionado (transferência)
O câncer de próstata se espalha viajando pelo corpo, e a raiz do câncer é um pequeno número de células que podem viajar.

Modelo 6B pré-treinado
Os cientistas descobriram um calcanhar de Aquiles no câncer de próstata que pode levar a um melhor tratamento para muitos homens diagnosticados com a doença.

Modelo T5 11B (ajustado no CNN/DM)
O câncer de próstata ceifa quase 11.000 vidas por ano no Reino Unido. A maioria das mortes ocorre depois que a doença se espalha pelo corpo. Os cientistas estudaram amostras retiradas de tumores na próstata e em todo o corpo de dez homens afetados. A leitura do DNA revelou detalhes de como o câncer metastatiza ou se espalha, permitindo-lhes construir uma “árvore genealógica” de como a doença muda ao longo do tempo.

Modelo 6B supervisionado (ajustado no CNN/DM)
Cientistas financiados pela Cancer Research UK estudaram amostras retiradas de tumores na próstata e em todo o corpo em dez homens afetados. A leitura do DNA revelou detalhes de como o câncer metastatiza – ou se espalha – permitindo aos cientistas entender como a doença muda ao longo do tempo. Parece que a maioria das células de um tumor permanece onde está. No entanto, um pequeno número tem a capacidade de viajar pelo corpo, criando novos tumores à medida que avançam. Essas células são a “raiz” do câncer e, para que um tratamento funcione, devem ser destruídas.

Artigo da CNN/DM (dailymail)
Motorista multado em £ 50 por Torbay por não exibir disco fiscal após mudança na lei
Um motorista ficou chocado ao receber uma multa de £ 50 por não exibir seu documento fiscal, apesar de isso não ter se tornado uma exigência legal seis meses antes.

Phil Haste, 60 anos, também foi informado de que não havia mostrado um bilhete de pagamento e exibição em seu carro, embora tivesse uma autorização de estacionamento válida no painel.

O empresário recusa-se agora a pagar a multa aplicada num estacionamento municipal de Torbay.

Vá para baixo para ver o vídeo

“Diabólico”: Phil Haste (à esquerda) disse que não conseguia entender por que recebeu um aviso de multa, já que ele claramente tinha uma autorização de estacionamento válida em seu carro e não exigia mais que seu disco fiscal fosse mostrado

O Sr. Haste enviou seu apelo ao conselho no sábado, depois de receber a multa no mês passado e disse que foi uma decisão “diabólica” multá-lo.

O governo aboliu os discos fiscais de papel em 1º de outubro do ano passado, o que significa que eles não precisam mais ser exibidos no para-brisa de um veículo.

O Sr. Haste, que vive em Torquay, disse: “Prefiro ir a tribunal do que pagar a multa. Emitir bilhetes dessa estirpe mostra que eles não têm a menor ideia do que estão falando.
“É diabólico. O conselho emprega essas pessoas para fazer um trabalho para elas e isso claramente não está sendo apresentado de forma clara.

“Eles estão obviamente tentando pegar dinheiro onde podem. Não entendo por que recebi esta multa.

“Não tenho a menor ideia”: O homem de 60 anos também foi informado de que não havia mostrado um bilhete de pagamento e exibição em seu carro, embora tivesse uma autorização de estacionamento válida no painel (foto)

O homem de 60 anos, dono da Quayside Marine, dos corretores de iates, acrescentou: “Não preciso de um disco fiscal, então não sei por que eles emitiram isso.

“Tenho uma licença de estacionamento que estava claramente exposta no painel do meu carro, então simplesmente não consigo entender.”

O Conselho de Torbay disse que não era sua política emitir multas por infrações fiscais rodoviárias e instou o Sr. Haste a recorrer.

Um porta-voz disse: “Não emitimos avisos de multa de estacionamento com relação ao imposto rodoviário e o Sr. Haste terá sido informado sobre como recorrer a esta multa, conforme indicado no verso do aviso de multa.”

Resumo de referência escrito por humanos
Phil Haste, 60 anos, recebeu multa de £ 50 por não mostrar o disco fiscal em seu carro. Isso apesar de não ter se tornado uma exigência legal seis meses antes. Ele também foi informado de que não havia apresentado um bilhete de pagamento e exibição em seu carro. Mas ele tem uma licença de estacionamento válida, então a decisão foi “diabólica”

Modelo 6B de feedback humano (transferência)
Um empresário de 60 anos recebeu uma multa de £ 50 por não exibir o disco fiscal, apesar de não ser mais uma exigência legal seis meses antes. Ele se recusa a pagar a multa.

Modelo 6B supervisionado (transferência)
Phil Haste recebeu uma multa de £ 50 por não exibir seu disco fiscal, apesar de não ser mais uma exigência legal.

Modelo 6B pré-treinado
Phil Haste ficou chocado ao receber uma multa de £ 50 por não exibir seu disco fiscal, apesar de não ter se tornado uma exigência legal seis meses antes.

Modelo T5 11B (ajustado no CNN/DM)
Phil Haste, 60, recebeu uma notificação de penalidade no estacionamento do Conselho de Torbay. Ele também foi informado de que não havia apresentado um bilhete de pagamento e exibição em seu carro. Mas o Sr. Haste tem uma autorização de estacionamento válida no painel. O governo aboliu os discos fiscais de papel em 1º de outubro do ano passado. Haste disse que foi uma decisão “diabólica” aplicar-lhe uma multa.

Modelo 6B supervisionado (ajustado no CNN/DM)
Phil Haste, 60 anos, também foi informado de que não havia apresentado um bilhete de pagamento e exibição. Ele tem uma autorização de estacionamento válida no painel e não precisa mais do disco fiscal. Haste, de Torquay, disse que não conseguia entender por que recebeu uma notificação de penalidade.

Artigo da CNN/DM (dailymail)
Maickel Melamed termina a Maratona de Boston após 20 horas
Chuva, vento e um frio arrepiante confrontaram todos os corredores da Maratona de Boston na segunda-feira.

Mas depois de 20 horas cansativas no percurso, Maickel Melamed superou outro obstáculo – uma forma rara de distrofia muscular que torna difícil para ele simplesmente andar ou se mover – para finalmente cruzar a linha de chegada.

Melamed, 39 anos, pode ter ficado em último lugar na corrida de 42 quilômetros, mas sua história tocou uma cidade agora famosa por sua vontade férrea após os atentados à bomba na Maratona de Boston em 2013.

Vá para baixo para ver o vídeo

Maickel Melamed, 39, cruzou a linha de chegada da Maratona de Boston após 20 horas cansativas na chuva e no frio

Melamed tem uma forma rara de distrofia muscular que torna difícil simplesmente se mover ou andar, mas ele não deixou que isso o impedisse de terminar sua quinta maratona às 5h da manhã de terça-feira

“Depois de 20 horas de chuva, vento e frio, Boston ainda está forte”, disse o atleta venezuelano na terça-feira ao ser homenageado na Prefeitura.

“A cidade inteira tem sido muito prestativa e amorosa. A mensagem aqui é que o amor é muito mais forte que a morte. Foi uma honra correr pelas ruas desta cidade.”

Melamed participou da corrida com a Vamos, uma equipe voluntária de Caracas, além de seus preparadores físicos e dezenas de amigos e apoiadores que estiveram presentes para vê-lo terminar a corrida às 5h da manhã de terça-feira.

O atleta, que completou outras quatro maratonas, disse que a pista acidentada de Boston se tornou especialmente difícil por volta do quilômetro 24, mas seus preparadores físicos encontraram uma maneira de mantê-lo em movimento.

“Eu descansava 10 segundos e depois dava de quatro a seis passos”, disse Melamed. “Foi uma maneira realmente emocionante de terminar.”

Quando Melamed precisava descansar, caindo nos braços de seu grupo, eles o empurravam de volta e contavam cada passo seu, de acordo com a CBS Boston.

O atleta, que completou outras quatro maratonas, disse que a pista montanhosa de Boston se tornou especialmente difícil por volta do quilômetro 24, mas seus preparadores físicos encontraram uma maneira de mantê-lo em movimento.

O prefeito de Boston, Marty Walsh, entregou uma medalha a Melamed e chamou sua história de “verdadeiramente inspiradora”.

E à medida que o atleta inspirador se aproximava cada vez mais da linha de chegada, seus apoiadores o aplaudiam e gritavam ‘Si se puede, si se puede!’, que em espanhol significa ‘sim, é possível!’

Foi o desejo de Melamed de provar aos outros que eles poderiam realizar seus sonhos que o fez continuar.

“Você tem que saber por que está fazendo isso, porque na última milha, a maratona vai perguntar se você tem um motivo, e se você não tiver, você desistirá”, disse ele ao MassLive.com.

“Eleve o nível de suas próprias expectativas. O poder humano é infinito.”

Houve uma razão especial pela qual Melamed, que completou corridas em Chicago, Nova Iorque, Berlim e Tóquio, decidiu que Boston seria o local da sua última maratona.

Foi no Hospital Infantil de Boston que Melamed, que tinha uma expectativa de apenas sete dias de vida quando nasceu, foi submetido a uma operação que salvou sua vida.

Agora o atleta, que também já praticou paraquedismo, parapente e escalou a montanha mais alta da Venezuela, deve aposentar os tênis de corrida por causa dos desgastes físicos das corridas.

Mas sua história, que o prefeito de Boston, Marty Walsh, chamou de “verdadeiramente inspiradora”, continuará avançando.

Resumo de referência escrito por humanos
Maickel Melamed, 39, terminou a corrida às 5h da manhã de terça-feira. Apoiaram e torceram pelo atleta atleta venezuelano dezenas de amigos, além de seus preparadores físicos e equipe de voluntários. A condição de Melamed torna difícil simplesmente andar ou se movimentar, mas esta semana ele completou sua quinta maratona. Ele escolheu Boston para ser sua última maratona porque recebeu um procedimento que salvou sua vida na cidade quando era criança.

Modelo 6B de feedback humano (transferência)
Venezuelano de 39 anos com distrofia muscular terminou a Maratona de Boston após 20 horas de chuva e frio. O prefeito Marty Walsh chamou sua história de “verdadeiramente inspiradora”

Modelo 6B supervisionado (transferência)
O atleta venezuelano Maickel Melamed superou uma forma rara de distrofia muscular para terminar a Maratona de Boston.

Modelo 6B pré-treinado
Maickel Melamed, 39 anos, cruzou a linha de chegada da Maratona de Boston após 20 horas cansativas sob chuva e frio.

Modelo T5 11B (ajustado no CNN/DM)
Maickel Melamed, 39 anos, tem uma forma rara de distrofia muscular que torna difícil simplesmente andar ou se mover. Melamed participou da corrida com a Vamos, uma equipe voluntária de Caracas, além de seus preparadores físicos e dezenas de amigos e apoiadores. Ele terminou a corrida de 26,2 milhas às 5h da manhã de terça-feira. “depois de 20 horas de chuva, vento e frio, Boston continua forte”, disse o atleta venezuelano ao ser homenageado na Prefeitura.

Modelo 6B supervisionado (ajustado no CNN/DM)
Maickel Melamed, 39 anos, tem uma forma rara de distrofia muscular que torna difícil simplesmente se movimentar ou andar. Mas ele não deixou que isso o impedisse de terminar sua quinta maratona às 5h da manhã de terça-feira. Melamed participou da corrida com a Vamos, uma equipe voluntária de Caracas, além de seus preparadores físicos e dezenas de amigos e apoiadores que estiveram presentes para vê-lo terminar a corrida às 5h da manhã de terça-feira.

Artigo da CNN/DM (dailymail)
A mãe das primeiras quíntuplas só de meninas do país, Danielle Busby, sobre o momento em que segurou o primeiro bebê
O primeiro conjunto de quíntuplas só de meninas do país está “indo fabulosamente bem”, de acordo com a mãe.

Danielle Busby parecia cansada, mas em êxtase, ao aparecer no Today para uma entrevista apenas uma semana após o parto.

Olivia Marie, Ava Lane, Hazel Grace, Parker Kate e Riley Paige ainda estão em uma incubadora no Hospital da Mulher do Texas, em Houston.

Mas elas estão ficando mais fortes a cada dia.

“Elas estão indo fabulosamente bem. São tão preciosas e estão indo muito, muito bem”, disse Danielle enquanto sorria segurando a mão de seu marido Adam.

Vá para baixo para ver o vídeo

Em êxtase: Danielle e Adam Busby disseram que ainda estão em choque, mas encantados uma semana após o nascimento

“Foi uma chuva emocional”: Danielle descreveu segurar o primeiro de seus cinco bebês, todos meninas

Uma jornada pela frente: Adam admitiu que foi “assustador” trocar os bebês “porque elas são tão pequenas”

Meia dúzia de meninas: Junto com sua filha mais velha, Blayke (foto), eles agora têm seis meninas

Nascidas em apenas quatro minutos por cesariana, é a primeira vez que o mundo vê quíntuplas só de meninas desde 1969.

Como as meninas ainda estão ganhando força, ela só conseguiu segurar duas delas até agora.

Mas a experiência foi fenomenal.

“Foi uma chuva emocional”, disse ela. “Mas aquele sentimento de quando você finalmente consegue segurar seu bebê, não há sentimento melhor do que esse.”

Adam admitiu que a logística de cuidar dos cinco bebês, bem como de sua filha mais velha, Blayke, ainda é um mistério.

“Ainda estou me acostumando a trocá-las em uma incubadora”, explicou ele. “É muito assustador só porque elas são tão pequenas.”

Ao lado deles estavam os médicos, que revelaram que as meninas estão se preparando para a primeira amamentação, o que será um marco importante.

E quanto à mãe, ela está se sentindo bem.

“Surpreendentemente, me sinto muito bem!”, ela riu. “É um pouco chocante!”

Falando logo após o nascimento na semana passada, Danielle disse à KHOU.”Estamos muito agradecidos e somos muito abençoados. E sinceramente dou todo o crédito ao meu Deus.

“Estou muito grata por este hospital maravilhoso e pela equipe de pessoas aqui, elas são realmente incríveis.”

O Dr. Alexander Reiter, que deu à luz os bebês com 28 semanas e dois dias, disse que o prognóstico é bom.

“Danielle é um soldado e sua atitude positiva definitivamente brilhou durante a gravidez e o parto”, disse o Dr. Reiter à KHOU.

Orgulho: Danielle e Adam Busby com uma de suas cinco novas filhas no Hospital da Mulher do Texas, em Houston, depois que Danielle deu à luz suas quíntuplas por cesariana em 7 de abril.

Bem-vindas ao mundo: Os bebês Riley Paige e Parker Kate (à direita) em suas incubadoras na UTIN no Hospital da Mulher do Texas, em Houston.

Picorrucha: Hazel Grace é a menor das cinco meninas nascidas e foi esmagada por suas irmãs dentro do ventre de sua mãe durante a gravidez de 28 semanas.

Irmãs: Ava Lane (esquerda) e Olivia Marie (direita) dormindo pacificamente após o parto cesáreo em 7 de abril.

Mamãe e papai: Adam e Danielle cuidam de uma de suas novas filhas. Todas as cinco meninas estão bem e só precisam de ajuda mínima para respirar depois de nascerem aos 7 meses na semana passada.

O Dr. Reiter disse à KHOU que deu à luz as meninas com uma equipe de uma dúzia de outros profissionais médicos, incluindo sete neonatologistas certificados.

Até agora, as quíntuplas estão indo bem e recebendo apenas “apoio modesto” para respirar.

“Todos estavam na faixa de peso adequada para sua idade gestacional, o que se deve aos excelentes esforços de sua mãe para ter uma gravidez mais saudável possível”, disse o Dr. Finkowski-Rivera à KHOU.

“Elas tiveram um início de vida forte e estamos entusiasmados em vê-las crescer e amadurecer.”

Nascidas de fertilização in vitro, os Busbys acreditam que suas novas quíntuplas e sua filha Blayke, de três anos, são seus milagres.

Família em expansão: Adam e Danielle já têm uma filha de três anos, Blayke (foto), que acolheram no mundo através da terapia de fertilização in vitro depois de pensarem que talvez não pudessem ter filhos

“Nunca teríamos imaginado o plano que Deus tinha para nós em nossa jornada para aumentar nossa pequena família.”

Falando em um vídeo postado em seu blog no domingo, os novos pais disseram que ficaram “sobrecarregados e extremamente ocupados” após o nascimento das filhas.

“Riley Paige é a agressiva, sempre chutando, sempre socando e ela é tipicamente assim”, disse Danielle.

“Parker, que estava na minha parte superior do lado direito, está tão relaxada. Ela está contente e calma.

“Hazel, é a picorrucha. Ela era esmagada o tempo todo, então ela adora ficar com os braços perto do rosto, que fofura. Ela tem uma cabeça cheia de cabelos loiros.

“As gêmeas, Olivia Marie e Ava Lane, estão ficando um pouco festivas e têm uma veia selvagem.”

“Elas estão todas indo muito bem.”

Pronta para estourar: Danielle deu à luz dois dias depois da foto (à esquerda) e (à direita) está se preparando para sua cesariana pré-combinada com seu marido Adam

Conheça sua nova irmã: Blayke é apresentada a uma de suas cinco novas irmãs pela mãe Danielle no hospital no fim de semana

Pai radiante, Adam disse que o principal para ele e a equipe médica era ficar de olho em suas filhas nas próximas semanas.

“Vamos precisar monitorá-las”, disse Adam no blog Itsabuzzworld, que ele e Danielle usaram para documentar a gravidez.

Quando a irmã mais velha Blayke conheceu seus novos irmãos, os Busby disseram que seus corações pareciam explodir.

“Foi tão fofo, ela estava com a camiseta da ‘Irmã Mais Velha’”, disse Danielle.

“Nós a preparamos para ver todos os tubos na UTIN, mas ela foi ótima.”

“Ela se saiu muito bem e apenas sorriu. Ela realmente não falou muito, mas apenas sorriu.

Esconde-esconde: Olhando para uma das incubadoras da UTIN, Blayke encara sua nova irmã Riley no Hospital da Mulher do Texas.

Olhando para o futuro, os Busby admitiram que o futuro será divertido, mas difícil.

“Esta semana será uma transição interessante”, disse Adam.

‘Temos muitas mudanças chegando nos próximos dias… tentando descobrir qual será nossa nova norma.”

Para ajudar nos desafios que têm pela frente, os Busby criaram uma página gofundme.

“Um grande item que teremos que procurar nas próximas semanas é uma van”, escrevem Adam e Danielle.

“Não temos um veículo grande o suficiente para trazê-las para casa. Estamos analisando nossas opções, mas a van de passageiros Nissan NV e a perua Ford Transit estão no topo da lista até agora.”

Resumo de referência escrito por humanos
Danielle e Adam Busby receberam cinco meninas no mundo na semana passada. Ela segurou apenas duas, mas descreveu a sensação como “incrível”. Nascidos no Hospital da Mulher do Texas, em Houston, os bebês são saudáveis. São o primeiro grupo de quíntuplas só de meninas nascidas nos EUA e as primeiras no mundo desde 1969. Uma equipe de 12 médicos ajudou no parto dos bebês por cesariana. O parto ocorreu às 28 semanas e a equipe demorou menos de quatro minutos.

Modelo 6B de feedback humano (transferência)
O mundo nunca viu quíntuplas só de meninas antes, e a família Busby está muito bem uma semana após o nascimento. As meninas estão ficando mais fortes a cada dia.

Modelo 6B supervisionado (transferência)
As primeiras quíntuplas só de meninas do mundo estão bem e devem receber alta do hospital em algumas semanas.

Modelo 6B pré-treinado
Danielle Busby deu à luz cinco quíntuplas só de meninas com 28 semanas e dois dias por meio de cesariana. As meninas estão agora na UTIN e passam bem.

Modelo T5 11B (ajustado no CNN/DM)
Olivia Marie, Ava Lane, Hazel Grace, Parker Kate e Riley Paige ainda estão numa incubadora no Hospital da Mulher do Texas, em Houston. Dadas à luz em apenas quatro minutos por cesariana, é a primeira vez que o mundo vê quíntuplas só de meninas desde 1969. Danielle e Adam Busby disseram que ainda estão em choque, mas encantados uma semana após o nascimento.

Modelo 6B supervisionado (ajustado no CNN/DM)
Danielle Busby deu à luz suas quíntuplas em 7 de abril. São as primeiras quíntuplas só de meninas nascidas nos Estados Unidos desde 1969. As meninas estão em uma incubadora no Hospital da Mulher do Texas, em Houston. Estão ficando mais fortes a cada dia e se preparando para a primeira mamada com leite materno.

Artigo da CNN/DM (dailymail)
Alex Hales espera por uma “chance adequada” no críquete internacional de um dia com a Inglaterra
Alex Hales afirma que ainda está esperando por uma “chance adequada” no críquete internacional de um dia (ODI).

O rebatedor de primeira linha tem nove partidas pela Inglaterra até o momento, desde sua estreia contra a Índia em agosto passado.

Mas depois de estrear ao lado de Alastair Cook quatro vezes naquela derrota na série, Hales disputou apenas cinco das 18 partidas subsequentes da Inglaterra — incluindo na Copa do Mundo — e bateu, em vez disso, no terceiro lugar em três ocasiões.

Alex Hales espera uma “chance adequada” no críquete internacional de um dia com a Inglaterra.

O jogador de 26 anos espera por mais continuidade quando a Inglaterra retomar sua programação da ODI neste verão.

Questionado se ele acha que teve pouco disso até agora, ele disse ao The Guardian: “Honestamente, sim, acho.

“Acho que ainda não tive uma chance adequada disso.

“Joguei no final do verão passado contra a Índia, me saí bem sem incendiar o mundo, e desde então, tem sido um jogo estranho, entrar e sair novamente.”

Hales foi seu próprio crítico, depois de fazer 40 pontos encorajadores na estreia em Cardiff.

Desde a série contra a Índia em agosto passado, Hales jogou apenas cinco das 18 partidas subsequentes da Inglaterra.

Ele admitiu naquela época, antes de sua segunda entrada, que os seamers da Índia limitaram seu strokeplay, alegando: “Eles eram muito espertos. Quando passei dos 30, eles estavam um passo à minha frente.

“Portanto, cabe a mim corrigir isso e ter esperteza de jogo.”

No entanto, ele contesta a teoria de que ele já foi “desvendado” ao nível da ODI.

Ele acrescentou: “Eu li a imprensa e vi coisas sobre ‘trazer a bola de volta’ e que havia sido desvendado — fui derrubado uma vez por Bhuvneshwar Kumar com uma inswinger.

“Isso não é ser desvendado; é uma boa entrega.”

O grande rebatedor do Nottinghamshire, Hales, foi eliminado no domingo passado, enquanto seu condado lutava para empatar contra o Middlesex.

Moeen Ali foi o preferido no topo da ordem, ao lado de Cook na derrota na série no Sri Lanka e depois com Ian Bell na Copa do Mundo.

“Receber a notícia no início daquela turnê no Sri Lanka de que eu não conseguiria a primeira chance abalou um pouco minha confiança”, disse Hales.

“Talvez eu tenha deixado isso me afetar de forma negativa.

“Ainda estou aprendendo meu jogo, mas definitivamente não diria que fui ‘desvendado’.”

Resumo de referência escrito por humanos
Alex Hales soma nove partidas pela Inglaterra desde sua estreia contra a Índia em agosto passado. O batedor de grande sucesso espera uma “chance adequada” com seu país. Hales jogou apenas cinco das últimas 18 partidas desde a derrota na série da Índia.

Modelo 6B de feedback humano (transferência)
Alex Hales diz que ainda não teve uma chance adequada no críquete internacional de um dia, apesar de ter nove partidas pela Inglaterra. Ele discorda da teoria de que já foi desvendado.

Modelo 6B supervisionado (transferência)
Hales espera mais continuidade na seleção inglesa do ODI, depois de ter sido retirado do topo da ordem.

Modelo 6B pré-treinado
Alex Hales ficou frustrado com a falta de oportunidades no críquete internacional de um dia.

Modelo T5 11B (ajustado no CNN/DM)
Alex Hales soma nove partidas pela Inglaterra até o momento, desde sua estreia em agosto passado. Hales jogou apenas cinco das 18 partidas subsequentes da Inglaterra. O jogador de 26 anos espera mais continuidade quando a Inglaterra retomar a programação do ODI neste verão.

Modelo 6B supervisionado (ajustado no CNN/DM)
Alex Hales jogou apenas cinco das 18 partidas subsequentes da Inglaterra. O jogador de 26 anos jogou no terceiro lugar em três ocasiões. Hales foi seu próprio crítico depois de fazer 40 pontos encorajadores na estreia em Cardiff.

Artigo da CNN/DM (dailymail)
Roberto Martinez defende Ross Barkley após outro fiasco de pênalti no Goodison Park
O técnico do Everton, Roberto Martinez, foi forçado a defender outro fiasco de pênalti no clube, depois que Ross Barkley errou o alvo na vitória por 1 a 0 sobre o Burnley no Goodison Park.

O inexperiente Barkley inexplicavelmente cobrou o chute aos 10 minutos – concedido por uma falta de David Jones sobre Aaron Lennon – em vez de Leighton Baines, que marcou 15 pênaltis em 16 tentativas na Premier League.

Embora desta vez não tenha havido disputa entre os companheiros, isso trouxe de volta lembranças da partida do Everton contra o West Brom em janeiro, quando Kevin Mirallas pegou a bola de Baines para cobrar um pênalti, e errou.

Ross Barkley se aproxima para cobrar um pênalti aos 10 minutos, apesar da presença de Leighton Baines em campo.

O esforço de Barkley é defendido pelo goleiro do Burnley, Tom Heaton, no Goodison Park.

Martinez insistiu que Barkley estava no seu direito de solicitar a cobrança de pênalti no sábado.

“Se Romelu Lukaku estivesse em campo, ele teria aceitado. Fora isso, estou feliz por ter três ou quatro jogadores que podem marcar pênaltis e deixar que isso dependa de como eles se sentem naquele momento”, argumentou o técnico do Everton.

Baines (à esquerda) marcou 15 pênaltis em 16 tentativas na Premier League

“Ross mostrou uma responsabilidade incrível ao cobrar. Adoro ver os jogadores assumindo o controle dos grandes momentos e Leighton ficou feliz em lhe dar essa responsabilidade.”

O pênalti de Barkley foi bem acertado, mas não foi colocado no canto e o goleiro do Burnley, Tom Heaton, mergulhou para a direita para defender.

Felizmente para o jovem jogador inglês, não custou caro, já que Mirallas marcou o único gol do jogo aos 29 minutos.

O técnico do Everton, Roberto Martinez, dá instruções aos seus jogadores durante o intervalo do jogo contra o Burnley

Resumo de referência escrito por humanos
O Everton derrotou o Burnley por 1 a 0 no Goodison Park no sábado. Kevin Mirallas marcou o único gol do jogo aos 29 minutos. Ross Barkley já havia perdido um pênalti aos 10 minutos. Leighton Baines marcou 15 pênaltis em 16 tentativas nesta temporada.

Modelo 6B de feedback humano (transferência)
Ross Barkley perdeu um pênalti contra Burnley após solicitar a Leighton Baines que assumisse os deveres. Martinez defendeu a decisão do jovem jogador inglês.

Modelo 6B supervisionado (transferência)
Ross Barkley perdeu um pênalti em janeiro e agora perdeu outro. Martinez insiste que ele tem o direito de cobrar pênaltis e Barkley tem o direito de fazer isso.

Modelo 6B pré-treinado
Ross Barkley teve a chance de cobrar um pênalti no Goodison Park, mas errou. Roberto Martinez defendeu o jovem jogador inglês, dizendo que tem o direito de solicitar a responsabilidade.

Modelo T5 11B (ajustado no CNN/DM)
O Everton venceu o Burnley por 1 a 0 no Goodison Park no sábado. Ross Barkley errou o pênalti aos 10 minutos. Kevin Mirallas cobrou um pênalti de Leighton Baines em janeiro. Roberto Martinez insistiu que Barkley tinha o direito de cobrá-lo.

Modelo 6B supervisionado (ajustado no CNN/DM)
Ross Barkley errou o alvo na vitória do Everton por 1 a 0 sobre o Burnley. O inexperiente Barkley cobrou o pênalti aos 10 minutos em vez de Leighton Baines. Roberto Martinez defendeu a decisão de Barkley de cobrar o pênalti.

Artigo da CNN/DM (dailymail)
Willem-Alexander e sua esposa, Maxima, comemoram seu aniversário
Houve hoje cenas de júbilo na cidade holandesa de Dordrecht, quando os habitantes locais agitando bandeiras apareceram hoje para dar as boas-vindas ao rei Willem-Alexander e à sua glamorosa esposa Maxima.

A visita, que começou com um desfile a bordo de uma flotilha de barcos no canal local, fez parte das comemorações do 48º aniversário de Willem-Alexander.

Koningsdag — ou Dia do Rei — é um feriado na Holanda e é tradicionalmente marcado com uma procissão real na capital Amsterdã ou em uma das principais cidades do país.

Família feliz: A realeza holandesa celebrou o aniversário do rei Willem-Alexander em Dordrecht

Calorosas boas-vindas: O casal real holandês estava todo-sorrisos ao encontrar simpatizantes na cidade comercial

Hoje, foi a vez de Dordrecht, uma cidade no sudoeste do país, que já foi um importante porto comercial, bem como um centro militar.

Os sinais de seu passado marcial eram escassos hoje, no entanto, com as ruas cheias de um mar de humanidade alegre, a maioria da qual aplaudiu e acenou enquanto a realeza passava flutuando.

No centro do palco estava a rainha Máxima, nascida na Argentina, que optou por um conjunto tipicamente atraente de um casaco rosa-framboesa e um chapéu animado com um par de brincos grossos de cristal.

Também a bordo da barcaça real, a Dordtevaar, estavam as três filhas do casal: Catharina-Amalia, Princesa de Orange, 11 anos, Princesa Alexia, nove, e Princesa Ariane, oito.

O irmão de Willem-Alexander, o príncipe Constantijn, de 45 anos, também estava a bordo, assim como sua esposa, de 48 anos, a princesa Laurentien, que optou por um vestido feito sob medida em um patriótico laranja brilhante.

É isso? Filha mais velha, Princesa Catharina-Amalia, 11 anos, abraça a mãe durante o evento

Aplausos: A Rainha e as princesas se juntam com uma salva de palmas para Willem-Alexander

Grande chegada: O casal e suas três filhas viajaram pela cidade de barcaça

Caso de família: O casal foi acompanhado pelo Príncipe Constantijn e sua esposa Laurentien, que usava laranja brilhante.

Bonita: Maxima estava maravilhosa em seu traje de verão rosa-framboesa

Combinando: A rainha holandesa completou seu visual com um toque de batom rosa-brilhante e brincos grossos

Todo-sorrisos: A senhora de 43 anos parecia estar gostando da ocasião e sorriu abertamente

Ecoando seus pais e tio, as três meninas sorriram e acenaram para a multidão, a maioria da qual parecia estar aproveitando o Sol brilhante da primavera enquanto assistia à procissão passar.

Outros aproveitaram o dia de folga real para ganhar algum dinheiro extra, com uma alma empreendedora montando um estande que oferecia selfies com versões em papelão da realeza holandesa por 1 euro cada.

Koningsdag é uma tradição holandesa de longa data que começou em 1890 com a Rainha Guilhermina, que comemorou seu aniversário em 31 de agosto.

Quando sua filha Juliana se tornou rainha, a data foi transferida para 30 de abril, tradição mantida por sua filha Beatrix, embora seu verdadeiro aniversário seja em 31 de janeiro.

Desde abril de 2013, quando Willem-Alexander assumiu o trono após a abdicação de sua mãe, o feriado acontece em seu aniversário, 27 de abril.

As celebrações, que começam na noite anterior com as Festas do Rei, também incluem vrijmarkts – mercados de pulgas – na maioria das cidades e o consumo em massa de um delicioso doce de laranja chamado tompouce.

Uma selfie real certa! Um simpatizante tira uma selfie com o rei e a rainha holandeses

Aceno real: Rei Willem-Alexander acena para a multidão durante uma caminhada pela cidade com suas filhas

Aproveitando o Sol: Tanto a realeza quanto os foliões aproveitaram ao máximo o lindo Sol

Grande abraço: A Rainha Maxima abraça suas duas filhas mais novas, Princesas Ariane e Alexia

Discurso! O rei Willem-Alexander fala às multidões durante sua visita a Dordrecht

Empreendedorismo: Esta menina decidiu aumentar sua mesada vendendo selfies por € 1 cada

Na água: O desfile do canal foi repleto de simpatizantes vestidos de laranja em seus próprios barcos

Saída: O aniversário de Willem-Alexander é um feriado, o que significa que todos tiveram o dia de folga

Turba: Enormes multidões compareceram para ver a barcaça real passar

Patriotas: Bandeiras holandesas tremulavam por toda a cidade enquanto muitos foliões vinham vestidos com trajes patrióticos laranja

Resumo de referência escrito por humanos
O rei Willem-Alexander da Holanda está comemorando seu 48º aniversário. Participou de uma procissão aquática ao longo de um canal em Dordrecht. Foi acompanhado por sua glamorosa esposa, a Rainha Maxima, e suas filhas. A rainha de 43 anos estava resplandecente em um alegre traje framboesa. O Dia do Rei – ou koningsdag – é um feriado nacional na Holanda. As celebrações incluem “festas do rei” e comer muitos pastéis de tompouce.

Modelo 6B de feedback humano (transferência)
Multidões holandesas compareceram em grande número para dar as boas-vindas à família real holandesa durante sua visita a Dordrecht para comemorar o 48º aniversário do rei Willem-Alexander.

Modelo 6B supervisionado (transferência)
A realeza holandesa visita Dordrecht para comemorar o aniversário do rei Willem-Alexander. A realeza foi recebida por um mar de multidões entusiasmadas.

Modelo 6B pré-treinado
O rei Willem-Alexander e sua família estiveram hoje em Dordrecht para comemorar seu aniversário. O monarca holandês foi acompanhado por sua esposa Maxima e três filhas, todas vestindo Laranja brilhante.

Modelo T5 11B (ajustado no CNN/DM)
O rei Willem-Alexander comemorou hoje seu 48º aniversário em Dordrecht. Ele estava acompanhado de sua esposa Maxima e de suas três filhas. A flotilha de barcos foi seguida por uma multidão de simpatizantes agitando bandeiras.

Modelo 6B supervisionado (ajustado no CNN/DM)
O casal real holandês estava visitando Dordrecht, cidade no sudoeste do país. A cidade já foi um importante porto comercial, bem como um centro militar. O rei e a rainha holandeses juntaram-se às suas três filhas.

Para testar a generalização dos nossos modelos, também os aplicamos diretamente ao popular conjunto de dados de notícias da CNN/DM [ref. 2]. Esses artigos têm mais que o dobro do tamanho das postagens do Reddit e são escritos num estilo muito diferente. Nossos modelos viram artigos de notícias durante o pré-treinamento, mas todos os nossos dados humanos e ajuste fino de RL estavam no conjunto de dados Reddit TL;DR.

Desta vez, avaliamos nossos modelos pedindo aos nossos rotuladores que os classificassem numa escala de 1 a 7.⁶ Descobrimos que nossos modelos de feedback humano são transferidos para gerar excelentes resumos de artigos de notícias sem nenhum treinamento. Ao controlar o comprimento do resumo, nosso modelo de feedback humano 6,7B gera resumos com classificação superior aos resumos de referência da CNN/DM escritos por humanos. Isso sugere que nossos modelos de feedback humano aprenderam algo mais geral sobre como resumir textos e não são específicos a postagens no Reddit.

Abordagem

*Um diagrama do nosso método, parecido com o usado em nosso trabalho anterior.*

Nosso método central consiste em quatro etapas: treinar um modelo de sumarização inicial, montar um conjunto de dados de comparações humanas entre resumos, treinar um modelo de recompensa para prever o resumo preferido pelos humanos e, em seguida, fazer ajuste fino em nossos modelos de resumo com RL para obter uma recompensa alta.

Treinamos várias linhas de base supervisionadas, começando com modelos de transformadores ao estilo GPT treinados em textos da Internet, e aplicando ajuste fino neles para prever o TL;DR escrito por humanos por meio do aprendizado supervisionado. Usamos principalmente modelos com 1,3 e 6,7 bilhões de parâmetros. Para tirar a prova real, confirmamos que esse procedimento de treinamento levou a resultados competitivos⁷ no conjunto de dados da CNN/DM.

Em seguida, coletamos um conjunto de dados de julgamentos de qualidade humanas. Para cada julgamento, um humano compara dois resumos de uma determinada postagem e escolhe aquele que considera melhor.⁸ Usamos esses dados para treinar um modelo de recompensa que mapeia um par (postagem, resumo) para uma recompensa r. O modelo de recompensa é treinado para prever qual resumo um ser humano irá preferir, usando as recompensas como logits.

Finalmente, otimizamos a diretiva com relação ao modelo de recompensa usando RL. Utilizamos PPO com 1 milhão de episódios no total, sendo que cada episódio consiste em a diretiva resumir um único artigo e depois receber uma recompensa r. Incluímos uma penalidade KL que incentiva a diretiva a permanecer próxima da inicialização supervisionada.

Coletando dados de humanos

Qualquer procedimento de treinamento que utilize feedback humano é diretamente influenciado pelos humanos reais que rotulam os dados. Em nosso trabalho anterior sobre o ajuste fino de modelos de linguagem a partir das preferências humanas, nossos rotuladores frequentemente davam classificações altas a resumos que considerávamos medianos, o que se refletia na qualidade de nossos modelos treinados.

Em resposta, neste projeto investimos fortemente para garantir a alta qualidade dos dados. Contratamos cerca de 80 empreiteiros usando sites de fornecedores terceirizados,⁹ e lhes pagávamos um salário por hora, independentemente do número de resumos avaliados.¹⁰ Contratar prestadores de serviços, em vez de depender de sites de crowdsourcing, nos permitiu manter um relacionamento prático com os rotuladores: criamos um processo de integração, desenvolvemos um site com uma interface personalizável para o rotulador, respondíamos perguntas numa sala de bate-papo compartilhada e conversávamos individualmente por videochamada com os rotuladores. Também nos certificamos de comunicar claramente nossa definição de qualidade de resumo, depois de passarmos um tempo considerável lendo os resumos, e monitoramos cuidadosamente as taxas de concordância entre nós e os rotuladores ao longo do projeto.

Otimizando o modelo de recompensa

A partir da linha de base supervisionada 1,3B (ponto 0 no eixo x), usamos RL para otimizar a diretiva com relação ao modelo de recompensa, o que resulta em diretivas com diferentes “distâncias” da linha de base (eixo x, medido usando a divergência KL em relação à linha de base supervisionada). A otimização com relação ao modelo de recompensa inicialmente melhora os resumos de acordo com os humanos, mas acaba se sobreajustando, gerando resumos piores. Este gráfico usa uma versão mais antiga do nosso modelo de recompensa, e é por isso que o pico do modelo de recompensa é inferior a 0,5.

Postagem do Reddit (r/AskReddit)
Sou um homem de 28 anos e gostaria de fazer ginástica pela primeira vez.
O título disse quase tudo. Tenho 28 anos, sou muito atlético (bike/surf/snowboard) e sempre quis fazer ginástica.

Gosto de dar cambalhotas e giros em pontes e no snowboard, e me parece que a ginástica seria uma ótima maneira de fazer esse movimentos de que eu gosto, num ambiente controlado. O objetivo final disso é que seja divertido e me torne melhor nesses movimentos na vida real.

Mas é tarde demais para mim? Caras de 28 anos como eu deveriam se contentar em só assistir aqueles caras do parkour no youtube? Ou posso aprender os métodos dos jedi da ginástica? Aliás, eu moro em San Jose, CA.

KL = 0
Quero fazer ginástica, mas tenho 28 anos. É tarde demais para eu ser ginasta?!

KL = 9
Cara de 28 anos gostaria de fazer ginástica pela primeira vez. É tarde demais para mim, já que moro em San Jose, CA?

KL = 260
Mano de 28 anos adia teimosamente o início do hobby de ginástica, alegando razões logísticas, apesar do óbvio interesse??? afetando negativamente o progresso do condicionamento físico a longo prazo, tanto pessoal quanto academicamente? quero mudar essa orientação besta de merda, por favor

A otimização com relação ao nosso modelo de recompensa deve alinhar a nossa diretiva com as preferências humanas. Mas o modelo de recompensa é apenas um indicador das preferências humanas, uma vez que vê apenas uma pequena quantidade de dados de comparação a partir de uma distribuição restrita de resumos. Embora o modelo de recompensa tenha um bom desempenho nos tipos de resumos nos quais foi treinado, queríamos saber o quanto poderíamos otimizar com relação a ele até começar a fornecer avaliações inúteis.

Treinamos diretivas em diferentes “pontos fortes de otimização” com relação ao modelo de recompensa e pedimos aos nossos rotuladores que avaliassem os resumos desses modelos. Fizemos isso variando o coeficiente KL, que concilia o incentivo de obter uma recompensa mais elevada com o incentivo de permanecer próximo da diretiva supervisionada inicial. Descobrimos que as melhores amostras tinham aproximadamente a mesma recompensa prevista que o 99º percentil dos resumos de referência do conjunto de dados. Acabar otimizando o modelo de recompensa piora as coisas.

Limitações

Se tivermos uma noção bem definida do comportamento desejado para um modelo, nosso método de treinamento a partir do feedback humano nos permite otimizar esse comportamento. No entanto, esse não é um método para determinar qual o comportamento desejado do modelo deveria ser. Decidir o que constitui um bom resumo é bastante simples, mas fazer isso para tarefas com objetivos mais complexos, nos quais diferentes humanos podem discordar sobre o comportamento correto do modelo, exigirá muito cuidado. Nesses casos, provavelmente não é apropriado utilizar rótulos de investigadores como o “padrão ouro”; em vez disso, indivíduos de grupos que serão impactados pela tecnologia devem ser incluídos no processo para definir o “bom” comportamento e contratados como rotuladores para reforçar esse comportamento no modelo.

Treinamos no conjunto de dados do Reddit TL; DR porque a tarefa de resumo é significativamente mais desafiadora do que no CNN/DM. No entanto, como o conjunto de dados consiste em publicações enviadas por usuários com moderação mínima, por vezes contêm conteúdo ofensivo ou que reflete preconceitos sociais prejudiciais. Isso significa que nossos modelos podem gerar resumos tendenciosos ou ofensivos, pois foram treinados para resumir esse tipo de conteúdo.

Parte do nosso sucesso envolve a amplificação do nosso modelo de recompensa e do tamanho da diretiva. Isso requer uma grande quantidade de poder computacional, que não está disponível para todos os pesquisadores: notadamente, o ajuste fino do nosso modelo 6,7B com RL exigiu cerca de 320 dias de GPU. No entanto, uma vez que modelos menores treinados com feedback humano podem exceder o desempenho de modelos muito maiores, nosso procedimento é mais econômico do que simplesmente amplificar para treinar modelos de alta qualidade em tarefas específicas.

Embora superemos os resumos de referência escritos por humanos em TL;DR, nossos modelos provavelmente não atingiram o desempenho de nível humano, pois as linhas de base do resumo de referência para o TL;DR e o CNN/DM não são da mais alta qualidade possível. Ao avaliar os resumos do TL;DR do nosso modelo numa escala de 7 pontos ao longo de vários eixos de qualidade (precisão, cobertura, coerência e geral), os rotuladores descobrem que nossos modelos ainda podem gerar resumos imprecisos e fornecer uma pontuação geral perfeita 45% do tempo.¹¹ Por razões de custo, também não comparamos diretamente a utilização de um orçamento semelhante para recolher demonstrações de alta qualidade e o treinamento daqueles que utilizam o ajuste fino supervisionado paradigmático.

Direções futuras

Estamos interessados em amplificar o feedback humano para tarefas nas quais os humanos não conseguem avaliar facilmente a qualidade dos resultados do modelo. Por exemplo, podemos querer que nossos modelos respondam a perguntas que exigiriam muita pesquisa humana para serem verificadas; obter avaliações humanas suficientes para treinar nossos modelos dessa forma levaria muito tempo. Uma abordagem para resolver esse problema é fornecer aos humanos ferramentas que os ajudem a avaliar com mais rapidez e precisão. Se essas ferramentas usarem aprendizado de máquina, também poderemos melhorá-las com o feedback humano, o que poderia permitir que humanos avaliassem com precisão os resultados do modelo para tarefas cada vez mais complicadas [ref. 23].

Além de resolver problemas mais difíceis, também estamos explorando diferentes tipos de feedback além de comparações binárias: podemos pedir a humanos que forneçam demonstrações, editem resultados de modelos para torná-los melhores ou deem explicações sobre por que a saída de um modelo é melhor que a de outro. Gostaríamos de descobrir quais tipos de feedback são mais eficazes para modelos de treinamento alinhados às preferências humanas.

Agradecimentos

Gostaríamos de agradecer às seguintes pessoas que deram feedback sobre várias iterações da postagem do blog: Douwe Kiela, Zach Lipton, Alex Irpan, Jack Clark, Jacob Hilton, Raul Puri, Miles Brundage, Greg Brockman, Ilya Sutskever, Kelly Sims, Wojciech Kryscinski e Dzimitry Bahdanau. Gostaríamos também de agradecer a Justin Jay Wang por conduzir o design da postagem, Ashley Pilipiszyn pela edição, Alec Radford e Dario Amodei pela orientação no projeto, Shan Carter pela ajuda no design do diagrama principal, Gretchen Krueger por coescrever o cartão do modelo, Beth Barnes pela ajuda na contratação dos rotuladores e incentivo geral, e muitas outras pessoas da OpenAI por treinar nossos grandes modelos pré-treinados, apoiando-nos através de melhorias e manutenção da infraestrutura de computação e escrevendo kernels de GPU rápidos. Por fim, gostaríamos de agradecer a todos os nossos contratados por fornecerem os dados essenciais para o treinamento dos modelos desta postagem.

Notas:

1. Contratamos rotuladores humanos para julgar a qualidade dos resumos e implementamos controle de qualidade para garantir que os julgamentos dos rotuladores concordem com os nossos. Descrevemos o nosso procedimento de recolhimento de dados humanos abaixo.

2. Para o treinamento, usamos o conjunto de dados Reddit TL;DR [ref. 5], em vez do conjunto de dados mais popular CNN/DM, pois linhas de base de cópia simples têm um melhor desempenho que resumos de referência sobre o CNN/DM escritos por humanos, o que não é o caso com o TL;DR (veja o Apêndice D do nosso artigo). Realizamos um novo rastreamento da rede para aumentar o tamanho do conjunto de dados TL;DR, sendo os resumos exigidos entre 24 e 48 tokens, e realizamos outras limpezas e filtragens.

3. Geramos todas as nossas amostras a temperatura 0, que descobrimos ser a preferência dos humanos.

4. Embora usemos TL;DRs escritos por humanos como nosso principal ponto de comparação, eles nem sempre representam o desempenho humano ótimo; às vezes são escritos para serem engraçados ou para resumir só uma parte do post, e a sua gramática e estilística são desorganizadas.

5. Controlamos treinando um modelo de regressão logística para prever o resumo preferido dada somente a diretiva ID e a razão logarítmica dos comprimentos dos resumos. Então, relatamos os coeficientes de regressão sobre cada diretiva ID, correspondente a uma razão de comprimento de 1 com os resumos de referência.

6. Tivemos essa abordagem porque é difícil comparar diretamente os nossos modelos treinados no TL;DR com modelos treinados no CNN/DM; os resumos do CNN/DM são muito mais longos e são escritos no formato de tópicos.

7. Em termos de resultados ROUGE no CNN/DM, nossos modelos supervisionados 6,7B são um tanto piores que o T5 [ref. 20], mas um tanto melhores que modelos do estado da arte de meados de 2019 [ref. 21].

8. Nossos principais modelos são treinados em cerca de 65 mil comparações, embora alcancemos bons resultados com 8 mil comparações.

9. Especificamente, usamos Upwork e Lionbridge. Nossos empreiteiros têm uma variedade de idades, gêneros e formações educacionais, e são predominantemente dos EUA e das Filipinas (veja o Apêndice C dos nosso artigo para os dados demográficos).

10. Nossos critérios para contratar empreiteiros foram: (1) estavam dispostos a fazer a tarefa e (2) passaram um limiar mínimo de velocidade e concordância com os rótulos dos pesquisadores. Pagamos a todos os empreiteiros pelo menos US$ 15/h.

11. Isso é impressionante relativamente aos resumos de referência do TL;DR, que recebem uma pontuação perfeita geral 23% do tempo, mas indica que ainda há espaço para melhora.

Referências:

Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). “On Faithfulness and Factuality in Abstractive Summarization..” arXiv preprint.
Sheng, E., Chang, K. W., Natarajan, P., & Peng, N. (2019). “The woman worked as a babysitter: On biases in language generation.” arXiv preprint.
Bordia, S., & Bowman, S. R. (2019). “Identifying and reducing gender bias in word-level language models.” arXiv preprint.
Nadeem, M., Bethke, A., & Reddy, S. (2020). “StereoSet: Measuring stereotypical bias in pretrained language models.” arXiv preprint.
Völske, M., Potthast, M., Syed, S., & Stein, B. (2017). “TL; DR: Mining reddit to learn automatic summarization.” Em Proceedings of the Workshop on New Frontiers in Summarization 2017.
Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). “Fine-tuning language models from human preferences.” arXiv preprint.
Böhm, F., Gao, Y., Meyer, C. M., Shapira, O., Dagan, I., & Gurevych, I. (2019). “Better rewards yield better summaries: Learning to summarise without references.” arXiv preprint.
Jaques, N., Ghandeharioun, A., Shen, J. H., Ferguson, C., Lapedriza, A., Jones, N., Gu, S., & Picard, R. (2019). “Way off-policy batch deep reinforcement learning of implicit human preferences in dialog.” arXiv preprint.
Yi, S., Goel, R., Khatri, C., Cervone, A., Chung, T., Hedayatnia, B., … & Hakkani-Tur, D. (2019). “Towards coherent and engaging spoken dialog response generation using automatic conversation evaluators.” arXiv preprint.
Hancock, B., Bordes, A., Mazare, P. E., & Weston, J. (2019). “Learning from dialogue after deployment: Feed yourself, chatbot!.” arXiv preprint.
Lawrence, C., & Riezler, S. (2018). “Improving a neural semantic parser by counterfactual learning from human bandit feedback.” arXiv preprint.
Kreutzer, J., Khadivi, S., Matusov, E., & Riezler, S. (2018). “Can Neural Machine Translation be Improved with User Feedback?.” arXiv preprint.
Bahdanau, D., Brakel, P., Xu, K., Goyal, A., Lowe, R., Pineau, J., … & Bengio, Y. (2016). “An actor-critic algorithm for sequence prediction.” arXiv preprint.
Zhou, W., & Xu, K. (2020). “Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models.” In AAAI 2020.
Cho, W., & Zhang, P., & Zhang, Y., & Li, X., & Galley, M., & Brockett, C., & Wang, M., & Gao, J. (2018). “Towards coherent and cohesive long-form text generation.” arXiv preprint.
Perez, E., & Karamcheti, S., & Fergus, R., & Weston, J., & Kiela, D., & Cho, K. (2019). ” Finding generalizable eevidence by learning to convince Q&A models.” arXiv preprint.
Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). “Deep reinforcement learning from human preferences.” Em Advances in Neural Information Processing Systems 2017.
Ibarz, B., Leike, J., Pohlen, T., Irving, G., Legg, S., & Amodei, D. (2018). “Reward learning from human preferences and demonstrations in Atari.” Em Advances in Neural Information Processing Systems 2018.
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., & Blunsom, P. (2015). ” Teaching machines to read and comprehend.” Em Advances in neural information processing systems 2015.
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2019). ” Exploring the limits of transfer learning with a unified text-to-text transformer.” arXiv preprint.
Zhang, Y., Li, D., Wang, Y., Fang, Y., & Xiao, W. (2019). ” Exploring the limits of transfer learning with a unified text-to-text transformer.” Em Applied Sciences.
Christiano, P., Shlegeris, B., & Amodei, D. (2018). ” Supervising strong learners by amplifying weak experts.” arXiv preprint.

Tradução: Luan Marques

Link para o original.

Aprendendo a Resumir com Feedback Humano

Resultados

Resultados da transferência

Resultados

Abordagem

Coletando dados de humanos

Otimizando o modelo de recompensa

Limitações

Direções futuras

Agradecimentos

Notas:

Referências:

Deixe um comentário Cancelar resposta