Porque e Como os Governos Devem Monitorar o Desenvolvimento de IA - 80.000 Horas: Como fazer a diferença com sua carreira

De Jess Whittlestone e Jack Clark¹. 31 de agosto de 2021.

Índice

Sumário executivo

Delineamos uma proposta para melhorar a governança da inteligência artificial (IA) por meio do investimento na capacidade do governo para medir e monitorar sistematicamente as capacidades e impactos dos sistemas de IA.

O problema. Os governos enfrentam uma série de desafios de políticas relacionados às tecnologias de IA, que são desenvolvidas e implementadas em uma velocidade que as abordagens tradicionais de governança não conseguem acompanhar. Muitos desses desafios são causados ou exacerbados pelo fato de que os governos carecem de informações suficientemente detalhadas, de alta qualidade e oportunas sobre a IA para governá-la de maneira eficaz.

A proposta. O setor da IA produz regularmente uma variedade de dados e medidas. Se esses dados forem sintetizados pelos governos, as percepções resultantes podem melhorar a capacidade dos governos de compreender essa tecnologia e seus impactos, além de ajudar a criar ferramentas para intervir mais cedo.

Portanto, propomos que os governos invistam em iniciativas para medir e monitorar vários aspectos da pesquisa, implementação e impactos da IA, incluindo:

Analisar continuamente os sistemas implementados em busca de possíveis danos, além de desenvolver melhores maneiras de medir os impactos dos sistemas implementados onde tais medidas ainda não existem.
Rastrear a atividade, a atenção e o progresso na pesquisa em IA usando análise bibliométrica, referenciais e dados de código aberto.
Avaliar a maturidade técnica das capacidades de IA relevantes para domínios específicos de interesse político.

Os governos podem usar essa infraestrutura de medição e monitoramento para uma variedade de propósitos, incluindo:

Testar sistemas implementados para verificar se eles estão em conformidade com as regulamentações.
Incentivar aplicações de IA positivas por meio da medição e classificação de sistemas implementados.
Abordagens mais rigorosas e coordenadas para avaliação e garantia de impactos.
Análise comparativa da força dos ecossistemas de IA dos países.
Priorizar o financiamento e incentivar a pesquisa.
Sistemas de aviso prévio para fontes de risco ou oportunidade.

Os governos devem desempenhar um papel central no estabelecimento de iniciativas de medição e monitoramento, enquanto subcontratam outros aspectos para terceiros (por exemplo, por meio de concessão de subvenções ou parcerias com instituições de pesquisa). É provável que versões bem-sucedidas desse esquema contem com uma abordagem híbrida, com as decisões centrais e as direções de pesquisa sendo definidas por atores do governo e o trabalho sendo realizado por uma mistura de governo e terceiros.

Construir essa infraestrutura provavelmente precisará ser um processo iterativo, começando com pequenos projetos-piloto. Projetos-piloto promissores podem incluir:

Avaliar o cenário de conjuntos de dados de IA e avaliar quem eles representam ou não. Usar essas descobertas para financiar a criação de conjuntos de dados para preencher as lacunas.
Usar análise bibliométrica geográfica para entender a competitividade de um país em áreas-chave de pesquisa e desenvolvimento em IA.
Organizar competições para facilitar a medição do progresso em um determinado domínio de IA relevante para políticas públicas, como competições para encontrar vulnerabilidades em sistemas de visão amplamente implementados ou para avaliar as capacidades avançadas de robôs industriais inteligentes.
Financiar projetos para melhorar métodos de avaliação em áreas comercialmente importantes (p. ex., determinados tipos de visão computacional), para acelerar o progresso e a aplicação comercial nessas áreas.
Rastrear a implementação de sistemas de IA para tarefas economicamente relevantes, a fim de melhor acompanhar, prever e, em última instância, preparar-se para os impactos sociais desses sistemas.
Monitorar casos concretos de danos causados por sistemas de IA ao nível nacional, para manter os formuladores de políticas atualizados sobre os impactos atuais da IA, bem como sobre possíveis impactos futuros causados por avanços em pesquisas.
Monitorar a adoção ou gastos com tecnologia de IA em diversos setores, para identificar os setores mais importantes a serem acompanhados e regulamentados, além de obter insights generalizáveis sobre como aproveitar a tecnologia de IA em outros setores.
Monitorar a participação de atores em recursos-chave para o progresso em IA (ou seja, talentos, recursos computacionais e os meios para produzi-los, e os dados relevantes), para entender melhor quais atores os formuladores de políticas precisarão regulamentar e onde estão os pontos de intervenção.

Prevemos que, se essa proposta não for adotada, veremos alguma versão do seguinte ao longo dos próximos anos:

Os interesses do setor privado explorarão a falta de infraestrutura de medição e monitoramento para implementar tecnologia de IA que tenha externalidades negativas, e os governos carecerão das ferramentas disponíveis para lidar com elas.
As assimetrias de informação entre o governo e o setor privado aumentarão, causando implementações que surpreenderão negativamente os formuladores de políticas, o que levará a uma legislação apressada, imprecisa e desinformada.
Outros interesses intervirão para preencher a lacuna de informações em evolução; muito provavelmente, o setor privado financiará entidades para criar esquemas de medição e monitoramento que estejam alinhados com interesses comerciais estreitos, em vez de interesses cívicos amplos.

1. Introdução

Neste artigo, delineamos uma proposta para melhorar a governança da inteligência artificial (IA) investindo na capacidade do governo para medir e monitorar sistematicamente as capacidades e os impactos dos sistemas de IA. Se adotada, essa proposta daria aos governos maior informação sobre o ecossistema de IA, capacitando-os a direcionar de maneira mais eficaz o desenvolvimento e a implementação da IA nas direções mais benéficas para a sociedade e a economia. Também criaria uma infraestrutura capaz de identificar rapidamente potenciais ameaças ou danos que possam ocorrer como consequência de mudanças no ecossistema da IA, como o surgimento de capacidades estrategicamente transformadoras ou a implementação de sistemas prejudiciais.

Começamos delineando o problema que motiva esta proposta: em suma, as abordagens tradicionais de governança enfrentam dificuldades para acompanhar a velocidade do progresso na IA. Em seguida, apresentamos nossa proposta para lidar com esse problema: os governos devem investir em infraestrutura de medição e monitoramento. Discutimos essa proposta em detalhes, destacando os aspectos específicos que os governos podem focar em medir e monitorar e os tipos de benefícios que isso geraria para a formulação de políticas. Por fim, destacamos alguns potenciais projetos-piloto e considerações para implementar essa proposta na prática.

2. O problema

Os governos enfrentam uma série de desafios de políticas com tecnologias contemporâneas, que são desenvolvidas e implementadas em uma velocidade que as abordagens tradicionais de governança não conseguem acompanhar (Collingridge, 1980). Isso tem sido especialmente verdadeiro no caso dos avanços em inteligência artificial (IA), onde os governos foram surpreendidos pelo progresso técnico e carecem de ferramentas para intervir de maneira oportuna e eficaz para prevenir danos. O resultado é uma situação em que as empresas são capazes de implementar sistemas de IA com potencial substancial para danos ou uso indevido em mercados amplamente desregulamentados, os governos são pegos de surpresa por essas novas aplicações e seus impactos e são incapazes de examinar efetivamente os sistemas nas formas necessárias para governá-los.

Por exemplo, muitos governos têm recentemente enfrentado desafios de políticas relacionados a:

A implementação rápida e a ampla disseminação de capacidades de reconhecimento facial pelo mundo por meio de atores do setor privado (p. ex., Clearview AI).
O desenvolvimento de tecnologias para melhor edição e manipulação de vídeos por meio de um conjunto de técnicas de IA conhecidas coloquialmente como ‘deepfakes’.
Viés prejudicial exibido por sistemas de IA de visão computacional e processamento de linguagem natural implementados.
Radicalização de populações por meio de sistemas de recomendação cada vez mais eficazes e opacos, implementados em plataformas como o YouTube, o Facebook, etc.

Muitos desses desafios podem ser tornados mais tratáveis por meio da adição de mais e melhores informações sobre os aspectos subjacentes da tecnologia e da difusão da IA. Essa não é uma sugestão incomum: os governos usam informações e métricas para gerenciar e supervisionar muitas áreas cruciais de políticas. Por exemplo, métricas como a inflação são cruciais para gerenciar a economia, dados sobre a prevalência de tráfego em grandes vias são entradas para o planejamento de infraestrutura, e durante a covid-19 vimos como dados básicos sobre o status médico dos cidadãos são uma entrada fundamental para a formulação de políticas. No entanto, os governos hoje ainda não usam métricas e medidas para governar a IA de maneira sistemática e os processos que os governos atualmente utilizam para obter informações sobre a IA, como a convocação de especialistas, são muito ad hoc e lentos.²

Não precisa ser assim. Os desafios de políticas impostos pela IA não são inerentemente ininteligíveis: o setor da IA produz rotineiramente dados, métricas e medidas que podem ser úteis para uma série de propósitos de governança. Por exemplo, existem métricas bem-estabelecidas para medir o progresso em uma variedade de áreas de interesse para formuladores de políticas, como: o avanço das capacidades de visão computacional,³ o surgimento de sistemas para a geração de “mídia sintética”⁴ e conjuntos de avaliação para entender a “justiça” de uma determinada aplicação de IA.⁵ Em áreas mais incipientes de pesquisa em IA, vemos frequentemente uma proliferação de diferentes medidas — recentemente, houve muitas propostas para avaliar vieses em sistemas de geração de texto, por exemplo — o que pode servir como um estímulo para os governos convocarem especialistas para tentar identificar medidas consensuais. A tendência de acesso aberto a publicações por meio de pré-publicações em serviços como o arXiv também facilita a realização de análise bibliométrica em grande escala do setor da IA como um todo.⁶

Além disso, não é impossível antecipar ou preparar-se para os desafios de políticas de IA: as tecnologias que estão impactando a sociedade hoje estão em pesquisa e desenvolvimento há mais de uma década. Os governos poderiam ter monitorado o progresso em áreas como mídia sintética e visão computacional e considerado suas implicações muito antes de essas capacidades serem amplamente implementadas. Há também indicações promissoras de que aspectos do progresso futuro são previsíveis: publicações recentes sobre as “leis de amplificação” dos sistemas de IA (Kaplan et al., 2020; Henighan et al., 2020; Hestness et al., 2017) dão uma indicação de alto nível das capacidades de sistemas que ainda não foram desenvolvidos. As tecnologias que mais impactarão a sociedade no futuro não virão do nada: elas surgirão das capacidades que estão recebendo atenção da pesquisa e do progresso atualmente, e podemos monitorar essa atenção e progresso hoje. Isso não é uma ideia nova: padrões anteriores de progressão na tecnologia, como a Lei de Moore, provaram ser esboços úteis do futuro, dando aos formuladores de políticas a capacidade de planejar com antecedência para certos tipos de mudanças tecnológicas previsíveis (como, no caso da Lei de Moore, a disponibilidade de uma certa quantidade de computação por um certo preço até certo ano).

À medida que mais sistemas de IA são implementados no mercado e as tecnologias avançam, eles levantarão desafios de políticas cada vez mais importantes (Brundage et al., 2018), tornando cada vez mais importante que os governos tenham a capacidade de reagir rapidamente a novos desenvolvimentos, e as ferramentas para intervir de maneiras que promovam benefícios e mitiguem riscos. Esses desafios variam desde os de preocupação imediata e generalizada, como o potencial de sistemas de IA refletirem vieses prejudiciais, até questões de longo prazo relacionadas a sistemas cada vez mais capazes e de propósito amplo, e às conexões crescentes entre capacidades de IA e capacidades militarmente estratégicas.

3. A proposta

Para acompanhar os rápidos avanços na tecnologia de IA, sugerimos que os governos invistam na construção de infraestrutura para medir e monitorar sistematicamente as capacidades e os impactos dos sistemas de IA. Integrar esses insights à formulação de políticas permitiria que os governos produzissem informações confiáveis sobre quando e onde a IA provavelmente terá impactos particularmente grandes na sociedade. Isso, por sua vez, aceleraria a capacidade dos governos de regular essa tecnologia, além de criar ferramentas para intervir mais cedo e de maneiras mais leves do que a regulamentação.

Sugerimos que os governos devem desempenhar um papel central no estabelecimento de iniciativas de medição e monitoramento. Esperamos que o desenvolvimento da infraestrutura necessária internamente tragam os seguintes benefícios:

Será muito mais provável que os resultados sejam personalizados e integrados à formulação de políticas. Isso porque permitirá que os governos desempenhem um papel mais direto na definição dos objetivos da nova infraestrutura e criem um ciclo mais estreito entre as pessoas que realizam a medição e o monitoramento e outros formuladores de políticas.
Ajudará a desenvolver um grupo de pessoas no setor público com as habilidades necessárias para analisar tecnologia cada vez mais avançada. Essas pessoas provavelmente gerarão benefícios colaterais inesperados, como aconselhar outras partes do governo sobre como abordar áreas que envolvem tecnologia em rápido avanço e ajudar a formar melhores relacionamentos técnicos entre o governo e outras partes interessadas (como na academia e na indústria).⁷
Levará os governos a desenvolver infraestrutura de medição e monitoramento que pode ser reutilizada para diferentes propósitos, proporcionando mais flexibilidade sobre o que pode ser monitorado ao longo do tempo e reduzindo a dependência do governo de terceiros.

Pode ser útil subcontratar alguns aspectos de medição e monitoramento para terceiros do setor privado ou da academia (especialmente quando pode ser necessária uma expertise técnica mais profunda). No entanto, sugerimos que os governos precisam ter um grande grau de controle sobre esse trabalho, assim como visibilidade nele, para fortalecê-lo na formulação de políticas. Em particular, os governos devem definir os objetivos para os projetos e garantir que a infraestrutura central (p. ex., conjuntos de dados agregados, ferramentas de pesquisa, índices) permaneça dentro do governo (enquanto assegura que também possa ser acessível a terceiros quando necessário).

Antes de entrar em detalhes sobre o que os governos devem medir e monitorar e por quê, pode ser útil esclarecer por que falamos aqui tanto de medição quanto de monitoramento e como eles se relacionam.

Medição significa coletar informações que reduzem nossa incerteza (esperada) sobre algo (Hubbard, 2014). O primeiro passo para qualquer exercício de medição envolve pensar cuidadosamente sobre o que precisa ser medido, seguido por perguntar se as ferramentas de medição necessárias já existem ou precisam ser criadas. Por exemplo, um governo pode consultar uma variedade de departamentos para entender onde as necessidades podem ser atendidas por meio da medição, e então procurar ferramentas existentes ou trabalhar com terceiros (p. ex., na academia) para construir as ferramentas necessárias.

Há muitas incertezas que os governos podem ter sobre IA, que mais informações poderiam ajudar a esclarecer, por exemplo:

Quão eficaz é um sistema de IA em realizar uma tarefa específica?
Em que medida um sistema de IA específico, ou tipo de sistema de IA, possui características importantes relevantes para a sociedade ou para políticas públicas, como justiça ou resiliência?
Como diferentes tipos de capacidades de IA estão sendo implementados em diferentes domínios da sociedade?⁸
Qual é a taxa de crescimento em implementações para certos tipos de aplicações de IA?
Quais subcampos da pesquisa em IA estão vendo mais progresso e atenção?
Que tipos de aplicações de IA na sociedade podem ser possíveis em 2 a 5 anos, com base no que estamos vendo hoje?
Como diferentes países se comparam em diferentes aspectos da pesquisa e desenvolvimento público em IA, com ênfase particular em identificar áreas de sobreposição ou especialização com relação à publicação de pesquisas?
Um determinado sistema de IA ou empresa está em conformidade com a regulamentação existente?

Sugeriremos que existem medidas que os governos podem usar para obter maior clareza sobre todas as perguntas acima e mais.

Monitoramento é o processo de operacionalizar a medição ao longo do tempo. Uma vez que você tenha formas de medir aquilo que considera importante, pode estabelecer maneiras de acompanhar continuamente essas medidas, possibilitando que os insights sejam mais facilmente integrados na formulação de políticas e permitindo a identificação de mudanças significativas. Para algumas perguntas, uma única medida pode ser menos útil do que a capacidade de monitorar mudanças ao longo do tempo: p. ex., para identificar novas capacidades ou aplicações de IA que merecem atenção, os governos precisam ter um fluxo constante de dados que os informe sobre como essas coisas estão evoluindo.

A combinação de medição e monitoramento também cria a capacidade de realizar metamonitoramento de tendências em IA ao longo do tempo: isto é, entender padrões de desenvolvimento em diferentes áreas e como eles se relacionam. Por exemplo, se os governos descobrissem que as aplicações de IA para fins de segurança ofensiva estavam sendo desenvolvidas muito mais rapidamente do que as defensivas, isso poderia sugerir que eles tomem medidas para melhorar o equilíbrio do desenvolvimento.

4. Quais aspectos da IA os governos devem medir e monitorar?

Sugerimos duas categorias amplas de aspectos nos quais os governos poderiam se concentrar ao medir e monitorar: primeiro, as capacidades e impactos dos sistemas de IA já implementados na sociedade, e segundo, o desenvolvimento e a implementação de novas capacidades de IA. Discutimos alguns exemplos concretos em ambas as categorias abaixo.

4.1. As capacidades e impactos de sistemas implementados

Analisar sistemas para potenciais danos. Atualmente, uma variedade de sistemas de IA está sendo implementada no mundo com potencial para grandes benefícios, mas também grandes danos, seja como resultado de comportamentos inesperados em novos ambientes, seja por serem usados de maneiras prejudiciais não pretendidas por seus criadores, ou por exibirem vieses prejudiciais. Os governos poderiam desenvolver ferramentas para analisar e monitorar sistemas de IA implementados com relação à resiliência, vieses, capacidades de “uso duplo” e outras características importantes.

Para ilustrar como isso poderia ser na prática, vamos falar sobre um exemplo de análise para verificar se um sistema de IA implementado exibe vieses prejudiciais. Por vieses prejudiciais, queremos dizer vieses que discriminam atributos específicos de uma pessoa de tal forma que o sistema não funciona como esperado para ela. Por exemplo, em 2018, o projeto “Gender Shades” identificou maneiras como sistemas de visão computacional comercialmente implementados pelas empresas IBM, Microsoft, Megvii, Amazon e Kairos demonstraram desempenho inconsistente para pessoas de diferentes gêneros e tipos de pele (Buolamwini e Gebru, 2018). O projeto foi uma auditoria única desses sistemas, que levou a uma discussão mais ampla sobre questões de viés em reconhecimento facial, e a IBM respondeu diretamente ao projeto e atualizou seus sistemas para exibir menos viés.⁹

Após o projeto Gender Shades, em 2019, o NIST publicou os resultados de “Efeitos Demográficos” de seu “Teste de Fornecedores de Reconhecimento Facial” (Grother et al., 2019). Esse relatório avaliou mais de cem sistemas de reconhecimento facial distintos de várias empresas; a organização encontrou disparidades demográficas significativas no desempenho dos sistemas de visão computacional e produziu 1.200 páginas de análise técnica exaustiva, identificando questões específicas em diferentes sistemas.

Ambas essas abordagens exemplificam uma auditoria periódica: isto é, a auditoria ocorre com alguma frequência (uma única vez no caso de Gender Shades, enquanto o NIST indicou que pode fazer mais estudos no futuro). Os governos poderiam analisar sistemas de reconhecimento facial implementados para gerar um fluxo contínuo de informações sobre formas de viés em sistemas de IA implementados.¹⁰ Isso forneceria as informações necessárias para os formuladores de políticas identificarem qualquer sistema que não esteja em conformidade com os padrões conhecidos e também incentivaria os atores do setor privado a reduzir as disparidades de desempenho, a fim de evitar repercussões negativas de relações públicas ou de políticas.

Há também uma variedade de outros conjuntos de dados disponíveis que os governos podem desejar usar para avaliar os potenciais danos de sistemas, incluindo conjuntos de dados e testes como o WinoBias (Zhao et al., 2018) e o WinoGender (Rudinger et al., 2018) para analisar questões de representação de gênero em sistemas de processamento de linguagem natural, ou o FairFace (Karkkainen e Joo, 2021) para avaliar viés de raça, gênero e idade em sistemas de reconhecimento facial por visão computacional. (Existem muitos outros exemplos, mas fornecer uma lista completa está fora do escopo deste artigo.)

Desenvolver melhores maneiras de medir os impactos sociais dos sistemas implementados. Os projetos Gender Shades e NIST mostram que já existem métodos estabelecidos para analisar viés em sistemas de reconhecimento facial, tornando a tarefa de integrar esse tipo de análise na formulação de políticas mais direta. Em outros casos, os governos podem tentar medir as características dos sistemas de IA relacionadas a uma determinada preocupação de política (p. ex., a resiliência de modelos ou a interpretabilidade de resultados) e descobrir que não existem medidas estabelecidas e utilizáveis. Nesses casos, os próprios governos podem desempenhar um papel valioso ao estabelecer medidas e criar os conjuntos de dados necessários para analisar vários impactos sociais dos sistemas de IA.¹¹

Os governos poderiam financiar e coordenar pesquisas voltadas para o desenvolvimento de novas abordagens de avaliação: por exemplo, maneiras de avaliar a resiliência de diferentes capacidades de IA comparando sua precisão em diferentes ambientes. Isso poderia envolver o financiamento da criação de vários bancos de testes para avaliar o desempenho dos modelos. Ao estabelecer métricas e métodos de avaliação para algo importante como a resiliência, os formuladores de políticas também poderiam usar financiamento ou competições para incentivar mais avanços na pesquisa que melhorem o desempenho nessas métricas.

Os governos também podem ajudar a estimular áreas de medição em que já existe trabalho, mas é necessário melhorar as ferramentas e estabelecer uma medição mais contínua. Por exemplo, no que diz respeito à avaliação de equidade em sistemas de IA, há conjuntos de dados e medidas existentes, mas não tantos quanto os necessários para uma avaliação precisa de novas capacidades de IA. Nesse caso, os governos podem buscar criar proativamente conjuntos de dados (em vez de usar os existentes) que facilitem testar um sistema para uma forma altamente específica de equidade (p. ex., conjuntos de dados de áudio de diferentes sotaques regionais para testar quão bem as abordagens de reconhecimento de fala atendem a diferentes sotaques).

4.2. O desenvolvimento e implementação de novas capacidades de IA

Acompanhando o progresso e a atenção na pesquisa em IA. Muitas áreas de pesquisa dentro da IA contêm referenciais e regimes de avaliação amplamente estudados, tornando possível acompanhar quais subcampos da pesquisa em IA estão recebendo mais atenção, bem como onde está sendo feito progresso em métricas técnicas dentro de subcampos.

Por exemplo, uma análise do AI Index com base em dados de 2020 mostrou que robótica e aprendizado de máquina tiveram o crescimento mais rápido em atenção dentro da IA entre 2015 e 2020 (com base em pré-publicações no arXiv) e que visão computacional foi uma das áreas de pesquisa mais populares dentro da IA em 2020 (31,7% de todas as publicações sobre IA no arXiv em 2020) (Zhang et al., 2021).

Tendo identificado amplas áreas de interesse, podemos aprofundar e usar dados sobre referenciais amplamente estudados e regimes de avaliação para analisar quais métricas técnicas fundamentais estão vendo mais atividade dentro dos campos. Isso nos dá alguma indicação dos tipos de capacidades que estão vendo progresso. Por exemplo, referenciais como o ImageNet e SuperGLUE podem ser usados para monitorar o progresso em visão computacional e tarefas de linguagem natural, respectivamente; e o VoxCaleb, um conjunto de dados e competição anual, fornece informações sobre as capacidades avançadas de reconhecimento do falante. O monitoramento nessas áreas nos últimos anos poderia ter alertado os governos para a possibilidade de aumento na aplicação comercial dessas capacidades, o que poderia ter levado a investigações mais cedo sobre fontes potenciais de viés (p. ex., auditando sistemas antes da implementação) e outras áreas potenciais de impacto social (p. ex., financiando pesquisas mais cedo sobre os impactos e riscos do reconhecimento facial). Tal conscientização também poderia ter permitido aos governos fazer mais investimentos em áreas cruciais mais cedo: como ao priorizar financiamento para pesquisas relacionadas à justiça (já que o monitoramento teria mostrado um aumento nas pesquisas sobre as questões dos sistemas de reconhecimento de imagem), ou ao criar proativamente conjuntos de dados mais diversos para servir como entradas de pesquisa (já que a análise dos artigos teria frequentemente mostrado uma relação entre certas preocupações de justiça e questões relacionadas à composição do conjunto de dados de entrada).

Também podemos medir diretamente o progresso em capacidades novas olhando diretamente para artigos de pesquisa para analisar avanços. Por exemplo, nos últimos anos, surgiram modelos de imagem generativa que podem compor imagens sintéticas, e o progresso pode ser medido observando como esses sistemas se saem nas métricas e conjuntos de dados usados pela comunidade de pesquisa. Essa abordagem exige mais conhecimento do que julgar o vencedor de uma competição estabelecida, mas pode produzir os mesmos tipos de insights com recursos significativamente menores. Talvez esse seja o tipo de projeto que os governos poderiam definir de acordo com as necessidades de políticas, mas então terceirizar para pesquisadores com a expertise relevante.

No entanto, as métricas de desempenho não são a única maneira de avaliar o progresso na IA, e também pode ser valioso entender outros fatores que impulsionam a atenção à pesquisa e o avanço das capacidades, como custos computacionais, dados, redes de pesquisa e financiamento (Martínez-Plumed et al., 2018). Esses itens servem como algumas das principais entradas para o desenvolvimento da tecnologia de IA; então, monitorá-los pode dar aos governos uma ideia das tendências que podem influenciar o desenvolvimento subsequente ou servir como sinais úteis por si mesmos.¹² Essas entradas às vezes podem fornecer “sinais de alerta” mais cedo sobre um progresso importante do que métricas de desempenho ou monitorar sistemas implementados, como discutiremos posteriormente.

Por exemplo, aumentos no tamanho ou complexidade dos conjuntos de dados usados para treinar modelos podem ser um indicador valioso de progresso em um campo. Em visão computacional, por exemplo, vimos empresas passando de treinamento com milhões de imagens para bilhões, e também houve uma mudança para conjuntos de dados mais complexos (p. ex., de conjuntos de dados com dez tipos diferentes de “veículos” para centenas de tipos diferentes). Análises mais próximas dessas tendências podem ajudar a identificar maneiras como os sistemas de visão computacional estão se tornando mais capazes e/ou resilientes em diferentes domínios.

Da mesma forma, podemos analisar a relação entre computação e progresso na IA lendo artigos e avaliando a quantidade de computação que foi usada para alcançar uma determinada capacidade de IA (Amodei e Hernandez, 2018). Ao fazer esse tipo de medição, os governos podem identificar a intensidade de recursos de certos tipos de pesquisa e desenvolver intuições sobre quais pesquisadores são capazes de usar grandes quantidades de poder computacional em seus experimentos, levando a insights sobre onde o progresso em uma área varia ou não com relação ao uso de recursos computacionais. Da mesma forma, os governos poderiam estimar aproximadamente os montantes de dinheiro usados para treinar certos sistemas de alto poder computacional, o que ajudaria a fornecer informações melhores para moldar o financiamento de subsídios a pesquisadores — se o custo de computação para certos projetos aumentar em dez ou cem vezes, o governo deve garantir que possa financiar alguns pesquisadores para realizar experimentos nessa escala. Esses insights podem, posteriormente, ser usados para desenvolver estratégias de financiamento da ciência, bem como para ajudar os governos a modelar o panorama competitivo global com relação à computação e à pesquisa em IA. Tudo isso combinado pode ajudar um governo a identificar e desenvolver capacidades estratégicas de IA.

Avaliação da maturidade das capacidades em domínios específicos. Os governos também podem escolher domínios específicos que consideram de alta prioridade e se concentrar em medir e monitorar o estado da pesquisa e implementação de IA nesses domínios.

Isso tornaria mais fácil priorizar investimentos em áreas de pesquisa de IA que mais atendem diretamente às prioridades de políticas, como desenvolver ecossistemas comerciais ou apoiar interesses de segurança nacional. Os governos poderiam monitorar sistematicamente áreas de interesse para desenvolver dados de alta qualidade sobre determinadas capacidades técnicas (e campos de pesquisa); tais informações teriam uma variedade de usos subsequentes, desde simplesmente sinalizar pessoas com expertise até alertar os governos sobre áreas onde podem querer financiar mais investigações científicas ou linhas paralelas de pesquisa que apoiem ou contraponham uma capacidade emergente. Abaixo, destacamos dois exemplos disso em contextos comerciais e de segurança nacional.

Comercial: pode haver áreas de desenvolvimento de IA que tenham relevância comercial particular para um governo específico. Ao monitorar o estado do desenvolvimento de IA nesses domínios, os governos podem avaliar quão competitivos são em determinadas capacidades de IA e analisar se possuem ativos nacionais que podem aproveitar para estimular ainda mais a atividade nessas áreas.

Por exemplo, no caso do Reino Unido, o Serviço Nacional de Saúde (NHS) é uma fonte potencial de dados valiosos que podem ser usados para desenvolver tecnologias úteis para aplicar IA na saúde. O Reino Unido também criou o NHSx para ajudar a melhorar a maneira como o NHS usa tecnologias digitais. O NHSx pode, em parceria com outras partes interessadas do governo, avaliar o estado da arte para IA aplicada a diagnósticos médicos, identificar áreas onde o NHS (ou NHSx) pode criar ou liberar dados que podem ajudar a desenvolver ainda mais essas capacidades, e então procurar estimular a atividade comercial aqui, organizando competições para melhorar capacidades em áreas específicas.¹³

Segurança: existem áreas de desenvolvimento de IA que têm relevância para a segurança nacional, seja por meio da capacitação de novas capacidades, criação de novas defesas contra capacidades existentes ou redução radical do custo de realizar certas funções relacionadas à segurança (como vigilância). Todas essas são áreas cruciais para os governos terem alta conscientização, e melhor medição e monitoramento fornecem uma maneira de identificar preocupações de segurança emergentes ou mudanças no panorama. Por exemplo, pode ser útil para os governos terem uma imagem mais detalhada do estado das capacidades de IA relevantes para a segurança que são visíveis em pesquisa pública, de código aberto e códigos. Essas capacidades podem incluir áreas como reidentificação de pedestres (uma capacidade de IA que usa visão computacional para rastrear e analisar pedestres enquanto atravessam uma área, e depois reidentificá-los quando aparecem em outra transmissão de câmera), ou reconhecimento do falante (uma capacidade que permite reconhecer um falante específico em dados de áudio), ou o desenvolvimento de sistemas de IA que possam defender ou atacar autonomamente outros sistemas de software. Ao analisar esses dados, os governos poderiam identificar tendências técnicas impulsionando o progresso em capacidades relevantes para a segurança, entender melhor quais instituições (p. ex., universidades ou empresas) estão contribuindo para o desenvolvimento dessas áreas e mapear as redes de pesquisa internacionais que existem para uma determinada área de interesse. Todos esses dados podem orientar melhor os governos para o futuro da segurança, com a ajuda da IA, e a síntese desses dados pode gerar insights que podem dar ao governo uma vantagem estratégica: p. ex., notar um aumento na publicação e avanço de capacidades em IA para fins cibernéticos ofensivos pode levar os governos a aumentar o financiamento em defesa cibernética. Além disso, alguns aspectos do monitoramento relacionado à segurança dependerão naturalmente de dados privados (classificados) disponíveis apenas para atores governamentais ou podem envolver o compartilhamento privado de informações confidenciais entre a indústria e o governo sobre ameaças emergentes.

Desenvolver melhores maneiras de avaliar o progresso. Algumas áreas de pesquisa têm métricas de progresso mais estabelecidas do que outras, e algumas serão mais diretamente relevantes para a formulação de políticas do que outras. Portanto, os governos também podem identificar áreas ou tipos de progresso que são importantes para prioridades políticas (como aquelas ligadas a implementações em domínios específicos, ou aquelas com impactos sociais potencialmente grandes) e buscar estabelecer maneiras mais rigorosas de medir e monitorar.

Por exemplo, em áreas como visão computacional, seria valioso que os governos não apenas monitorassem o progresso em técnicas subjacentes, mas também entendessem como a segurança e a resiliência desses sistemas estão evoluindo com relação às técnicas subjacentes e quais atores estão contribuindo para o progresso em diferentes áreas. Os formuladores de políticas poderiam se basear em conjuntos de dados existentes, como o conjunto de dados ImageNet, para avaliar e monitorar quais grupos de pesquisa são capazes de desenvolver ainda mais o estado da arte, ajudando a conscientizar os governos sobre grupos úteis de conhecimento especializado.

Os governos também poderiam combinar diferentes fontes de dados em medidas compostas úteis de forma relativamente fácil. À medida que os sistemas de reconhecimento de imagem amadureceram, os pesquisadores criaram variantes do ImageNet para ajudá-los a avaliar melhor o progresso, incluindo o ImageNet-A (abreviação de ImageNet Adversarial), uma coleção de chamados “exemplos adversários naturais”, imagens que são inerentemente desafiadoras para os sistemas de IA contemporâneos rotularem corretamente, e o ImageNet-R (abreviação de ImageNet Rendition), uma coleção de versões estilizadas de algumas das coisas retratadas no conjunto de dados original do ImageNet (p. ex., desenhos animados ou esculturas de ursos, em comparação com fotografias de ursos no conjunto de dados original). Essas variantes podem ser usadas para avaliar quão resilientes são os sistemas de visão computacional e quão bem eles se generalizam. Ao acompanhar tanto o progresso no ImageNet quanto o progresso em variantes mais difíceis do ImageNet, os governos podem medir como o progresso nas capacidades de visão computacional se compara ao progresso em resiliência e generalizabilidade, destacando áreas de risco e orientando decisões de financiamento.

Mais ambiciosamente, os governos poderiam incentivar a criação de medidas completamente novas em áreas que atualmente são difíceis de avaliar. A robótica é um bom exemplo. O progresso na combinação de métodos de IA contemporâneos com a robótica pode trazer muitos benefícios, como reduzir custos na fabricação industrial, aumentar as capacidades das plataformas de drones e criar novas capacidades para responder a desastres naturais. Tal progresso também poderia alterar o equilíbrio estratégico do poder militar entre as nações e mudar a suscetibilidade de muitos empregos à automação, tornando-a uma área importante para os formuladores de políticas monitorarem. De 2015 a 2017, a Amazon realizou uma competição anual para melhorar o estado de desenvolvimento em robótica, avaliando quão bem os robôs conseguiam pegar e armazenar itens nas prateleiras. Realizaram três competições ao longo de três anos, com cada competição gerando informações sobre quão bem os robôs contemporâneos e os algoritmos de IA poderiam ser adaptados a um desafio relevante para a indústria. A Amazon encerrou a competição após 2017 — a compreensão dos autores é que isso ocorreu porque o progresso não foi tão rápido quanto a Amazon esperava.

Uma melhor avaliação poderia acelerar o progresso, mas a robótica é difícil de avaliar por algumas razões. A realidade física é altamente variável, tornando comparações diretas entre capacidades desenvolvidas por diferentes laboratórios desafiadoras. Além disso, o custo de fazer experimentos robóticos é tipicamente alto, pois requer acesso a um ambiente de teste físico, além de suporte para o hardware (que inevitavelmente falhará de algumas formas durante os testes). Dada a relevância de políticas para o progresso na robótica, os governos podem querer considerar como criar abordagens melhores para o teste robótico, que poderiam ser usadas tanto para incentivar pesquisas quanto para monitorar sinais de progresso.

[…]

Notas

1. Ambos os autores contribuíram igualmente.

2. Às vezes, as convenções ad hoc podem ser a melhor maneira de coletar informações, geralmente em domínios onde se sabe muito pouco ou onde houve recentemente uma sucessão de mudanças rápidas. Entretanto, no contexto da IA, muitas coisas que poderíamos reunir grupos ad hoc para analisar só serão fáceis de identificar se primeiro criarmos uma infraestrutura de monitoramento contínuo para nos alertar sobre esses desenvolvimentos ou para identificar uma ausência de informações mensuráveis.

3. Por exemplo, analisando o desempenho dos sistemas em conjuntos de dados amplamente utilizados, como o ImageNet.

4. Medidas como a Frechet Inception Distance (FiD) podem nos ajudar a quantificar a qualidade das imagens sintéticas (Thakur, 2021).

5. Há uma ampla variedade de medidas em desenvolvimento aqui, que vão desde a abordagem usada pelo “Gender Shades” (abordada mais adiante neste documento) para sistemas de visão computacional até ferramentas para análise de modelos baseados em texto.

6. Também é possível fazer análises de artigos revisados por pares publicados em periódicos, embora os custos de acesso a esses dados possam ser
bastante altos.

7. Isso também pode ocorrer por meio do trabalho com entidades quase governamentais: ou seja, entidades com vínculos profundos com o governo que são integradas à formulação de políticas, como o National Physical Laboratory, no Reino Unido, ou entidades como o MITRE, nos EUA.

8. Observe que imaginamos que os governos analisariam regularmente o que está disponível comercialmente e não procurariam obter
acesso privilegiado a informações corporativas além das informações que um cliente-padrão poderia esperar obter. Não estamos defendendo que o
o governo atinja os objetivos de medição obtendo acesso privilegiado à propriedade intelectual interna.

9. Notavelmente, o próprio projeto “Gender Shades” baseou-se em um conjunto de dados e em uma metodologia analítica desenvolvida anteriormente pelo Instituto Nacional de Normas e Tecnologia (NIST), destacando como o investimento do governo em medição pode desbloquear o
trabalho subsequente no meio acadêmico e em outras partes da economia.

10. Observe que estamos defendendo que os governos testem os sistemas disponíveis comercialmente com base em conjuntos de dados pré-construídos, para que possam avaliar o desempenho desses sistemas, em vez de defender que os governos testem esses sistemas por meio da coleta de novos conjuntos de dados com potencial de violação de privacidade.

11. É claro que as medidas e os conjuntos de dados não serão suficientes para avaliar a ampla gama de possíveis impactos sociais dos sistemas de IA. Também serão necessárias pesquisas voltadas para a compreensão de como os sistemas interagem com as forças sociais. Entretanto, melhores medidas para avaliar as características socialmente relevantes da IA podem ser um ponto de partida útil para essas pesquisas: se a resiliência ou a justiça de um sistema for considerada particularmente baixa em determinados contextos, p. ex., isso pode ajudar a direcionar a atenção da pesquisa para uma melhor compreensão dos impactos qualitativos nesses contextos.

12. Por exemplo, um aumento drástico na intensidade computacional de um tipo de pesquisa seria útil para os órgãos de financiamento ficarem cientes, a fim de criar novos fluxos de financiamento para áreas técnicas promissoras. Da mesma forma, uma redução drástica no custo (e/ou
aumento na disponibilidade) de conjuntos de dados úteis pode indicar a comercialização e a implementação iminentes de determinadas tecnologias de IA.

13. Claro, deve-se tomar cuidado para garantir que essa análise respeite as importantes questões de privacidade.

Referências

Consulte as referências do documento original.

Tradução: Luan Marques

Link para o original