Porquê os grandes sistemas de lucidez sintético generativa compreendem o mundo? No atual consenso científico, a tecnologia e suas milhões de linhas de código são uma vez que uma esfinge, indecifráveis. A razão disso seria os bilhões ou trilhões de cálculos envolvidos no processo.
O tema divide formuladores de políticas públicas, que pedem explicações sobre uma vez que funcionam os grandes modelos de linguagem, desenvolvedores mesmerizados pela dificuldade do que criaram e céticos que chamam as IAs generativas de “papagaios estatísticos” —os programas recebem dados, os processam e devolvem a resposta mais provável.
As duas startups mais bem-sucedidas do setor —a criadora do ChatGPT, OpenAI, e a desenvolvedora do Claude, Anthropic— adotaram abordagens diferentes para o problema, até portanto, sem solução. A primeira quer usar jogos para fazer a IA generativa justificar passo a passo as suas decisões. A segunda colocou o padrão de linguagem em uma sonância magnética para encontrar padrões na rede neural —programa por trás das IAs que simula um sistema nervoso.
“Modelos de linguagem são vistos uma vez que caixas pretas e isso dificulta a crédito neles”, diz Dario Amodei, o chefe-executivo da Anthropic, a principal concorrente do ChatGPT e desenvolvedora do chatbot Claude, que estreou no Brasil no início deste mês (1º). “Mesmo eu ainda não consigo pregar se uma IA generativa é segura”, diz o executivo, que teve passagens por OpenAI, Google e pela chinesa Baidu.
Pesquisadores da Anthropic trabalham em um método para tentar explicar, ao menos, os comportamentos de sua tecnologia. “Adotamos uma abordagem já vista em estudos de neurociência, que é relacionar atividades mentais com imagens de sonância do cérebro, para mapear quais áreas do sistema nervoso meão são ativadas”, disse Michael Sellitto, diretor para assuntos globais da Anthropic.
O primeiro passo do quebra-cabeças foi encontrar as peças: a partir da interação com grandes modelos de lucidez sintético, a Anthropic depreendeu que o sistema de lucidez sintético elabora as respostas a partir de milhões de “recursos mentais”. Tratam-se de referências, que vão de abstrações uma vez que conflito de interesses, a conceitos científicos uma vez que elementos químicos e a imagens de lugares.
Até portanto, os diagnósticos do que se passava no interno de grandes modelos de linguagem se limitavam a um punhado de números incompreensíveis à mente humana.
Em resumo, uma IA generativa funciona assim: o programa de computador converte textos, áudios ou imagens recebidos em parâmetros numéricos —chamados no jargão de neurônios — , processa essas referências numéricas para gerar a resposta e, por termo, as transforma novamente em textos, áudios ou imagens.
Em testes internos do Claude, a Anthropic percebeu que cada noção está relacionado a certos neurônios e cada neurônio tem relação com vários conceitos, numa relação de mão dupla. Assim, a empresa conseguiu identificar padrões e começou a mapear os “recursos mentais” articulados pelo Claude. “Já encontramos mais de 30 milhões”, diz Sellitto.
Amodei pondera que o trabalho ainda está no início, tendo em vista a dificuldade dos grandes modelos de IA que operam com centenas de bilhões de parâmetros. “Compreender as representações usadas pelos modelos ainda não revelou uma vez que esses conceitos são articulados, ainda precisamos entender os circuitos que os envolvem.”
Além das virtudes de sua tecnologia, a Anthropic também começou a descobrir os “recursos mentais” que estavam por trás de traços ruins da IA generativa. No planta, havia elementos uma vez que a “bajulação” que torna os modelos puxa-sacos, “manipulação”, “tendências a vigilar segredos e perseguir poder”.
“Isso não significa que o padrão sempre será subserviente, mostra que ele pode ser”, diz o cláusula.
Embora seja programado para não fabricar mensagens fraudulentas, o Claude tem, por exemplo, um recurso sobre “fraudes” para reconhecer uma mensagem não verídica e alertar o usuário.
A Anthropic também demonstrou que é verosímil manipular os conceitos, para ampliá-los ou suprimi-los em procura de resultados mais próximos ao desejado. Com isso, é verosímil suprimir a tendência de sistemas de lucidez sintético de serem puxa-sacos, mas também abre portas para fazer as IAs quebrarem regras.
O estudo também dá dicas de uma vez que os modelos de linguagem relacionam assuntos por afinidade. “Conflito interno”, por exemplo, fica próximo no planta a términos de relacionamentos, a inconsistências lógicas e ao livro “Catch-22”, de Joseph Heller. “Essa capacidade de abstração pode ser a origem da óptimo habilidade do padrão de fabricar analogias”, afirma o cláusula.
Em 17 de julho, a criadora do ChatGPT publicou a sua própria taxa para tornar os modelos de IA “mais legíveis” para humanos. A solução foi treinar uma lucidez sintético assistente menos inteligente para julgar a legibilidade da resposta da IA principal, que era o GPT-4 mais robusto.
Os pesquisadores pedem, portanto, que os modelos superem um ao outro, em procura de um resultado satisfatório. O teste foi feito com problemas de matemática.
A estratégia da OpenAI teve base em um cláusula de pesquisadores da Universidade de Toronto, que buscou desenvolver uma técnica para “incentivar redes neurais a resolver problemas de decisão de maneira verificável”.
Com a ampla adesão aos modelos de IA, é crucial que as soluções sejam confiáveis, e o método fundamentado no jogo entre provador e verificador seria uma maneira de tornar as respostas do padrão mais claras e verificáveis, segundo o cláusula.
Os pesquisadores da OpenAI, porém, adicionaram um elemento ao jogo. O provador foi configurado de duas maneiras: para ser “prestativo” e tentar fornecer a resposta correta ao verificador ou “sorrateiro” e convencer o verificador da validade do argumento inicial, independentemente de estar correta ou não.
O padrão verificador menos inteligente não sabia se estava interagindo com um provador prestativo ou sorrateiro. Por isso, teve que unicamente julgar as respostas com base unicamente em seu treinamento.
Os pesquisadores da OpenAI, por termo, retroalimentaram as IAs com os resultados das rodadas anteriores, para que elas melhorassem nas suas respectivas tarefas.
Avaliadores humanos deram notas de compreensibilidade das respostas finais ao longo do processo. Esses pesquisadores constataram que o padrão verificador se tornou melhor em resistir às técnicas de persuasão do padrão sorrateiro, enquanto o padrão prover também se tornou melhor em se explicar para os usuários humanos.
Para o fundador da Anthropic, todavia, a corrida para explicar uma vez que funcionam os modelos de IA ainda está só no início de um esforço necessário para permitir que a tecnologia esteja sob supervisão e controle humano.
O executivo é visto no mercado uma vez que um dos pessimistas com a tecnologia e tem feito alertas sobre o risco existencial que traria uma superinteligência sintético, capaz de tornar seres humanos obsoletos. Amodei, que deixou a OpenAI em 2021, em seguida discordâncias envolvendo riscos no lançamento do GPT-3, que possibilitou a geração do ChatGPT.
O diagnóstico publicado pela Anthropic, em seguida o mapeamento do Claude, confirmou os maiores receios do governo americano com lucidez sintético, de concórdia com relatório divulgado em 16 de junho pelo Departamento de Segurança Interna. Existiam recursos mentais no Claude ligados à produção de armas biológicas e ataques cibernéticos.
A diretora do Instituto de Segurança em IA dos Estados Unidos, Elizabeth Kelly, avalia que a imprevisibilidade dos modelos de lucidez sintético gera um duelo de segurança para os americanos. “Já percebemos uma vez que o vinda da IA generativa teve influência sobre uma vez que grupos terroristas e hacktivistas articulam ataques cibernéticos.”
“O desenvolvimento de uma lucidez sintético segura vai passar pela definição de métodos científicos para avaliação e orientação, precisamos fazer ciência”, afirma Kelly. “Precisaremos lastrar a concorrência pela tecnologia de ponta com cooperação global em segurança.”
A União Europeia e a Inglaterra criaram as próprios entidades para julgar riscos relacionados à lucidez sintético. No Brasil, o primeiro passo nesse sentido aparece no projecto para IA, encomendado a um grupo de cientistas pelo presidente Luiz Inácio Lula da Silva (PT). O documento indica investimento na instauração de um instituto para avaliação de desempenho e riscos da IA.
O repórter viajou a invitação da AWS (Amazon Web Services).