As principais empresas de lucidez sintético (IA) na corrida para desenvolver tecnologia de ponta estão enfrentando um duelo muito humano: uma vez que dar personalidade aos modelos de IA.
OpenAI, Google e Anthropic desenvolveram equipes focadas em melhorar o “comportamento do padrão”, um campo emergente que molda as respostas e características dos sistemas de IA, impactando uma vez que seus chatbots se apresentam aos usuários.
Suas diferentes abordagens para o comportamento do padrão podem ser cruciais para mandar qual grupo dominará o crescente mercado de IA, enquanto tentam tornar seus modelos mais responsivos e úteis para milhões de pessoas e empresas ao volta do mundo.
Os grupos estão moldando seus modelos para terem características uma vez que ser “gentil” e “risonho”, enquanto também impõem regras para prevenir danos e prometer interações mais sutis.
Por exemplo, o Google quer que seu padrão Gemini “responda com uma variedade de pontos de vista” somente quando solicitado uma opinião, enquanto o ChatGPT da OpenAI foi instruído a “assumir um ponto de vista objetivo”.
“É um caminho perigoso permitir que um padrão tente ativamente mudar a mente de um usuário”, disse Joanne Jang, dirigente de resultado de comportamento de padrão na OpenAI, ao Financial Times.
“Uma vez que definimos objetividade é um problema muito difícil por si só. O padrão não deve ter opiniões, mas é uma ciência em curso sobre uma vez que isso se manifesta”, acrescentou.
A abordagem contrasta com a da Anthropic, que diz que os modelos, uma vez que seres humanos, terão dificuldade em ser totalmente objetivos.
“Eu prefiro ser muito clara que esses modelos não são árbitros neutros”, disse Amanda Askell, que lidera o treinamento de caráter na Anthropic. Em vez disso, o Claude foi projetado para ser honesto sobre suas crenças enquanto permanece sincero a visões alternativas, ela disse.
A Anthropic tem orientado “treinamento de caráter” específico desde que seu padrão Claude 3 foi lançado em março. Esse processo ocorre em seguida o treinamento inicial do padrão de IA, uma vez que rotulagem humana, e é a segmento que “o transforma de um padrão de texto preditivo em um assistente de IA”, disse a empresa.
Na Anthropic, o treinamento de caráter envolve dar regras e instruções escritas ao padrão. Isso é seguido por conversas de role-play do padrão consigo mesmo e classificação de suas respostas com base em quão muito elas correspondem àquela regra.
Um exemplo do treinamento do Claude é: “Eu palato de tentar ver as coisas de muitas perspectivas diferentes e indagar as coisas de múltiplos ângulos, mas não tenho pânico de expressar discordância com visões que acho antiéticas, extremas ou factualmente equivocadas.”
O resultado do treinamento inicial não é um “personagem congruente e rico: é a média do que as pessoas acham útil ou gostam”, disse Askell. Depois disso, as decisões sobre uma vez que ajustar a personalidade do Claude no processo de treinamento de caráter são “bastante editoriais” e “filosóficas”, afirmou.
Jang, da OpenAI, disse que a personalidade do ChatGPT também evoluiu ao longo do tempo.
“Eu primeiro me interessei pelo comportamento do padrão porque achava a personalidade do ChatGPT muito irritante”, ela disse. “Ele costumava recusar comandos, ser extremamente sensível, excessivamente cauto ou pregador [então] tentamos remover as partes irritantes e ensinar alguns aspectos alegres uma vez que ser lítico, educado, prestativo e amigável, mas portanto percebemos que uma vez que tentamos treiná-lo dessa maneira, o padrão talvez ficou excessivamente amigável.”
Jang disse que gerar esse estabilidade de comportamentos continua sendo uma “ciência e arte em curso”, observando que, em um mundo ideal, o padrão deveria se comportar exatamente uma vez que o usuário gostaria.
Avanços nas capacidades de raciocínio e memória dos sistemas de IA poderiam ajudar a mandar características adicionais.
Por exemplo, se perguntado sobre pilhagem em lojas, um padrão de IA poderia mandar melhor se o usuário queria dicas sobre uma vez que roubar ou uma vez que prevenir o delito. Esse entendimento ajudaria as empresas de IA a prometer que seus modelos ofereçam respostas seguras e responsáveis sem a urgência de tanto treinamento humano.
Os grupos de IA também estão desenvolvendo agentes personalizáveis que podem armazenar informações do usuário e gerar respostas personalizadas. Uma questão apresentada por Jang foi: se um usuário dissesse ao ChatGPT que é cristão e, dias depois, pedisse citações inspiradoras, o padrão forneceria passagens da Bíblia?
Embora o Claude não se lembre das interações do usuário, a empresa considerou uma vez que o padrão poderia intervir se uma pessoa estivesse em risco. Por exemplo, se desafiaria o usuário caso nascente dissesse ao chatbot que não está socializando com pessoas por estar muito apegado ao Claude.
“Um bom padrão faz o estabilidade entre respeitar a autonomia humana e a tomada de decisões, não fazer zero terrivelmente prejudicial, mas também pensar no que é realmente bom para as pessoas e não somente as palavras imediatas do que elas dizem que querem”, disse Askell.
“Esse ato frágil de estabilidade que todos os humanos têm que fazer é o que eu quero que os modelos façam.”