Uma lucidez sintético realista com uma voz macia e sedutora encanta e impressiona seus usuários humanos —flertando, contando piadas, realizando seus desejos e, por termo, conquistando-os.
Estou resumindo a trama do filme “Ela”, de 2013, no qual um introvertido solitário chamado Theodore, interpretado por Joaquin Phoenix, é seduzido por uma assistente virtual chamada Samantha, dublada por Scarlett Johansson.
Mas eu poderia muito muito estar descrevendo uma cena desta segunda-feira (13), quando a OpenAI, criadora do ChatGPT, mostrou uma versão atualizada de seu assistente de voz de IA em um evento em San Francisco.
O novo padrão da empresa, chamado GPT-4o (o “o” significa “omni”), permitirá que o ChatGPT converse com os usuários de uma maneira muito mais realista —detectando emoções em suas vozes, analisando suas expressões faciais e alterando seu próprio tom e regularidade dependendo do que o usuário deseja.
Se você pedir uma história para dormir, a IA pode encolher a voz para um sussurro. Se você precisar de conselhos de uma amizade atrevida, pode falar com um tom engraçado e sarcástico. O app até pode trovar se você quiser.
O novo recurso de voz, que os usuários do ChatGPT poderão inaugurar a usar gratuitamente nas próximas semanas, imediatamente gerou comparações com a Samantha, de “Ela”.
Sam Altman, CEO da OpenAI, que elogiou o filme, postou o título na rede social X posteriormente o proclamação de segunda, tornando a conexão praticamente solene.
Nas redes sociais, os usuários saudaram a chegada de um assistente de voz de IA que finalmente os entenderá, ou pelo menos fingirá que entende.
Em uma série de demonstrações ao vivo na segunda-feira, os funcionários da OpenAI mostraram as novas capacidades do ChatGPT. Um deles pediu para o ChatGPT ler uma história para ele —e depois lê-la novamente de forma mais dramática, usando a voz de um robô. “Iniciando voz robótica dramática”, respondeu.
Outro pediu para ele trovar “Parabéns pra Você”. O ChatGPT se saiu muito em ambas as tarefas, e também se saiu muito quando os funcionários pediram para ele servir porquê tradutor em tempo real entre idiomas.
Mas o recurso mais impressionante foi a maneira porquê a própria voz do ChatGPT mudou. Em um momento, era um soprano cantante. No próximo, mudou para um contralto melodioso.
Ele pausou para produzir efeito, riu de suas próprias piadas e adicionou frases de preenchimento porquê “hmm” e “vamos ver” para maior realismo. Ele soava mais humano do que alguns humanos que conheço.
Por anos, os assistentes de voz de IA foram limitados por sua incapacidade de captar nuances da conversa, porquê tom e afeto emocional.
As vozes sintéticas de IA, porquê as usadas por Siri e Alexa, tendem a ser planas e impessoais; elas soam da mesma forma, quer estejam dando a previsão do tempo de amanhã ou dizendo que seus cookies estão prontos.
E, porquê descobri recentemente quando passei um mês conversando com um grupo de “amigos” de IA, um grande problema com os modelos de voz de IA atuais é a velocidade. É difícil olvidar que você está falando com um robô quando cada resposta tem um tardança de três segundos.
A OpenAI resolveu o problema de latência dando ao GPT-4o o que é divulgado porquê “suporte multimodal nativo” —a capacidade de receber prompts de áudio e analisá-los diretamente, sem convertê-los primeiro em texto.
Isso tornou suas conversas mais rápidas e fluidas, a ponto de, se as demonstrações do ChatGPT estiverem corretas, a maioria dos usuários mal notará qualquer tardança.
Tudo isso resulta em uma experiência subjetiva muito dissemelhante. Se os assistentes de IA anteriores pareciam conversar porquê um bibliotecário incorruptível, o novo ChatGPT parece um colega de trabalho amigável e conversador (embora ocasionalmente diga besteiras —mas todos nós temos um assim, não é?).
Essas demonstrações, juntamente com outras notícias de IA dos últimos dias —incluindo relatos de que a Apple está em negociações com a OpenAI para usar sua tecnologia no iPhone e está preparando uma novidade versão da Siri baseada em IA generativa— sinalizam que a era do assistente de IA distante e impessoal está chegando ao termo.
Em vez disso, estamos recebendo chatbots modelados a partir da Samantha em “Ela” —com lucidez brincalhona, percepção emocional básica e uma ampla gama de modos expressivos.
Alguns usuários podem ser repelidos por eles. Mas muitos virão a amar e reputar a novidade geração de assistentes de IA —e alguns inevitavelmente se apaixonarão, assim porquê Theodore.
O pormenor mais revelador da prova de segunda-feira, em minha opinião, foi a maneira porquê os próprios funcionários da OpenAI começaram a conversar com o ChatGPT.
Eles o antropomorfizam implacavelmente e o tratam com deferência —frequentemente perguntando: “E aí, ChatGPT, porquê vai?”, antes de bombardeá-lo com perguntas.
Eles aplaudem quando ele acerta uma resposta difícil, da mesma forma que você torceria por uma gaiato. Um funcionário da OpenAI até escreveu “Eu senhoril o ChatGPT” em um pedaço de papel e mostrou para o chatbot pela câmera do celular. “Que fofo da sua segmento!”, respondeu a IA.
São especialistas experientes em IA que sabem muito muito que estão gerando previsões estatísticas de uma rede neural, e não conversando com um ser sensível. E segmento disso pode ser encenação.
Mas se os próprios funcionários da OpenAI não resistem a tratar o ChatGPT porquê um humano, será um mistério se o resto de nós fará o contrário?
Enfim, os usuários já estavam tentando enganar o ChatGPT para agir porquê um namorado mesmo antes dessa atualização. E meu experimento recente com amigos de IA me provou que a tecnologia necessária para produzir companheiros de IA realistas já existe, mesmo que a realização ainda não seja perfeita.
De certa forma, a escolha de modelar um chatbot inspirado na Samantha de “Ela” é estranha. O filme está longe de ser uma imagem utópica de companheirismo de IA, e termina —alerta de spoiler— com Theodore tendo o coração partido por Samantha.
Mas apesar da mensagem de recado do filme, não há mais volta. Depois o proclamação de segunda-feira, um funcionário da OpenAI escreveu, talvez de forma um pouco agourenta: “Vocês todos vão se gostar por isso.”