Agentes de IA evoluem sozinhos, mostra estudo de Harvard – 01/06/2026 – Tec

News 1 de Junho, 2026

Pesquisadores da Universidade Harvard criaram agentes de perceptibilidade sintético que desenvolveram comportamentos sofisticados, uma vez que migrações e disputas por recursos, sem receber instruções humanas.

O estudo sugere que será verosímil um dia desenvolver sistemas capazes de gerar estratégias mais eficientes de forma autônoma e se conciliar a ambientes complexos sem treinamento explícito. Para outros especialistas, que não participaram do estudo, o problema é que, quanto mais independentes essas máquinas se tornam, mais difícil será prever e controlar suas ações.

O trabalho foi realizado por um grupo liderado por Aaron Walsman, pesquisador do Instituto Kempner, núcleo de pesquisas sobre perceptibilidade originário e sintético ligado a Harvard. O estudo foi publicado em 2025 no site arXiv, usado por cientistas para antecipar o resultado de pesquisas que ainda não passaram pelo processo de revisão exigido para publicação em periódicos acadêmicos.

Até agora, a forma mais generalidade de gerar sistemas de perceptibilidade sintético envolve treinamento com grandes volumes de dados. Modelos uma vez que o ChatGPT, da OpenAI, e o Claude, da Anthropic, são treinados por cientistas, engenheiros e especialistas em segurança de dados para reconhecer padrões em textos e erigir respostas. Depois, eles são ajustados por humanos para ser mais úteis e seguros.

O experimento de Harvard seguiu uma lógica dissemelhante. Não houve treinamento nem dados. Os cientistas criaram um envolvente virtual —uma grade do dedo semelhante a um tabuleiro de xadrez— e inseriram nele pequenos programas, chamados de agentes, com a requisito de que os que acumulassem mais recursos sobreviveriam e se reproduziriam.

Os agentes eram controlados por uma pequena rede neural sintético, capaz de funcionar uma vez que um cérebro, detectar informações do envolvente e escolher ações, mas não receberam instruções sobre o que deveriam fazer, nem tinham a expectativa de obter recompensas por comportamentos específicos.

Os pesquisadores observaram que, quando um agente se reproduzia, pequenas alterações aleatórias eram introduzidas na rede neural dos seus descendentes —o equivalente do dedo de uma mutação genética. Os mais eficientes sobreviveram e se reproduziram. Os menos eficientes desapareceram. Com o tempo, a população inicial se transformou.

O resultado do experimento lembra o processo de evolução biológica, mas a verificação tem limites. A natureza é composta por milhões de espécies, resultado de interações ecológicas complexas e bilhões de anos de história. O que os pesquisadores simularam é uma versão simplificada —mais próxima do que acontece com ratos numa gaiola de laboratório do que em ecossistemas reais.

“A evolução requer um tanto que se replica de maneira imperfeita, causando vantagem ou desvantagem na reprodução”, explica Claus Aranha, pesquisador de computação evolutiva e vida sintético da Universidade de Tsukuba, no Japão. “É exatamente o que acontece nesse tipo de simulação.” Pode levar séculos, ou milênios, para detectar resultados do processo de evolução biológica. No caso do experimento de Harvard, milhões de ciclos foram simulados em algumas horas.

Para Diogo Cortiz, doutor em tecnologias da perceptibilidade e design do dedo pela Pontifícia Universidade Católica de São Paulo (PUC-SP) e professor de perceptibilidade sintético na instituição, o estudo traz uma novidade ao propor maior liberdade para os agentes.

“A forma uma vez que os agentes aprendem a executar essa tarefa acontece por meio das interações consigo mesmos”, explica. O diferencial do estudo, segundo ele, consiste na dinâmica mais livre. Em vez de estabelecer um objetivo específico, os pesquisadores observaram uma vez que os agentes interagiam entre si ao longo do processo.

Com o tempo, sem nenhum comando, alguns agentes desenvolveram estratégias sofisticadas durante as simulações. Grupos passaram a fazer longas viagens no envolvente virtual entre regiões ricas em maná e fontes de chuva. Outros atacavam rivais para tomar recursos.

No laboratório da Universidade de Tsukuba, uma das alunas de Aranha criou robôs virtuais para aprender a percorrer um galeria. Eles acabaram voando. “Devido a uma interação inesperada entre a evolução e o simulador, o robô evoluiu a capacidade de voar, se aproveitando de um bug do programa”, diz o pesquisador.

No experimento de Harvard, o tamanho do envolvente se mostrou decisivo. Em mundos pequenos, comportamentos úteis surgiam, mas desapareciam com facilidade. Em mundos grandes, com dezenas de milhares de agentes, comportamentos mais elaborados se mostravam mais estáveis.

“Quando a população é maior, é menos provável que seja dizimada por um problema logo no início”, afirmou Walsman, o líder do grupo do Instituto Kempner. “O sistema tem mais tempo para se restabelecer e para que comportamentos interessantes se estabeleçam.”

Aranha diz que a evolução sintético poderá ser usada pelas empresas para resolver problemas muito definidos. A Google DeepMind, por exemplo, criou sistemas que testam combinações de código e selecionam as mais eficientes, o que ajuda a reduzir consumo de vontade de servidores.

A mesma empresa desenvolveu o AlphaGo Zero, uma IA que aprendeu a jogar Go —jogo de estratégia de origem chinesa disputado com peças pretas e brancas— sem qualquer oferecido humano, tornando-se o jogador mais poderoso da história.

Pesquisadores também tentam gerar sistemas capazes de gerar novidades sem término —noção sabido uma vez que open-endedness, ainda uma fronteira distante. “Em teoria, comportamentos cada vez mais sofisticados podem surdir com o tempo”, avalia Aranha. “Na prática, as simulações nunca realizam plenamente esse potencial.”

Para pesquisadores da espaço, o risco mais concreto não está em cenários de ficção científica. “Imaginar que IAs irão ocupar países por livre e espontânea vontade é tão sem razão quanto pensar que as formigas vão tentar dominar a Terreno”, diz Danilo Vasconcellos Vargas, professor associado da Universidade de Kyushu e fundador da MiraiX, empresa criadora de jogos virtuais.

O problema maior é que os sistemas ganham autonomia e executam mais tarefas sem que seus usuários compreendam uma vez que as decisões dos agentes são tomadas. “Muito da perda de controle vai se dar porque a gente vai dar mais coisas para as máquinas fazerem e entender menos o que elas fazem”, alerta Vargas.

Folha