IA da OpenAI passa em residência de medicina na USP – 17/09/2024 – Tec

O novo padrão de perceptibilidade sintético da OpenAI, o o1, acertou 82% das questões da prova qualificatória para o curso de residência na Faculdade de Medicina da USP e gabaritou a desafiadora seção de matemática do vestibular do ITA (Instituto Tecnológico de Aviação).

O padrão acertou 98 das 120 questões da prova da Fuvest para prosseguir os estudos em medicina. O resultado garantiria entrada a todas as residências de entrada direto, em que os alunos entram logo em seguida concluir a graduação, a termo de se especializarem.

O teste tem questões das cinco grandes áreas da medicina: clínica, cirurgia, pediatria, obstetrícia e ginecologia, além de medicina preventiva. De pacto com o perito em ensino em saúde Matheus Ferreira, que fez o teste, trata-se de um inspecção reptante por trabalhar com casos clínicos.

“É necessário fazer raciocínios em série para chegar à melhor escolha, usa muita imagem, se errar em uma segmento do manobra, compromete todo o resultado”, diz. São poucas as questões conceituais ou de “decoreba”, segundo Ferreira.

Também médico, o perito usou a API, um ducto de informação direta com a IA por meio de código de programação, para enviar 20 questões por vez ao o1, espargido internamente na OpenAI porquê projeto strawberry.

O padrão conseguiu o resultado surpreendente mesmo sem poder estudar imagens —diferentemente do GPT-4o, o o1 trabalha somente com texto, por enquanto. Também não faz buscas na internet.

Várias das questões trazem inspecção de imagem para estudo do candidato —em alguns casos a resposta também é uma figura. O GPT-4o, levando as imagens em consideração, acertou 91 questões.

Em vez de pensar em substituição dos médicos, Ferreira avalia que a tecnologia será uma utensílio útil de estudo para os recém-graduados que se preparam para a residência.

Para o perito, o o1 ainda tem um ponto fraco quando se trata de medicina: não dá referência, passo a passo, para seus argumentos. “Para ser uma epílogo reprodutível, precisamos entender tudo, conforme o método científico.”

Além da prova objetiva, que vale 90% do inspecção, os candidatos passam por uma temporada de avaliação de currículo e entrevista de peso equivalente a 10% do resultado final.

O fundador da empresa de software Stealth, Vinícius Soares, também testou o padrão. O duelo foi a notoriamente difícil prova de matemática do ITA.

Soares enviou ao o1 uma pergunta do inspecção de 2024 por vez. Eram 10 questões envolvendo conjuntos, funções, geometria, trigonometria e estatística —tudo em notação matemática, sem imagens. A IA acertou todas.

De pacto com o texto de divulgação da OpenAI, a tecnologia estaria entre os 500 melhores alunos nas olimpíadas de matemática dos Estados Unidos, e teria resultados equivalente aos candidatos a doutorado no país.

Circulam, por outro lado, no LinkedIn, imagens retratando que a IA continua a ter problemas com tarefas simples, porquê relatar letras.

Em um dos casos, os especialistas perguntaram quantos “r”s havia na termo “strawberry”. O padrão respondeu dois e justificou a resposta ao “r duplo” entre as duas últimas sílabas da termo.

Outrossim, o projeto strawberry, já disponível para os usuários pagantes do ChatGPT, requer mais processamento computacional, o que aumenta a demanda por data centers e robustez.

COMO FUNCIONA

A OpenAI não divulgou os detalhes técnicos por trás do salto de performance do o1. Alegou questões concorrenciais e de segurança da IA, porquê é geral na indústria da tecnologia.

Na prelo, se especula que o padrão seja capaz de dividir a tarefa em etapas, o que permitiria a solução de exercícios complexos —teóricos chamam a técnica de “masmorra de pensamento”.]

O projeto strawberry, ainda de pacto com a prelo internacional, teria sido a tecnologia que assustou o ex-cientista-chefe da startup, Ilya Sutskever. Uma das mentes por trás do ChatGPT, ele criou a própria empresa, a Superintelligence, com a proposta de produzir modelos seguros e já arrecadou US$ 1 bilhão em investimento.

Uma das poucas pistas que a OpenAI deu foi de que o padrão “pensa mais” e faz isso a partir de regras.

Em 17 de julho, a criadora do ChatGPT publicou um item sobre uma melhoria nos resultados de uma perceptibilidade sintético, obtidos com o auxílio de um jogo fundamentado em regras.

A solução foi treinar uma perceptibilidade sintético assistente menos inteligente para estimar a legibilidade da resposta da IA principal, que era o GPT-4 mais robusto.

Os pesquisadores pediram, logo, que os modelos superassem um ao outro, em procura de um resultado satisfatório. O teste foi feito com problemas de matemática —o grande trunfo do o1.

A estratégia da OpenAI teve base em um item de pesquisadores da Universidade de Toronto, que buscou desenvolver uma técnica para “incentivar redes neurais a resolver problemas de decisão de maneira verificável”.

Os pesquisadores da OpenAI, porém, adicionaram um elemento ao jogo. O provador foi configurado de duas maneiras: para ser “prestativo” e tentar fornecer a resposta correta ao verificador ou “sorrateiro” e convencer o verificador da validade do argumento inicial, independentemente de estar correta ou não.

O padrão verificador menos inteligente não sabia se estava interagindo com um provador prestativo ou sorrateiro. Por isso, teve que somente estimar as respostas com base somente em seu treinamento.

Os pesquisadores da OpenAI, por termo, retroalimentaram as IAs com os resultados das rodadas anteriores, para que elas melhorassem nas suas respectivas tarefas. Essa técnica é chamada aprendizagem de reforço

Avaliadores humanos deram notas de compreensibilidade das respostas finais ao longo do processo. Esses pesquisadores constataram que o padrão verificador se tornou melhor em resistir às técnicas de persuasão do padrão sorrateiro —o o1, por exemplo, consegue manifestar “eu não sei”.

Folha

COMO FUNCIONA

Relacionados

DeepSeek: IA que parece pensar é fetiche da vez – 10/02/2025 – Tec

IA: empresa de Musk busca investimentos de US$ 6 bi – 28/01/2024 – Tec

Trabalhadores da Samsung entram em greve na Coreia do Sul – 06/06/2024 – Mercado

Deixe um comentário Cancelar resposta