bet ú-Nova IA da OpenAI dá sinais de superinteligência e empresa convoca testes de segurança

bet ú

Startup encerra o ano com o OpenAI o3, segunda geração dabet únova família de modelos de inteligência artificial

Bruno Romani e Mariana Cury

20 dez 2024 - 17h15

(atualizado às 17h22)

Exibir comentários

bet ú de 2024-12-24:Temos os melhores relatórios de previsão, você está convidado a participar

A OpenAI deixou o seu maior anúncio para o fim. Na última das 12 lives que fezbet údezembro, a companhia anunciou o seu mais novo modelo, o OpenAI o3, sucessor do OpenAI o1. Ao contrário da família "GPT", a classe "o" é focadabet úraciocínio lógico, matemática e programação, e foi mostrada inicialmentebet úsetembro. Segundo a companhia, o o3 exibe sinais de avanços poderosos e, por isso, não foi disponibilizada inicialmente para o público, apenas para pesquisadores de segurança.

Ao contrário de outros grandes modelos de linguagem (LLMs), que tentam responder imediatamente a um comando, a família aborda os problemasbet úetapas, de forma parecida com aquilo que humanos fazem quando se deparam com tarefas complexas. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought).

Até aqui, LLMs melhoravambet úcapacidade de resposta apenas aumentando o tamanho dos dadosbet úque eram treinados - uma vez treinado, o sistema tenta responder o mais rápido possível, buscando a conexões mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos a uma resposta. Neste mês, o Google também apresentou a nova versão do Gemini, que apresenta recursos para raciocinar as respostas, algo que deve se tornar comum entre os maiores modelos de IA do mundo.

O curioso é que a OpenAI desistiu do nome "o2? para não causar confusão com a empresa de telecomunicação britânica "O2?.

Nos testes apresentados pela OpenAI, o o3 acertou 96,7% das questões das Olimpíadas de Matemática dos EUA contra 83% da o1. Já no GPQA Diamond, um teste com perguntas de nível PhD, a nova versão saltou 78% para 87,7%. No teste SWE-Bench Verified, que mede habilidadesbet úprogramação, o sistema atingiu a nota de 2727 - uma nota de 2400 já o classifica no 1% entre os programadores mais habilidosos do mundo.

Com isso, Sam Altman, CEO da companhia, afirmou que os testes atuais para medir a qualidade de sistemas de IA estão se esgotando - ou seja, as IAs estão próximas de aproveitamento de 100%. Assim, o campo da IA precisa de novas provas para verificar a capacidade dos sistemas. O executivo mostrou uma parceria com ARC-AGI, uma organização que cria testes inéditos para comparar a capacidade de inteligência de máquinas com humanos. No teste feito para avaliar se um sistema de IA aprende habilidades que não estavam presentes nos dados de seus treinamentos, o o3 atingiu uma nota de 87,5% quando configurada para poder computacional máximo. Isso acendeu uma luz amarela na empresa.

bet ú

Segurança vira conversa

Embora ainda não tenha alcançado o status de AGI (quando uma máquina tem capacidade cognitiva similar ou maior que a humana), os resultados no ARC-AGI indicam que o sistema avançou e que a classificação já pode ser alcançada pela IAbet úalgumas poucas situações. Especialistas, no entanto, divergem sobre a definição e mensuração. "Não há consenso que se possa mensuração de AGI com esses benchmarks - até para medir habilidades de humanos não há consenso sobre esses testes", explica Anderson Soares, coordenador do primeiro bachareladobet úInteligência Artificial da Universidade de Goiás (UFG).

Ainda assim, a OpenAI decidiu disponibilizar o sistema para testes com pesquisadores de segurança externos - os interessados devem se candidatar no site da companhia.

"Os avanços nas capacidades dos LLMs, como os demonstrados pelo o1 e o3, trazem riscos substanciais. À medida que os modelos ganham mais inteligência e autonomia, a escala de possíveis danos que podem ser causados pelas IAs por desalinhamento ou uso indevido aumenta drasticamente", disse a companhia. Assim, a companhia publicou um artigo no qual diz que criou uma técnica de "alinhamento de valores"bet úsistemas que usam técnicas de raciocínio.

Segundo a companhia, a técnica evita prompts prejudiciais e é mais permissiva com solicitações benignas.