site de aposta ganha-O que torna a nova IA da OpenAI superinteligente? Ela atingiu capacidade humana? Entenda

site de aposta ganha

Modelo o3 teve notas surpreendentessite de aposta ganhatestes feitos pela ARC Challenge, mas resultados são contestados

João Pedro Adania

23 dez 2024 - 22h28

(atualizadosite de aposta ganha24/12/2024 às 07h23)

Exibir comentários

Logo da OpenAI 20/05/2024 REUTERS/Dado Ruvic/Ilustração

Foto: Reuters

site de aposta ganha de 2024-12-25:Temos os melhores relatórios de previsão, você está convidado a participar

Os "12 dias de OpenAI" terminaram na sexta, 20, com o anúncio de uma inteligência artificial (IA) que raciocina, calcula e programa igual - ou melhor - do que os humanos, o OpenAI o3. O lançamento do modelo foi além de uma simples atualização (do o1 para o3) de modelo e abriu a discussão se a nova IA atingiu o status de AGI (inteligência artificial geral,site de aposta ganhatradução livre), um tipo de sistema com capacidade sobre-humana que existe apenas na ficção científica.

A novidade, que contrário da família "GPT" focasite de aposta ganharaciocínio lógico, matemática e programação, por enquanto está nas mãos pesquisadores de segurança porque "exibe sinais de avanços poderosos" e só deve chegar ao público no começo de 2025.

Mas afinal, o que o modelo o3 da OpenAI realmente faz? Em testes que medem a performance de modelos de inteligência artificial (IA)site de aposta ganhasituações sem treinamento, o o3 superou muito seus antecessores, nos quais os modelos da série o1 tiveram pontuações entre 8% e 32%. Em tarefas de engenharia de software e programação, ele alcançou, respectivamente, 71,7% de precisão e 2727 de score. Humanos com alto score neste teste, considerados "mestres da programação", costumam ter nota de 2.400. Humanos "especialistassite de aposta ganhaprogramação" têm nota entre 1400 e 1999. Isso significa que a companhia otimizou a arquitetura do o3 ao nível que problemas complexos são resolvidos com uso mais eficiente de recursos computacionais.

Outras referências, comosite de aposta ganhabenchmark matemático, também foram superadas pelo o3, que atingiu 25,2% de precisão contra 2% dos modelos anteriores. Ou seja, houve melhoria de mais de 10 vezes na compreensão e resolução de exercícios, teóricos ou práticos, de lógica, álgebra, cálculo e geometria.

Porém, o que de fato a empresa destacou foi a pontuação do teste que avalia a capacidade de raciocínio e abstração: o ARC-AGI. Nessa avaliação, um conjunto de tarefas são realizadas para avaliar a habilidade de uma IAsite de aposta ganharesolver problemas de raciocínio abstrato e generalização, duas características essenciais para sistemas que buscam se aproximar da AGI. As tarefas são baseadassite de aposta ganhagrades (grids) com padrões inferidos e aplicados. Cada tarefa tem um conjunto de exemplos (pares entrada-saída ou input e output) que mostram como uma operação deve ser feita. O desafio central é que as regras não são fornecidas de maneira explícita, a IA deve escolhe-las e aplicá-las por conta própria.

A nota oficial foi de 75,7%, mas uma extraoficial registrou score de 87,5% no uso eficiente de recursos computacionais. A segunda nota não foi reconhecida porque a empresa não cumpriu todos os critérios da prova. Para comparação, humanos têm,site de aposta ganhageral, 84% de pontuação no mesmo teste e desde a criação do ARC Challenge a marca de 85% - aliados ao cumprimento do todas as regras - sempre foi suficiente para vencer o prêmio de US$ 600 mil.

De qualquer maneira, essas métricas serviram para mostrar a potência dez vezes superior do lançamentosite de aposta ganhacomparação aos modelos da série o1. A restrição de custo nos testes exigia que as soluções devessem ter o valor máximo de US$ 100 mil na soma de processamento de hardware (como GPUs ou TPUs) e energia consumida para executar todas as tarefas. O custo computacional da conquista foi de aproximadamente US$ 20 para cada tarefa de quebra-cabeça visual, o que atendia ao limite da competição. Porém, no teste 'privado' e mais difícil, o limite era US$ 0,10 por tarefa, valor que a OpenAI não atingiu.

Todas as conquistas anunciadas estão apoiadas na competição realizada pela ARC Challenge. Em resumo, ela usa um conjunto de tarefas para avaliar a habilidade de uma IA sem treinamento prévio.

Portanto, é certo afirmar que a OpenAI o3 é AGI?

A OpenAI afirma que sim e justifica a resposta na capacidade de adaptação e aprendizado alcançada pelo modelo nos testes.

Porém, críticos mais duros da empresa comandada por Sam Altman dizem que não. Segundo Mehul Gupta, CEO da SoCheers, foram três as principais limitações que impediram o ARC-AGIsite de aposta ganhadeterminar se um sistema é AGI de fato: o escopo da avaliação; a especificidade da tarefa; e a compreensão semelhante à humana. Em suma, O ARC-AGI não compreende fatores humanos essências, como criatividade, adaptabilidade e sentimento.

Gary Marcus, professor da New York University e CEO da Geometric Intelligence, disse que o testesite de aposta ganhaque a OpenAI o3 foi submetido não é adequado para determinar se uma IA é ou não AGI. "Fatores críticos como factualidade, princípio da composicionalidade e bom senso nem sequer são abordados", escreveusite de aposta ganhaseu blog.

Outra ponderação de Marcus indica que resultados importantes de testes além dos realizados pela ARC não foram divulgados. "O trabalho do MIT (Massachusetts Institute of Technology) e muitos outros não foram mostrados, fazendo com que o avanço relativo ao campo parecesse muito maior do que realmente é".

"O problema não foi a tarefasite de aposta ganhasi, ou mesmo como ela foi administrada, mas está na impressão que a OpenAI transmitiu e que deixou muitas pessoas acreditando que foi mostrado mais do que realmente foi", diz Marcus.

A avaliação encontrou ressonância até no criador do teste ARC e engenheiro do Google, François Chollet, que afirmou que a melhor coisa teria sido apresentar dados para o "modelo básico" sem pré-treinamento, ou seja, um sistema que recebeu apenas os dados específicos do teste, sem ter aprendido previamente com outros conjuntos de dados ou tarefas relacionadas. Altman não deixou explícito se houve ou não treinamento prévio com questões do ARC-AGI. Do ponto de vista científico, testar um modelo básico sem pré-treinamento ajuda a isolarsite de aposta ganhacapacidade de generalização e raciocínio puro, o que que garante avaliação rigorosa da capacidade do modelosite de aposta ganharesolver tarefas do ARC-AGI.

"Embora o novo modelo seja muito impressionante represente um grande marco no caminho para a AGI, não acredito que o que foi apresentado seja realmente AGI porque ainda há um bom número de tarefas muito fáceis que o o3 não consegue resolver", diz Chollet.

Mike Knoop, organizador do ARC Challenge, avaliou que uma tarefa chave para determinar o selo AGI no OpenAI o3 não foi cumprida. O modelo não conseguiu resolver mais de 100 tarefas de quebra-cabeças visuais.

Então o que a pontuação significa?

A pontuação alta do modelo o3 acontecesite de aposta ganhaum momentosite de aposta ganhaque pesquisadores de IA e a indústria da tecnologia preveem um ritmo lento de progresso nesses sistemas. O avançosite de aposta ganhaIA foi guiado, nos últimos anos, pela Lei da Escalabilidade, que sugere que os modelos de IA melhoramsite de aposta ganhaproporção ao aumento nos dados, parâmetros e poder computacional. A própria OpenAi é exemplo, já que o GPT-3 e o GPT-4 se beneficiaram desse princípio, e tiveram avanços notáveis com treinamento e infraestrutura.

O o3, então, representa uma mudança porque focasite de aposta ganhaeficiência e raciocínio avançado,site de aposta ganhavez de escalar modelos. Embora a OpenAI não tenha vencido o ARC Challenge, o resultado indica que há espaço para evoluçãosite de aposta ganhabreve, segundo François Chollet.