Vídeo de lançamento da nova versão do GPT mostra tecnologia multimodal que entende entradas de voz, imagem e vídeo e possui latência de 0,25 segundos. GPT 4o é concorrente direto do Co-Pilot da Microsoft.
caça niquel liberado de :Temos os melhores relatórios de previsão, você está convidado a participar
Assista abaixo o vídeo de lançamento da nova versão do GPT, vale a pena assistir a partir do minuto 10. Sobre todos os outros demoscaça niquel liberadoredes sociais, vai ser um pouco mais do mesmo.
4o significa Omni. O novo modelo é multimodal, como o Gemini do Google e lançamentos recentes de outros concorrentes, o que significa que ele nativamente entende entradas (inputs) de voz, imagem e vídeo, sem precisar de 'conversores'. Estes já existiam, mas exigiam algum trabalho para equilibrar a capacidade de APIs diferentes.
Ele também traz um tempo de reação para voz inédito (chamamos de latência), ao redor de 0,25 segundos, contra 1-2 segundos de qualquer tecnologia que tínhamos anteriormente.
Essa latência é notável porque nesse curto espaço de tempo o modelo precisa entender a voz do interlocutor, processar a intenção, a resposta e sintetizar uma voz simpática. Parece evidente, até pelas palavras da Mia Murati agradecendo a Nvidia, pois havia placas de processamento dedicadas nesse demo e vai ser difícil reproduzir essa mesma velocidade nos modelos comerciais, mas é impressionante ainda assim.
A versão desktop, que consegue 'enxergar' a tela do usuário, é concorrente direto do Co-Pilot da Microsoft. O que evidencia um pouco mais a tensão que neste momento cresce entre as empresas, e parece ter resultados melhores que a versão do sócio gigante, que até agora gerou menos valor do que prometeu.
Publicidade