OpenAI lanzó un nuevo modelo de inteligencia artificial llamado GPT-4o, el cual revolucionarÔ el servicio que brinda ChatGPT.
Durante un evento realizado este lunes, Muri Murati, CTO de OpenAI, informó que GPT-4o posee una inteligencia equivalente al modelo GPT-4, pero ha sido mejorado para ampliar sus capacidades en el manejo de texto, audio y visión.
Esta mejora se traduce en una notable reducción en la latencia de las respuestas, permitiendo interacciones casi instantÔneas con los usuarios.
Se trata de una actualización que promete ser mĆ”s “inteligente y rĆ”pida” que sus predecesores, marcando un hito en la evolución de las tecnologĆas de aprendizaje automĆ”tico de la compaƱĆa liderada por Sam Altman.
ChatGPT. ¿Qué novedades trae GPT-4o?
Entre las nuevas funcionalidades destacadas, GPT-4o ofrece traducción instantÔnea. Los usuarios podrÔn pedir al modelo que traduzca conversaciones en tiempo real a diferentes idiomas, como del italiano al español, facilitando la comunicación entre hablantes de distintas lenguas.
También, este modelo tiene la capacidad de analizar imÔgenes. Los usuarios pueden mostrarle una foto o captura de pantalla y obtener información detallada sobre la misma, desde identificar modelos de coches hasta detectar errores en códigos de programación.
- Interacción por voz: Los usuarios podrÔn conversar con ChatGPT utilizando únicamente la voz, recibiendo respuestas de audio en un tiempo de respuesta similar al humano.
- AnĆ”lisis de imĆ”genes y vĆdeos: GPT-4o es capaz de procesar y mantener conversaciones sobre contenido visual compartido por los usuarios.
- Gratuito para todos: A diferencia de GPT-4, esta nueva versión estarÔ disponible de forma gratuita para todos los usuarios, tanto en dispositivos móviles como en ordenadores.
- Nuevas aplicaciones: OpenAI ha lanzado una nueva aplicación especĆfica para Mac y PC, ademĆ”s de la ya existente para iOS y Android.
¿Cómo funciona GPT-4o?
GPT-4o mantiene las funciones bÔsicas de ChatGPT, respondiendo a preguntas y solicitudes del usuario, pero ahora también a través de la voz. Durante la presentación, se demostró cómo la IA puede contar cuentos, adaptarse a las peticiones del usuario e incluso cambiar el tono de voz.
¿Qué implica la multimodalidad?
La multimodalidad permite a los usuarios interactuar con ChatGPT de forma mÔs natural y versÔtil, ya sea a través de texto, voz o imÔgenes. Esto abre un abanico de posibilidades para su uso en diferentes Ômbitos, desde la educación hasta el entretenimiento.
Se espera que GPT-4o ayude a mantener a ChatGPT a la cabeza del mercado de chatbots, impulsando su crecimiento y uso. AdemĆ”s, se rumorea que OpenAI podrĆa estar negociando con Apple para integrar esta tecnologĆa en Siri, el asistente de voz de los iPhone.
¿CuÔndo estarÔ disponible?
El modelo GPT-4o estarĆ” disponible para todos los usuarios de ChatGPT, incluyendo aquellos que usan la versión gratuita. Esto democratiza el acceso a lo Ćŗltimo en tecnologĆa de IA, permitiendo a un mayor nĆŗmero de personas y empresas beneficiarse de estas avanzadas capacidades.
¿Por qué se llama GPT-4o?
A travĆ©s de su sitio web, Open AI seƱala que la o es de Omni. Al respecto, la compaƱĆa lĆder en Inteligencia Artificial seƱala:
GPT-4o (“o” por “omni”) es un paso hacia una interacción humano-computadora mucho mĆ”s natural: acepta como entrada cualquier combinación de texto, audio e imagen, y genera cualquier combinación de salidas de texto, audio e imagen.
Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo cual es similar al tiempo de respuesta humano (se abre en una nueva ventana) en una conversación.
Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en otros idiomas, siendo ademÔs mucho mÔs rÔpido y 50% mÔs económico en la API. GPT-4o es especialmente mejor en la comprensión de visión y audio en comparación con modelos existentes.