OpenAI vs Google: así son GPT-4o y Gemini las nuevas inteligencias artificiales que hablan, ven y hasta imitan los sentimientos humanos

OpenAI ha presentado GPT-4o, un modelo de inteligencia artificial multimodal que puede ver, oír, hablar y generar imágenes en tiempo real, con capacidades avanzadas de interacción humana. Por su parte, Google ha lanzado el proyecto Astra, integrando la IA en sus servicios y presentando las gafas inteligentes con Gemini. Estas innovaciones prometen transformar la forma en que interactuamos con la tecnología.

“Her”. Con solo tres letras, una palabra, Sam Altman resumía en la red social X el lanzamiento con el que este lunes su compañía volvía a revolucionar el mundo de la inteligencia artificial. Con este escueto mensaje, el CEO de OpenAI se refería, sin duda, a ‘Ella’, la IA; personificando algo que hasta ahora identificábamos como un ente artificial. Pero sobre todo, Altman hacía referencia a ‘Her’, la película de Spike Jonze en la que su protagonista, magistralmente interpretado por Joaquin Phoenix, se enamora de su asistente virtual, una inteligencia artificial empática y sensual, a la que pone voz Scarlett Johansson. Algo que hace a penas una década era ciencia ficción, se convirtió este lunes en realidad.

En la presentación, sobre un escenario convertido en un salón estilo ‘Friends’, Mira Murati, Mark Chen y Barret Zopf, tres figuras destacadas de OpenAI, conversaron con GPT-4o, el nuevo modelo de IA, como si fuera un miembro más del equipo o un amigo. La demo no fue perfecta, hubo errores en la conversación, interrupciones y malentendidos. Cosas del directo. Pero lo realmente genial, lo que maravillo a los que asistieron a aquella charla, fue que la IA era capaz de darse cuenta de sus errores, corregirlos e incluso reírse de ellos.

Personificada en una voz capaz de hacer inflexiones, dramatizar su tono o incluso hablar como ‘imitando’ a un robot, GPT-4o poseía una latencia cercana a cero. Murati, Chen y Zopf la interrumpían sin problemas en una conversación fluida en la que la IA resolvía problemas matemáticos, contaba historias o traducía simultáneamente al italiano.

Interpretación de GPT-4o de una batalla entre Google y OpenAI por la supremacía de la IA en estilo pictórico del siglo XIX

H. A.

Tras la charla pudieron verse otros ejemplos como una IA dando una clase de matemáticas a un adolescente compartiendo la pantalla de su iPad, otro asistente al que le pedían que fuera sarcástico o incluso un vídeo en el que dos inteligencias artificiales hablaban entre ellas y cantaban. Al final de este artículo están todos estos vídeos.

Para lograr este prodigio atropomimético OpenAI ha entrenado un nuevo modelo multimodal capaz como ChatGPT de generar textos, pero que también puede ver, oír, hablar y generar imágenes. Lo han bautizado como GPT-4 Omni o GPT-4o haciendo referencia a su versatilidad y se trata de una IA igual de precisa en sus respuestas que su anterior versión -si no mejor- y mucho más rápida en su interacción con los humanos.

Otra de las novedades es que, a diferencia del modelo anterior, GPT-4o es gratuito para todo el mundo, aunque el número de interacciones del usuario con esta nueva IA es limitado y una vez alcanzado el límite el usuario volverá al modelo GPT-3.5.

Así es el proyecto Astra de Google y sus gafas con IA

La respuesta de Google: integración y unas gafas

Solo 24 horas después de que OpenAI asombrara al mundo con su nuevo modelo, llegó el turno de Google. La expectación era mucha y, tal vez por eso, el gigante tecnológico no sorprendió con su presentación tanto como su principal competidor. Google mostró su propio modelo multimodal bautizado como proyecto Astra. Una inteligencia con la que el usuario puede hablar y que, como GPT-4o, analiza imágenes de vídeo en tiempo real mientras charla con el usuario. Además de a través del ‘smartphone’, Google ha integrado esta IA en unas gafas inteligentes dotadas con cámaras para que Astra vea lo mismo que ve el usuario mientras lo comentan.

La mayor decepción de la presentación de Google fue que, a diferencia de OpenAI, Astra fue mostrado en un vídeo pregrabado y sus respuestas fueron menos naturales. Sin embargo, no hay que olvidar que Google cuenta con la fortaleza de su ecosistema, lo que le permite implementar su IA en servicios como YouTube, Gmail o Google Docs, algo que puede ser muy valioso para el usuario.

Esto, por ejemplo, permite a Gemini (la IA de Google) buscar en el correo del usuario todas las facturas del año y almacenarlas de forma automática en una carpeta en la nube, o visualizar un vídeo de YouTube de varias horas de duración, resumir los aspectos clave que trata e incluso responder a las preguntas del usuario sobre los temas que en él aparecen.

‘Coming soon’

Por el momento, OpenAI solo ha puesto a disposición de los usuarios la versión de chat a través de texto de GPT-4o y han asegurado que el resto de funcionalidades, como el habla o la visión en tiempo real, serán liberadas en las próximas semanas para los usuarios de pago. Google, por su parte, también ha retrasado la mayor parte de las novedades presentadas sin especificar fechas.

Con lo hasta ahora disponible, los usuarios ya han logrado cosas increíbles, como que el modelo programe un videojuego completo en segundos a partir de una simple captura de pantalla tomada del buscador de Google.

Muy pronto la IA será un compañero de viaje omnipresente con el que interactuar con lenguaje natural y que asistirá al usuario en todo lo que haga en su ordenador o en el mundo real.

Las inteligencias artificiales actuales ya pueden escribir, hablar, escuchar, ver y generar imágenes ~~mejor que~~ como un humano. El siguiente paso hacia la omnipotencia será que puedan actuar.

Conversaciones con la nueva GPT-4o

Un error y las posibilidades de interpretar sentimientos.

Así traduce la IA en tiempo real del inglés al italiano.

La inteligencia artificial dando clases de mates a un adolescente.

GPT-4o siendo sarcástica a petición del usuario.

Dos inteligencias artificiales hablando entre sí y cantando.

GPT-4o

H. A.

Características de GPT-4o

Capacidades Multimodales

GPT-4o, conocido como "Omni", es un modelo de IA multimodal que puede generar y procesar texto, imágenes y audio en tiempo real. Esta capacidad lo convierte en una herramienta versátil para diversas aplicaciones, desde la traducción de idiomas hasta la generación de contenido visual y auditivo.

Mejora en la Velocidad y Precisión

El modelo ofrece una latencia casi nula, lo que significa respuestas más rápidas y una interacción más fluida con los usuarios. Además, la precisión de sus respuestas ha mejorado significativamente, superando a sus predecesores en varios 'benchmarks' de rendimiento.

Soporte Multilingüe Mejorado

GPT-4o soporta más de 50 idiomas, cubriendo más del 97% de los hablantes a nivel mundial.

Acceso Gratuito y Funcionalidades Avanzadas

OpenAI ha decidido hacer GPT-4o gratuito para todos los usuarios, aunque con límites en el número de interacciones. Las funcionalidades avanzadas, como la generación de gráficos, el análisis de datos y la interacción con fotos, están disponibles para todos los usuarios, democratizando así el acceso a esta tecnología.

Gemini Advanced

H. A.

Características de Google Gemini 1.5 Pro

La mayoría de las características presentadas todavía no están disponibles ni tienen una fecha clara de lanzamiento.

Gemini en el buscador de Google

Gemini 1.5 Pro se introducirá directamente en el buscador de Google, permitiendo a la IA realizar búsquedas por nosotros. Utilizando su capacidad para rastrear información en tiempo real y sus avanzados sistemas de calidad, el asistente trabajará para encontrar los mejores resultados de manera eficiente y precisa. Esta funcionalidad permitirá una experiencia de búsqueda más intuitiva y personalizada.

Gemini en Google Workspace

A partir del próximo mes, Gemini estará disponible en la barra lateral de las herramientas de Google Workspace. Los usuarios encontrarán un botón con el icono de esta IA que les permitirá generar resúmenes rápidamente y recibir acciones recomendadas, como organizar recibos o ayudar en el análisis y segmentación de datos en las hojas de cálculo de Google. Esta integración busca mejorar la productividad y facilitar la gestión de tareas cotidianas.

Gemini en los móviles

La función 'Circle to search' se expandirá a un mayor número de usuarios, introduciendo mejoras significativas. Una de las nuevas características es Gemini Life, que permitirá llevar conversaciones en lenguaje natural con la IA, pudiendo incluso interrumpir al asistente mientras responde. Además, se añadirá soporte para la visualización en tiempo real de lo que sucede alrededor utilizando la cámara del smartphone, ofreciendo una experiencia más interactiva y envolvente.

Gemini en Gmail

En septiembre, Gmail contará con un botón de Gemini que permitirá generar resúmenes rápidos de correos electrónicos. Esta funcionalidad estará disponible de forma experimental, ayudando a los usuarios a gestionar su bandeja de entrada de manera más eficiente.

Gemini en la aplicación de fotos de Google

La aplicación de fotos de Google se actualizará para incluir nuevas funciones potenciadas por Gemini. Estas mejoras harán que la aplicación sea más útil y capaz de ofrecer recomendaciones personalizadas y organización automática de fotos.

Gemini Advanced

Disponible en Europa, Gemini Advanced utiliza el modelo Ultra 1.0 y destaca por su velocidad y capacidad para realizar tareas complejas. Desde la generación de código y razonamientos lógicos hasta la colaboración en proyectos creativos, Gemini Advanced supera a muchos de sus competidores, incluido ChatGPT-4. Esta versión está incluida en el plan más avanzado de Google One, que cuesta 21,99 euros al mes.

Gemini en Google Meet

La expansión de Gemini en Google Meet ahora soporta 68 idiomas, facilitando la comunicación global y mejorando la colaboración en reuniones virtuales.

Gemini 1.5 Pro y Gemini 1.5 Flash

Google también lanzó los modelos Gemini 1.5 Pro y Gemini 1.5 Flash, que son más rápidos y eficientes. Junto a ellos, se presentó el Proyecto Astra, una nueva concepción de modelos asistenciales impulsados por IA, diseñada para proporcionar soporte avanzado y personalización en tiempo real.

Interfaz renovada del motor de búsqueda de Google

La nueva búsqueda de Google mostrará todo organizado en una vista de IA (AI Overview). Aunque actualmente solo está disponible en Estados Unidos, se prevé su expansión a otras regiones próximamente, prometiendo una experiencia de búsqueda más estructurada y accesible.

Automatización de tareas en Google Workspace

Se anunciaron nuevas funciones de automatización para Google Workspace, incluyendo la posible integración de rutinas del asistente, lo cual resolvería una de las principales carencias para su uso en domótica. Estas mejoras permitirán a los usuarios automatizar tareas repetitivas y gestionar su tiempo de manera más eficiente.

Ocio y Cultura

Inteligencia artificial

OpenAI vs Google: así son GPT-4o y Gemini las nuevas inteligencias artificiales que hablan, ven y hasta imitan los sentimientos humanos

GPT-4o es el intento de OpenAI de dotar de oídos, voz, visión e, incluso, sentimientos a la IA. Google juega con la baza de integrarla en sus servicios: Gmail, Youtube e incluso el buscador.

La respuesta de Google: integración y unas gafas

‘Coming soon’

Conversaciones con la nueva GPT-4o

Características de GPT-4o

Características de Google Gemini 1.5 Pro

Etiquetas

La respuesta de Google: integración y unas gafas

Te puede interesar

‘Coming soon’

Conversaciones con la nueva GPT-4o

Características de GPT-4o

Características de Google Gemini 1.5 Pro

Etiquetas