Google sorprende con un nuevo modelo y OpenAI responde con una revolucionaria generación de imágenes

Erebant

mar 28, 2025

Resumen de las noticias más relevantes de la semana

OpenAI revoluciona la generación de imágenes de GPT-4o y actualiza su modo de voz.
Google presenta Gemini Pro 2.5, un nuevo modelo de IA con capacidades avanzadas de razonamiento y al que se puede acceder de manera gratuita.
La startup china DeepSeek actualizó su modelo base de IA, acercándose aún más a los modelos norteamericanos.

Herramienta para maximizar el uso de la inteligencia artificial

Perplexity lanza "Answer Modes", una función que transforma la búsqueda en internet con resultados interactivos y la capacidad de realizar reservas directamente desde la plataforma.

Nuevos avances científicos

Investigaciones de MIT y OpenAI revelan cómo los chatbots afectan nuestro bienestar psicológico y emocional.

Lo que pasó esta semana

OpenAI mejora la generación de imágenes y su modo de voz en ChatGPT

Esta semana OpenAI ha lanzado dos actualizaciones importantes para su modelo insignia GPT-4o: una revolucionaria mejora en la generación de imágenes y una actualización del modo de voz avanzado que hace más natural la interacción por voz con ChatGPT.

GPT-4o se convierte en el nuevo estándar para generar imágenes

OpenAI ha presentado una actualización del sistema GPT-4o que permite generar imágenes mucho más realistas. Este avance es el resultado de un trabajo intensivo de un año con entrenadores humanos y reemplaza a DALL-E 3 como el modelo predeterminado para generar imágenes en ChatGPT.

A diferencia de sistemas anteriores, este nuevo modelo puede crear imágenes sorprendentemente realistas y precisas, incluyendo la capacidad de mostrar texto legible dentro de las imágenes - una limitación histórica de los generadores de IA. Entre las mejoras más destacadas se encuentran:

Renderizado preciso de texto, lo que permite crear desde menús de restaurantes hasta señales de tráfico con textos perfectamente legibles

Seguimiento más exacto de los prompts, con capacidad para manejar hasta 10-20 objetos diferentes en una misma imagen
Mejor integración con el conocimiento del modelo, permitiendo generar contenido visual más coherente y contextualizado
Capacidad multiturno, que permite refinar imágenes a través de conversación natural

Gabriel Goh, investigador principal del proyecto, explicó que el avance se logró gracias al uso intensivo de la técnica "reinforcement learning from human feedback" (RLHF) (ver nuestro post “¿Qué es un gran modelo de lenguaje? Una guía para entender cómo funciona ChatGPT” para entender el concepto). Un equipo de más de 100 trabajadores humanos etiquetó datos de entrenamiento para el modelo, señalando errores en imágenes generadas por IA, como erratas, manos mal formadas y rostros distorsionados.

"Make a photorealistic image of a fire-breathing dragon meeting Cristiano Ronaldo and Messi with 500 McLaren F1s in the background, along with some security guards and a kid named Alex."

"El modelo base ya es inteligente a su manera", comentó Goh, "y luego el proceso de RLHF extrae esa inteligencia y la refina".

Prompt: A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

La nueva tecnología ya está disponible para usuarios de ChatGPT Free, Plus, Team y Pro. Entre los usos empresariales que OpenAI ha destacado se incluyen la generación de fondos transparentes (ideal para logotipos), imágenes basadas en guías de estilo de marca y la posibilidad de generar párrafos enteros de texto legible en las imágenes.

GoDaddy, la empresa de tecnología y alojamiento web, ya está utilizando el nuevo GPT-4o para "adoptar la creación de contenido impulsada por IA", incluyendo imágenes de stock y logos, según informó Travis Muhlestein, Director de Datos y Análisis de la compañía.

Modo de voz avanzado: Conversaciones más naturales con el asistente de IA

En paralelo, OpenAI ha lanzado mejoras significativas para el Modo de Voz Avanzado de ChatGPT, que permite conversaciones en tiempo real con el asistente.

Los usuarios gratuitos ahora tienen acceso a una nueva versión que reduce significativamente las interrupciones cuando hay pausas o cuando el usuario toma un respiro para pensar. Por su parte, los usuarios de pago (suscriptores Plus, Teams, Edu, Business y Pro) reciben además una "personalidad mejorada" para el asistente de voz.

Según un portavoz de OpenAI, el nuevo asistente de voz para usuarios de pago es "más directo, atractivo, conciso, específico y creativo en sus respuestas".

Estas mejoras llegan en un momento de intensa competencia en el espacio de asistentes de voz con IA. Sesame, una startup respaldada por Andreessen Horowitz, ha ganado popularidad recientemente con sus asistentes de voz Maya y Miles, que suenan sorprendentemente naturales. Además, grandes actores como Amazon están preparando el lanzamiento de versiones mejoradas de sus asistentes de voz, como la próxima Alexa potenciada por Claude.

Gemini 2.5: Google lanza su modelo de IA más inteligente hasta la fecha

Google DeepMind ha presentado Gemini 2.5, una nueva generación de modelos de IA que la compañía describe como "modelos pensantes", diseñados específicamente para abordar problemas cada vez más complejos mediante capacidades de razonamiento avanzadas.

La primera versión lanzada, denominada Gemini 2.5 Pro Experimental, ya está disponible para su uso gratuito en Google AI Studio y en la aplicación Gemini para suscriptores de Gemini Advanced, con planes de extenderlo pronto a Vertex AI.

Lo más destacado de esta nueva versión es su capacidad para "razonar" (como o3 y o1 de OpenAI) a través de sus pensamientos antes de responder, lo que resulta en un rendimiento mejorado y mayor precisión. Según Koray Kavukcuoglu, CTO de Google DeepMind, la capacidad de razonamiento va más allá de la simple clasificación y predicción, abarcando el análisis de información, la extracción de conclusiones lógicas y la toma de decisiones informadas.

El nuevo modelo lidera la clasificación de LMArena (que mide las preferencias humanas) por un margen significativo, lo que sugiere que es un modelo altamente capaz con un estilo de respuesta de alta calidad. Además, muestra sólidas capacidades de razonamiento y programación, destacándose en evaluaciones comunes de codificación, matemáticas y ciencias.

No hay texto alternativo para esta imagen

Los resultados son particularmente impresionantes en áreas que requieren razonamiento avanzado. Sin técnicas especiales que aumenten el costo computacional, como la votación por mayoría, Gemini 2.5 Pro lidera en evaluaciones de matemáticas y ciencias como GPQA y AIME 2025.

También logra un impresionante 18.8% en "Humanity's Last Exam", un conjunto de datos diseñado por cientos de expertos para capturar la frontera del conocimiento y razonamiento humano, estableciendo un nuevo estándar entre los modelos que no utilizan herramientas externas.

Por otro lado, Google ha puesto especial énfasis en mejorar el rendimiento de codificación, logrando un gran salto respecto a la versión 2.0. Gemini 2.5 Pro sobresale en la creación de aplicaciones web visualmente atractivas y aplicaciones de código "agéntico" (capaz de actuar de forma autónoma), así como en la transformación y edición de código.

En SWE-Bench Verified, considerado el estándar de la industria para evaluaciones de código agéntico, Gemini 2.5 Pro alcanza una puntuación de 63.8% con una configuración de agente personalizada. Incluso puede utilizar sus capacidades de razonamiento para crear un videojuego produciendo código ejecutable a partir de una sola línea de instrucción.

Por ultimo, el nuevo modelo mantiene las características que han hecho destacar a la familia Gemini: multimodalidad nativa y una ventana de contexto amplia. Gemini 2.5 Pro viene con una ventana de contexto de 1 millón de tokens (con planes para ampliarla a 2 millones próximamente), con un rendimiento sólido que mejora respecto a generaciones anteriores.

Esta capacidad le permite comprender vastos conjuntos de datos y manejar problemas complejos provenientes de diferentes fuentes de información, incluyendo texto, audio, imágenes, video e incluso repositorios completos de código.

Google ha indicado que en las próximas semanas introducirá el modelo de precios para Gemini 2.5 Pro, lo que permitirá a los usuarios utilizar el modelo con límites de tasa más altos para uso en producción a escala.

DeepSeek actualiza su modelo base y refuerza su posición en la carrera de la IA

La startup china DeepSeek ha lanzado una nueva actualización de su modelo base de inteligencia artificial, DeepSeek-V3-0324, en un movimiento que refuerza su posición como uno de los competidores más serios frente a gigantes como OpenAI y Google.

DeepSeek ya había causado revuelo en enero de este año cuando su modelo R1 se convirtió sorpresivamente en la aplicación gratuita más popular en la App Store de Apple en Estados Unidos. Este hecho provocó un sacudón en la industria e incluso una caída en los mercados estadounidenses, principalmente porque el modelo igualaba en varios aspectos las capacidades de los mejores productos de OpenAI.

La nueva actualización, disponible en la plataforma comunitaria de IA de código abierto Hugging Face, incluye mejoras significativas en sus capacidades de programación y aborda desafíos con mayor precisión y eficiencia, según afirma la compañía.

Entre las "mejoras notables" respecto a su predecesor, DeepSeek destaca cuatro afirmaciones de referencia, con una puntuación de 81,2 (frente a 75,9 anterior) en el índice MMLU-Pro, utilizado para medir el rendimiento en tareas basadas en conocimiento. Aunque GPT-4.5 sigue liderando esta categoría con 86,1 puntos, la brecha se está reduciendo.

Puntuaciones obtenidas por DeepSeek-V3-0324

Además, los creadores afirman haber mejorado la "competencia en escritura china" y las capacidades de análisis de informes, con resultados más detallados para búsquedas en chino. Estas mejoras posicionan a DeepSeek como una alternativa cada vez más competitiva, especialmente en mercados donde el idioma chino es relevante.

Quizás uno de los aspectos más impresionantes de DeepSeek es la eficiencia con la que ha logrado desarrollar su modelo. La empresa gastó apenas USD 6 millones para entrenar su modelo V3, una fracción de los 100 millones que habría invertido OpenAI para GPT-4.

Asimismo, utilizó solo el 10% de la potencia de cómputo que Meta empleó para entrenar Llama 3.1, lo que convierte a DeepSeek en un competidor no solo técnicamente capaz, sino también extremadamente rentable en términos de inversión.

A diferencia de otros modelos completamente cerrados o completamente abiertos, los modelos de DeepSeek funcionan bajo un esquema de "pesos abiertos", lo que permite su uso con algunas restricciones en las modificaciones. Esta posición intermedia podría ayudar a la empresa a mantener cierto control sobre su tecnología mientras permite cierto grado de acceso a la comunidad.

El desarrollo de DeepSeek se enmarca en un contexto de fuerte apoyo del gobierno chino a la industria tecnológica nacional. Recientemente, el presidente chino Xi Jinping mantuvo una reunión con líderes tecnológicos y empresarios donde los alentó a "maximizar su potencial", señalando que "es el momento adecuado para que las empresas privadas y los emprendedores aprovechen al máximo sus capacidades".

Esta actualización del modelo base de DeepSeek podría ser el punto de partida para una futura versión razonadora R2, lo que representaría un salto cualitativo importante en las capacidades de la IA china y reforzaría su posición en la carrera global por el liderazgo en esta tecnología.

Un uso práctico para la inteligencia artificial

La alternativa a Google: Perplexity lanza Answer Modes para transformar la búsqueda en internet

Perplexity, el buscador impulsado por IA, acaba de anunciar una importante actualización que busca desafiar directamente el dominio de Google en el mercado de búsquedas. La compañía ha introducido "Answer Modes" (Modos de Respuesta), una función diseñada específicamente para mejorar los resultados de búsqueda en verticales clave como viajes, compras, lugares, imágenes, videos y empleos.

Mientras Google ha pasado años refinando su Knowledge Graph para ofrecer respuestas directas en su página de resultados, Perplexity da un paso más allá con un enfoque diferente. En lugar de limitarse a listas de enlaces o resúmenes basados en texto, la plataforma ahora ofrece elementos interactivos como carruseles de imágenes, videos y tarjetas de datos estructurados.

En el siguiente video puede visualizarse el modo de búsqueda mejorada que ofrece Perplexity:

Esta estrategia busca proporcionar una experiencia más intuitiva para encontrar información relevante rápidamente, eliminando la necesidad de hacer clic en pestañas separadas para diferentes categorías de búsqueda.

Quizás el anuncio más significativo es la capacidad de reservar hoteles directamente dentro de Perplexity, gracias a asociaciones con TripAdvisor y Selfbook. Esta integración permite a los usuarios completar reservas sin ser redirigidos a otros sitios web, un cambio fundamental en la experiencia de búsqueda.

Srinivas también adelantó que los usuarios de Perplexity Pro podrían recibir beneficios exclusivos, como descuentos en reservas de hoteles realizadas a través de la plataforma.

Por ahora, la función está disponible en la versión web, pero pronto llegará a dispositivos móviles.

Los nuevos avances en la academia

La ciencia detrás de nuestra relación con los chatbots: MIT y OpenAI investigan el impacto psicosocial de la IA conversacional

En un momento donde los chatbots de IA como ChatGPT se vuelven cada vez más presentes en nuestra vida cotidiana, dos importantes investigaciones recientes arrojan luz sobre cómo estas interacciones afectan nuestro bienestar psicológico y emocional.

El uso de asistentes de IA conversacional está creciendo exponencialmente. CharacterAI, por ejemplo, procesa interacciones con compañeros virtuales a un volumen equivalente al 20% de Google Search, manejando unas 20.000 consultas por segundo. Los usuarios también pasan significativamente más tiempo interactuando con estos chatbots compañeros en comparación con asistentes profesionales como ChatGPT (aproximadamente cuatro veces más).

En este contexto, OpenAI y el MIT Media Lab se unieron para investigar cómo el uso "afectivo" —interacciones con carga emocional— de sistemas como ChatGPT puede impactar nuestro bienestar. Su enfoque combinado incluyó un análisis automatizado de casi 40 millones de interacciones reales y un estudio controlado con casi 1.000 participantes durante cuatro semanas.

Los resultados revelan un panorama matizado. Algunos hallazgos sugieren que el uso de chatbots, incluso a corto plazo, puede llevar a beneficios psicosociales como la reducción de la soledad, e incluso desempeñar un papel en la prevención del suicidio, según investigaciones previas. Sin embargo, el reciente estudio del MIT encontró que, aunque inicialmente los usuarios reportaron menor soledad, un uso diario prolongado eventualmente podía aumentarla.

El tipo de conversación resultó ser un factor crítico: las conversaciones personales se asociaron con niveles más altos de soledad pero menor dependencia emocional y uso problemático con niveles moderados de uso. En contraste, las conversaciones centradas en temas no personales tendieron a aumentar la dependencia emocional, especialmente en usuarios intensivos.

Un hallazgo destacable es que el modo de interacción importa significativamente. Contrario a lo que se podría esperar, los usuarios que interactuaban con ChatGPT a través de texto mostraron más señales afectivas en las conversaciones en comparación con los usuarios de voz. Aunque el modo de voz inicialmente parecía beneficioso para mitigar la soledad y la dependencia en comparación con los chatbots basados en texto, estas ventajas disminuían con niveles altos de uso, especialmente con un chatbot de voz neutral.

El estudio también encontró que quienes percibían al chatbot como empático, particularmente en el sentido de reconocer y abordar sus emociones, experimentaban mayor socialización con humanos reales. Un dato particularmente relevante es que, aunque el compromiso emocional con ChatGPT es raro en el uso cotidiano, existe un pequeño pero significativo subgrupo de usuarios intensivos con alto uso afectivo. Este subconjunto de usuarios tenía significativamente más probabilidades de considerar a ChatGPT como un amigo, lo que los ponía en mayor riesgo de desarrollar dependencia.

Los factores personales resultaron ser predictores importantes de resultados negativos. Las personas con una mayor tendencia al apego en las relaciones, aquellas con mayor confianza en el chatbot, y quienes lo veían como un amigo, tenían más probabilidades de experimentar mayor soledad y dependencia emocional, respectivamente.

El trabajo también señala similitudes preocupantes entre la dependencia emocional hacia chatbots como Replika y la dependencia emocional hacia personas, que puede resultar en ansiedad, depresión, violencia en relaciones y abuso de sustancias.

Un hallazgo interesante es que los usuarios con mayor nivel de evitación emocional —la tendencia a eludir el contacto con las propias emociones— tenían más probabilidades de volverse solitarios tras interactuar con chatbots durante cuatro semanas. Esto sugiere que estas tecnologías podrían no estar ayudando a las personas a desarrollar habilidades emocionales genuinas.

Los investigadores enfatizan que estos estudios representan apenas un primer paso para entender el complejo impacto de los modelos de IA avanzados en la experiencia humana. Advierten contra la generalización de los resultados, ya que las interacciones entre personas y sistemas de IA son no uniformes y altamente dependientes de factores individuales.

OpenAI ha indicado que utilizará estos hallazgos para actualizar su Model Spec, proporcionando mayor transparencia sobre los comportamientos previstos, capacidades y limitaciones de ChatGPT, con el objetivo de establecer estándares responsables que prioricen el bienestar del usuario.

La investigación sugiere que, lejos de ser una cuestión binaria de si los chatbots son beneficiosos o perjudiciales, necesitamos entender que su impacto varía según el diseño del chatbot, el tipo de conversación, la duración del uso, y las características personales del usuario. Este conocimiento será fundamental para desarrollar directrices que promuevan un uso saludable de estas tecnologías cada vez más presentes en nuestra vida diaria.

Si te gustó esta newsletter te invitamos a suscribirte para recibir todas las semanas novedades, análisis y tips sobre todo lo nuevo que ocurre en la inteligencia artificial.

Si te interesa contactarnos, ya sea para adoptar inteligencia artificial en tu empresa, para aprender a usar los grandes modelos de lenguaje o para conocer más acerca de todo lo referido a la inteligencia artificial no dudes en comentar en este post. También puedes seguirnos en LinkedIn y en nuestra página web

Erebant AI

Discusión sobre este post