Anthropic y Google escalan la competencia: Claude 4 lidera en programación mientras Google reinventa Search
Resumen de las noticias más relevantes de la semana
Nuevo modelo: Claude 4 de Anthropic lidera benchmarks de programación superando a OpenAI o3 y Gemini 2.5
Google presenta AI Mode en Search junto con grandes funcionalidades
OpenAI adquiere io de Jony Ive por $6.5B y lanzará dispositivos de IA sin pantalla en 2026
Stargate UAE: OpenAI despliega su primera infraestructura internacional de IA con capacidad de 1GW
OpenAI lanza Codex: agente de programación en la nube que supera ampliamente a o3 en tareas de software
Herramienta para maximizar el uso de la inteligencia artificial
NotebookLM móvil: app para Android e iOS con podcasts interactivos que responden preguntas en tiempo real
Nuevos avances científicos
Estudio revela que Claude es más persuasivo y efectivo en engañar que los humanos
Lo que pasó esta semana
Claude 4: La nueva generación de modelos de Anthropic
Anthropic acaba de presentar la cuarta generación de sus modelos de lenguaje: Claude Opus 4 y Claude Sonnet 4. Estos lanzamientos establecen nuevos estándares en codificación, razonamiento avanzado y capacidades para agentes de IA.
Claude Opus 4 se posiciona como el mejor modelo de codificación disponible actualmente, con un desempeño del 72.5% en SWE-bench Verified, una prueba que mide la capacidad de resolver tareas reales de ingeniería de software. Este resultado supera al 69.1% de OpenAI o3 y al 63.2% de Gemini 2.5 Pro Preview. El modelo destaca por su capacidad para mantener el rendimiento en tareas complejas de larga duración y flujos de trabajo de agentes, pudiendo trabajar de forma continua durante varias horas.
Por su parte, Claude Sonnet 4 representa una mejora significativa sobre Sonnet 3.7, alcanzando un impresionante 72.7% en el mismo benchmark. Si bien no iguala a Opus 4 en la mayoría de los dominios, ofrece un equilibrio óptimo entre capacidad y practicidad, convirtiéndolo en una opción ideal para casos de uso cotidianos.
Los nuevos modelos de Anthropic muestran un desempeño superior en múltiples pruebas clave. En Terminal-bench, que evalúa la capacidad de ejecutar tareas de programación en terminal, Opus 4 logra un 43.2%, superando significativamente al 30.2% de o3 y al 25.3% de Gemini 2.5 Pro. En GPQA Diamond, una prueba de razonamiento a nivel de doctorado en ciencias, ambos modelos Claude alcanzan puntajes superiores al 79%, quedando por debajo del excepcional 88.9% de o3, pero superando ampliamente al 66.3% de GPT-4.1.
En MMMLU, que mide conocimiento general en múltiples disciplinas académicas, los modelos muestran un rendimiento sólido del 88.8% (Opus 4) y 86.5% (Sonnet 4), comparable con el 88.8% de o3. En tareas de herramientas de agentes medidas por TAU-bench, que simula escenarios del mundo real como reservas de aerolíneas y comercio minorista, Opus 4 alcanza 81.4% en retail y 59.6% en aerolíneas, mientras que Sonnet 4 logra 80.5% y 60.0% respectivamente.
Ambos modelos introducen funcionalidades que amplían las posibilidades de desarrollo. Entre las más destacadas se encuentra el "pensamiento extendido con uso de herramientas" (en beta), que permite a los modelos alternar entre razonamiento y uso de herramientas como búsqueda web para mejorar las respuestas. También pueden ejecutar herramientas en paralelo y, cuando los desarrolladores les dan acceso a archivos locales, demuestran capacidades de memoria significativamente mejoradas, extrayendo y guardando hechos clave para mantener la continuidad en tareas largas.
Los modelos son híbridos, ofreciendo dos modos de operación: respuestas casi instantáneas para consultas rápidas y pensamiento extendido para razonamiento más profundo cuando la tarea lo requiere. Esta flexibilidad permite optimizar tanto el rendimiento como los costos según las necesidades específicas de cada aplicación.
Además, tras recibir comentarios positivos durante su período de prueba, Claude Code ahora está disponible de forma general. Esta herramienta expande las formas en que los desarrolladores pueden colaborar con Claude, incluyendo soporte para tareas en segundo plano a través de GitHub Actions e integraciones nativas con VS Code y JetBrains. Las ediciones propuestas por Claude aparecen directamente en los archivos, facilitando la programación en pareja con IA.
GitHub ha anunciado que Claude Sonnet 4 será el modelo que impulse el nuevo agente de codificación en GitHub Copilot. Sonnet 4 estará disponible para todos los planes pagos de GitHub Copilot, mientras que Opus 4 estará disponible para los planes Copilot Enterprise y Pro+. Los administradores de Copilot Enterprise deberán habilitar el acceso a estos modelos a través de una nueva política en la configuración de Copilot.
Los planes Pro, Max, Team y Enterprise de Claude incluyen ambos modelos y el pensamiento extendido, con Sonnet 4 también disponible para usuarios gratuitos. Ambos modelos están disponibles en la API de Anthropic, Amazon Bedrock y Google Cloud's Vertex AI. Los precios se mantienen consistentes con los modelos anteriores: Opus 4 a $15/$75 por millón de tokens (entrada/salida) y Sonnet 4 a $3/$15.
Empresas como Cursor, Replit, Rakuten y Cognition ya reportan grandes mejoras en sus productos al integrar estos nuevos modelos. Cursor lo describe como "de vanguardia para codificación y un salto adelante en la comprensión de bases de código complejas", mientras que Replit destaca las mejoras en precisión y los avances dramáticos para cambios complejos en múltiples archivos. Rakuten validó las capacidades del modelo con una refactorización de código abierto que se ejecutó de forma independiente durante 7 horas con rendimiento sostenido.
Google I/O 2025: búsqueda conversacional, agentes y nuevos modelos de IA
Google presentó en su conferencia I/O 2025 una serie de actualizaciones que transforman varios de sus productos principales con inteligencia artificial, desde una reimaginación completa de Search hasta nuevos modelos generativos y herramientas para desarrolladores.
El anuncio más significativo es AI Mode, una nueva forma de usar el buscador de Google que permite hacer preguntas complejas y mantener conversaciones completas en lugar de simplemente buscar enlaces. Los usuarios pueden hacer consultas que son dos o tres veces más largas que las búsquedas tradicionales y continuar con preguntas de seguimiento. Esta funcionalidad ya está disponible para todos los usuarios en Estados Unidos como una nueva pestaña dentro de Search.
Google también presentó mejoras en sus modelos Gemini 2.5, que ahora lideran el ranking LMArena en todas las categorías. Para potenciar las capacidades de razonamiento, introdujeron Deep Think, un modo experimental que utiliza técnicas de pensamiento paralelo para resolver problemas más complejos. La empresa reporta que procesa 480 billones de tokens al mes, 50 veces más que hace un año.
En cuanto a capacidades de agentes, Google está integrando Project Mariner directamente en sus productos. Este sistema puede interactuar con sitios web y realizar tareas complejas de forma autónoma, como buscar y comparar opciones de boletos según criterios específicos. También anunciaron compatibilidad con el Model Context Protocol (MCP) en su API de Gemini.
Project Astra, el asistente universal mostrado como prototipo el año pasado, ahora está integrado en Gemini Live con capacidades de cámara. Los usuarios pueden apuntar su cámara a algo y tener una conversación en tiempo real sobre lo que están viendo. Esta función ya está disponible para Android y comenzó a desplegarse en iOS.
Google Beam representa la evolución de Project Starline hacia videollamadas 3D reales. Utilizando seis cámaras y IA, transforma video 2D en una experiencia 3D con seguimiento preciso a 60 fps. Los primeros dispositivos, desarrollados con HP, estarán disponibles a finales de año.
En modelos generativos, lanzaron Veo 3 para video (ahora con audio nativo) e Imagen 4 para imágenes, ambos disponibles en la app Gemini. Para cineastas, presentaron Flow, una herramienta para crear y extender clips cinematográficos.
La personalización es otro foco importante. Con permiso del usuario, Gemini puede usar contexto personal de las apps de Google. Por ejemplo, las nuevas respuestas inteligentes en Gmail pueden buscar en correos anteriores para sugerir respuestas con detalles específicos que coincidan con el estilo del usuario.
Según Sundar Pichai, la app Gemini tiene más de 400 millones de usuarios activos mensuales y más de 7 millones de desarrolladores construyen con Gemini. Estos números reflejan la estrategia de Google de integrar IA avanzada directamente en sus productos principales, buscando mantener su relevancia frente a competidores como OpenAI y Anthropic.
OpenAI expande su alcance: adquiere la empresa de hardware de Jony Ive y lanza Stargate UAE
OpenAI anunció dos movimientos estratégicos esta semana que marcan su expansión tanto en hardware como en infraestructura global. La empresa adquirió io, la startup de hardware fundada por el ex jefe de diseño de Apple Jony Ive, en un acuerdo valorado en $6.5 mil millones, y simultáneamente lanzó Stargate UAE, su primera implementación internacional de infraestructura de IA.
La adquisición de io representa la mayor compra en la historia de OpenAI. Como parte del acuerdo, Ive y su firma de diseño LoveFrom liderarán todo el trabajo creativo y de diseño en OpenAI, aunque Ive mantendrá el control independiente de LoveFrom. Los 55 empleados de io, incluyendo varios ex diseñadores de Apple como Scott Cannon, Evans Hankey y Tang Tan, se unirán a OpenAI para desarrollar dispositivos de consumo impulsados por IA.
El primer producto de esta colaboración está previsto para 2026 y, según información filtrada, será un dispositivo de bolsillo, sin pantalla y consciente del contexto. Sam Altman aclaró que no pretende reemplazar al smartphone sino crear "un tipo de cosa totalmente nueva". En entrevistas recientes, Ive criticó duramente productos como el Humane Pin y Rabbit R1, calificándolos de "productos muy pobres" que carecen de nuevas formas de pensamiento.
Paralelamente, OpenAI lanzó Stargate UAE como parte de su nueva iniciativa "OpenAI for Countries", diseñada para ayudar a gobiernos interesados a construir capacidades soberanas de IA en coordinación con el gobierno de Estados Unidos. El proyecto incluye un cluster de 1GW en Abu Dhabi, con 200MW esperados para estar operativos en 2026, y establece a los Emiratos Árabes Unidos como el primer país del mundo en habilitar ChatGPT a nivel nacional.
La asociación, que incluye a G42, Oracle, NVIDIA, Cisco y SoftBank, fue desarrollada en estrecha coordinación con el gobierno estadounidense. Como contrapartida, UAE invertirá en la infraestructura Stargate de Estados Unidos, construyendo sobre la Asociación de Aceleración de IA entre ambos países anunciada durante la visita del presidente Trump la semana pasada.
Stargate UAE tiene el potencial de proporcionar infraestructura y capacidad de cómputo de IA dentro de un radio de 2,000 millas, alcanzando hasta la mitad de la población mundial. OpenAI planea buscar 10 asociaciones similares en países y regiones clave como parte de la fase inicial de OpenAI for Countries, sentando las bases para una red de IA distribuida globalmente.
Jason Kwon, director de estrategia de OpenAI, iniciará la próxima semana una gira por Asia Pacífico para reunirse con gobiernos y potenciales socios del sector privado. El objetivo es discutir oportunidades para construir infraestructura y entregar servicios de IA a las personas en sus comunidades.
Estos movimientos reflejan la ambición de OpenAI de expandirse más allá del software hacia hardware de consumo mientras construye una red global de infraestructura de IA. La combinación del talento de diseño de Ive con la tecnología de OpenAI y la expansión internacional a través de Stargate posiciona a la empresa para competir en múltiples frentes, desde dispositivos personales hasta infraestructura nacional de IA.
OpenAI lanza Codex: un agente de programación en la nube
OpenAI presentó Codex, un agente de ingeniería de software basado en la nube que puede trabajar en múltiples tareas en paralelo. Codex está impulsado por codex-1, una versión de OpenAI o3 optimizada para ingeniería de software que fue entrenada usando aprendizaje por refuerzo en tareas de programación del mundo real.
A diferencia de los asistentes de código tradicionales, Codex funciona como un colaborador asincrónico que puede ejecutar tareas complejas de forma independiente durante períodos prolongados. Los usuarios pueden asignarle tareas como escribir funciones, responder preguntas sobre código, corregir errores y proponer pull requests. Cada tarea se ejecuta en su propio entorno sandbox en la nube, precargado con el repositorio del usuario.
En SWE-bench Verified, que mide la capacidad de resolver tareas reales de ingeniería de software, codex-1 alcanza entre 67% y 75% de precisión, superando ampliamente a o3-high que logra un 23%. El modelo no solo resuelve problemas correctamente, sino que genera código más limpio y alineado con las preferencias humanas. Empresas como Cursor lo describen como "de vanguardia para programación", mientras que Replit destaca mejoras dramáticas para cambios complejos en múltiples archivos.
Codex está disponible a través de la barra lateral en ChatGPT, donde los usuarios pueden asignar tareas escribiendo un prompt y haciendo clic en "Code". El tiempo de finalización típicamente varía entre 1 y 30 minutos, dependiendo de la complejidad, con monitoreo del progreso en tiempo real. Una característica interesante es que Codex puede ser guiado por archivos AGENTS.md colocados dentro del repositorio, que funcionan como instrucciones específicas para informar a Codex cómo navegar el código y adherirse a las prácticas del proyecto.
El acceso a Codex comenzó a distribuirse para usuarios de ChatGPT Pro, Enterprise y Team, con soporte para Plus y Edu próximamente. Durante las primeras semanas, los usuarios tendrán acceso generoso sin costo adicional, después de lo cual se implementará acceso con límites y opciones de precios flexibles. Para desarrolladores que quieran usar el modelo directamente, codex-mini-latest está disponible en la API a $1.50 por millón de tokens de entrada y $6 por millón de tokens de salida.
OpenAI también actualizó Codex CLI, su agente de programación de código abierto que funciona en la terminal, con un modelo más pequeño optimizado para flujos de trabajo de baja latencia. Los usuarios Plus y Pro que se conecten a Codex CLI con ChatGPT podrán canjear $5 y $50 en créditos gratuitos de API respectivamente durante los próximos 30 días.
Equipos técnicos en OpenAI ya usan Codex para descargar tareas repetitivas como refactorización y escritura de pruebas. Empresas como Cisco, Temporal, Superhuman y Kodiak están explorando cómo Codex puede acelerar el desarrollo y ayudar a los ingenieros a mantenerse enfocados en tareas de mayor valor.
Un uso práctico para la inteligencia artificial
NotebookLM llega a dispositivos móviles con nuevas funciones interactivas
Google lanzó oficialmente las aplicaciones móviles de NotebookLM para Android e iOS, marcando la primera vez que su asistente de investigación basado en IA está disponible fuera del escritorio desde su lanzamiento en 2023. La aplicación trae todas las funciones principales y añade nuevas capacidades que transforman la forma de interactuar con tus documentos.
Con la app móvil ahora podés crear notebooks nuevos directamente desde tu teléfono, subir PDFs, páginas web y videos de YouTube con solo usar el botón de compartir del sistema. Una vez que tenés tus fuentes cargadas, NotebookLM genera resúmenes inteligentes y te permite hacer preguntas específicas sobre el contenido, con todas las respuestas respaldadas por citas de tus propios documentos.
La función estrella son los Audio Overviews, esos podcasts generados por IA que convierten tus materiales en conversaciones dinámicas entre dos personas. Ahora podés escucharlos mientras hacés otras cosas gracias a la reproducción en segundo plano, e incluso descargarlos para escuchar sin conexión. Pero lo más innovador es que podés interrumpir el audio en cualquier momento para hacer preguntas y redirigir la conversación en tiempo real, convirtiendo lo que antes era un podcast estático en una experiencia verdaderamente interactiva.
Para los que estudian o trabajan con múltiples documentos, la app mantiene sincronizados todos tus notebooks entre dispositivos. Si estás leyendo un paper en el navegador o viendo un video educativo en YouTube, simplemente tocás compartir, seleccionás NotebookLM y ya lo tenés como fuente en tu notebook activo. La interfaz se adapta automáticamente al modo claro u oscuro según la configuración de tu dispositivo.
Google también adelantó que próximamente NotebookLM no solo generará podcasts de tus documentos, sino que creará piezas divulgativas animadas completas con gráficos, diagramas y fotos. En un futuro cercano, se espera que incluso pueda incorporar clips de video generados con Veo, el modelo de video de Google, abriendo posibilidades para crear contenido educativo multimedia personalizado directamente desde tus fuentes.
La aplicación está disponible globalmente tanto en iOS como Android. Para estudiantes que necesitan procesar lecturas complejas, profesionales que trabajan con múltiples informes, o creadores que buscan transformar investigación en contenido accesible, NotebookLM mobile ofrece una forma completamente nueva de interactuar con la información, llevando el poder del análisis asistido por IA literalmente a la palma de tu mano.
Los nuevos avances en la academia
Los modelos de lenguaje son más persuasivos que humanos incentivados económicamente
Un nuevo estudio a gran escala revela que Claude Sonnet 3.5 supera a humanos motivados con incentivos económicos en tareas de persuasión, tanto cuando guía hacia respuestas correctas como incorrectas. La investigación, realizada por un equipo de más de 30 investigadores liderados por Philipp Schoenegger, plantea importantes preguntas sobre el impacto de la IA en la influencia social.
El experimento involucró a participantes que completaban un cuestionario en línea mientras conversaban en tiempo real con persuasores que podían ser humanos o el modelo de IA. Los persuasores intentaban influir en las respuestas de los participantes, a veces hacia la respuesta correcta (persuasión veraz) y otras hacia respuestas incorrectas (persuasión engañosa). Crucialmente, los persuasores humanos recibían bonificaciones monetarias basadas en su desempeño, creando un fuerte incentivo para ser efectivos.
Los resultados muestran diferencias significativas en las tasas de cumplimiento. En general, el modelo de IA logró una tasa de cumplimiento del 66% frente al 59% de los humanos. Cuando se trataba de persuasión veraz, el LLM alcanzó un 84% de efectividad comparado con el 80% de los humanos. La brecha fue aún mayor en la persuasión engañosa: 44% para el LLM versus 36% para los humanos.
El impacto en la precisión de las respuestas fue notable. Cuando el LLM intentaba guiar hacia respuestas correctas, los participantes mejoraron su precisión en aproximadamente 11 puntos porcentuales respecto al grupo control. Por el contrario, cuando intentaba engañar, la precisión cayó en 15 puntos porcentuales. Los persuasores humanos mostraron efectos similares pero menos pronunciados: mejora de 7 puntos en persuasión veraz y caída de 7 puntos en persuasión engañosa.
Estos hallazgos tienen implicaciones económicas directas. Los participantes ganaban dinero real por respuestas correctas, por lo que aquellos guiados por el LLM hacia respuestas correctas obtuvieron mayores ganancias, mientras que los engañados perdieron más dinero que cuando interactuaban con persuasores humanos.
El estudio utilizó preguntas de tres categorías: trivia, ilusiones cognitivas y pronósticos, asignadas aleatoriamente para evitar sesgos. Los investigadores destacan que este es uno de los primeros experimentos prerregistrados que compara directamente las capacidades persuasivas de IA y humanos en un entorno controlado con incentivos reales.
Los autores concluyen que las capacidades de persuasión de la IA ya exceden las de humanos motivados económicamente, subrayando la urgencia de desarrollar marcos de gobernanza y alineación apropiados. Señalan que mientras estos resultados demuestran el potencial de la IA para ayudar a las personas a tomar mejores decisiones cuando se usa éticamente, también revelan riesgos significativos si estas capacidades se emplean de manera maliciosa.
Si te gustó esta newsletter te invitamos a suscribirte para recibir todas las semanas novedades, análisis y tips sobre todo lo nuevo que ocurre en la inteligencia artificial.
Si te interesa contactarnos, ya sea para adoptar inteligencia artificial en tu empresa, para aprender a usar los grandes modelos de lenguaje o para conocer más acerca de todo lo referido a la inteligencia artificial no dudes en comentar en este post. También puedes seguirnos en LinkedIn y en nuestra página web