Google y OpenAI lanzan nuevos modelos razonadores mientras una startup busca "automatizar toda la economía"
Resumen de las noticias más relevantes de la semana
OpenAI lanza o3 y o4-mini, dos nuevos modelos que combinan razonamiento avanzado con uso completo de herramientas como navegación web, análisis de imágenes y generación de código. o3 destaca por su precisión y desempeño en tareas complejas; o4-mini por su eficiencia y velocidad.
Google presenta Gemini 2.5 Flash, un modelo híbrido que permite ajustar su capacidad de "razonamiento" mediante un presupuesto de tokens. Ya disponible en Google AI Studio y Vertex AI con una interfaz renovada para desarrolladores.
OpenAI negocia la compra de Windsurf por 3.000 millones de dólares, apuntando a dominar el mercado de asistentes de codificación, tras no concretar la adquisición de Cursor. La compra consolidaría su estrategia en el segmento de generación de código.
Herramienta para maximizar el uso de la inteligencia artificial
Amurex, un nuevo asistente invisible de IA, automatiza tareas en segundo plano sin necesidad de cambiar de herramientas. Se integra con plataformas como Notion, Google Drive y Obsidian, y es completamente open-source.
Nuevos avances científicos
Anthropic publica un estudio sobre los valores de Claude, analizando más de 300.000 conversaciones reales. El modelo demuestra adaptabilidad de valores según el contexto, pero mantiene principios fundamentales incluso ante contenidos éticamente cuestionables.
Lo que pasó esta semana
OpenAI lanza o3 y o4-mini: Los modelos más inteligentes hasta la fecha
OpenAI ha lanzado este 16 de abril sus nuevos modelos de inteligencia artificial o3 y o4-mini, que representan un salto significativo en capacidades respecto a sus predecesores. Estos modelos no solo son los más inteligentes que la compañía ha desarrollado hasta ahora, sino que además integran por primera vez el uso completo de herramientas durante su proceso de razonamiento.
La mejora más notable es que estos modelos pueden utilizar todas las herramientas disponibles en ChatGPT mientras razonan - esto incluye búsquedas web, análisis de archivos cargados, procesamiento de datos con Python, razonamiento visual sobre imágenes e incluso generación de imágenes. Esta capacidad de combinar el razonamiento avanzado con el uso flexible de herramientas representa un paso hacia un ChatGPT más autónomo.
Según OpenAI, el modelo o3 establece nuevos récords en varios benchmarks, incluyendo Codeforces, SWE-bench y MMMU. Es especialmente destacado en tareas visuales como análisis de imágenes, gráficos e interpretación de figuras. En evaluaciones realizadas por expertos externos, o3 comete un 20% menos de errores graves que su predecesor o1 en tareas complejas del mundo real, destacando particularmente en programación, consultoría empresarial e ideación creativa.
Por su parte, o4-mini es un modelo más pequeño optimizado para un razonamiento rápido y eficiente, que alcanza un rendimiento notable para su tamaño y costo, especialmente en matemáticas, codificación y tareas visuales. Es el modelo con mejor desempeño en las pruebas AIME 2024 y 2025 entre los modelos evaluados.
Un dato técnico interesante: cuando se le da acceso a un intérprete Python, o4-mini alcanza un 99.5% pass@1 (100% consensus@8) en AIME 2025, lo que demuestra su capacidad para aprovechar eficazmente las herramientas disponibles.
En cuanto a accesibilidad, los usuarios de ChatGPT Plus, Pro y Team ya pueden acceder a o3, o4-mini y o4-mini-high, reemplazando a o1, o3-mini y o3-mini-high. Los usuarios de ChatGPT Enterprise y Edu tendrán acceso en una semana, mientras que los usuarios gratuitos pueden probar o4-mini seleccionando 'Razona' en el compositor antes de enviar su consulta.
La compañía también lanzó Codex CLI, un agente de codificación que se puede ejecutar desde la terminal y que está diseñado para maximizar las capacidades de razonamiento de modelos como o3 y o4-mini. Este experimento es completamente open-source y está disponible en GitHub.
Google lanza Gemini 2.5 Flash: Un modelo de IA con capacidad de razonamiento controlable
Google publicó Gemini 2.5 Flash, una versión temprana de su nuevo modelo que representa un gran avance en la familia Gemini. Esta actualización, disponible a través de la API de Gemini en Google AI Studio y Vertex AI, introduce un cambio fundamental: es el primer modelo completamente híbrido de razonamiento, permitiendo a los desarrolladores activar o desactivar la capacidad de "pensar" del modelo según sus necesidades.
Según Google, Gemini 2.5 Flash muestra un rendimiento destacado en Hard Prompts en LMArena, solo superado por su hermano mayor, Gemini 2.5 Pro. Lo que diferencia a este modelo es su equilibrio entre capacidad y eficiencia: mantiene un alto rendimiento con un costo significativamente menor en comparación con modelos similares de la competencia.
Para dar flexibilidad a los desarrolladores, Google ha implementado un sistema de "presupuesto de pensamiento" que ofrece control detallado sobre la cantidad máxima de tokens que el modelo puede generar durante su proceso de razonamiento. Un presupuesto mayor permite al modelo razonar más para mejorar la calidad, pero importante destacar que este presupuesto establece un límite máximo, no un valor fijo - el modelo utiliza solo lo necesario según la complejidad de la solicitud.
Si se busca el menor costo y latencia posibles mientras se mejora el rendimiento respecto a la versión 2.0 Flash, los desarrolladores pueden establecer el presupuesto de pensamiento en 0. Alternativamente, pueden elegir un presupuesto específico de tokens para la fase de pensamiento mediante un parámetro en la API o el control deslizante en Google AI Studio y Vertex AI. El presupuesto puede variar de 0 a 24.576 tokens para 2.5 Flash.
Complementando este lanzamiento, Google también ha actualizado Google AI Studio con una interfaz renovada y enfocada en desarrolladores. La actualización incluye nuevas aplicaciones de inicio (Starter Apps) que sirven como plantillas y casos de uso prácticos para construir con la API de Gemini. Entre estas aplicaciones destacan Video Toys (para generar juegos educativos basados en videos de YouTube), GIF Maker (para crear y remezclar GIFs) y Co-drawing (para dibujar junto con la IA).
Gemini 2.5 Flash ya está disponible en versión preliminar a través de la API de Gemini en Google AI Studio, Vertex AI y en un menú desplegable dedicado en la aplicación Gemini.
OpenAI negocia la adquisición de Windsurf por 3.000 millones de dólares
OpenAI se encuentra en conversaciones avanzadas para adquirir Windsurf, un asistente de codificación impulsado por inteligencia artificial, por aproximadamente 3.000 millones de dólares. Esta sería, por amplio margen, la adquisición más grande realizada por la empresa creadora de ChatGPT hasta la fecha.
Windsurf, anteriormente conocido como Codeium, es una herramienta de codificación basada en IA que compite con otras populares como Cursor, así como con las funciones de asistencia de código existentes de empresas como Microsoft, Anthropic y la propia OpenAI. La startup está generando aproximadamente 40 millones de dólares en ingresos recurrentes anualizados (ARR), según informó TechCrunch en febrero.
Lo interesante del caso es que, según informes recientes, OpenAI había intentado previamente adquirir Anysphere, la empresa creadora de Cursor (otro popular asistente de codificación), en 2024 y nuevamente a principios de 2025. Estas conversaciones no llegaron a buen puerto, y en su lugar, Anysphere ha estado negociando una ronda de financiación a una valoración cercana a los 10.000 millones de dólares. Cursor aparentemente genera unos 200 millones de dólares en base anualizada, cinco veces más que Windsurf.
Este movimiento señala la importancia estratégica que OpenAI otorga al mercado de generación de código. Aunque la compañía acaba de lanzar su propio agente de codificación llamado Codex CLI, su intento de adquirir Windsurf sugiere que no quiere esperar a que esta herramienta gane tracción entre los usuarios.
La posible adquisición se produce en un momento de intensa competencia en el campo de la IA generativa, donde competidores como Google, Anthropic y xAI de Elon Musk están invirtiendo fuertemente y lanzando regularmente nuevos productos. A finales del mes pasado, OpenAI cerró una ronda de financiación de 40.000 millones de dólares, la más grande registrada para una empresa tecnológica privada, a una valoración de 300.000 millones de dólares.
Entre los inversores de Windsurf se encuentran fondos importantes como Founders Fund, General Catalyst, Greenoaks y Kleiner Perkins. En febrero, TechCrunch informó que la startup estaba levantando una ronda de financiación a una valoración de 2.850 millones de dólares, no muy lejos del precio de compra actual en negociación.
La carrera por los empleados virtuales: Entre controversia y predicciones
El debate sobre los agentes de IA como trabajadores virtuales está cobrando fuerza en la industria tecnológica. Mientras el reconocido investigador de IA Tamay Besiroglu acaba de lanzar Mechanize, una startup cuyo objetivo explícito es "la automatización completa de todo el trabajo", Anthropic advierte que los empleados virtuales alimentados por IA comenzarán a aparecer en redes corporativas dentro del próximo año.
La startup Mechanize ha generado controversia por su misión sin ambigüedades: quiere proporcionar los datos, evaluaciones y entornos digitales necesarios para hacer posible la automatización laboral de cualquier puesto. Besiroglu incluso calculó el mercado potencial de su empresa sumando todos los salarios que actualmente reciben los humanos: "aproximadamente 18 billones de dólares anuales solo en Estados Unidos y alrededor de 60 billones a nivel mundial".
La empresa está respaldada por inversores de alto perfil como Nat Friedman, Daniel Gross, Patrick Collison y Jeff Dean, entre otros. Aunque Besiroglu ha aclarado a TechCrunch que "el enfoque inmediato es el trabajo de oficina" en lugar de empleos que requieren mano de obra manual, la visión a largo plazo es clara: la automatización completa de la economía.
Por su parte, Jason Clinton, director de seguridad de información de Anthropic (Claude), declaró a Axios que la compañía espera que los empleados virtuales impulsados por IA comiencen a operar en redes corporativas dentro del próximo año. A diferencia de los agentes actuales que se centran en tareas específicas y programables, Clinton describe a estos empleados virtuales como identidades de IA que tendrían sus propias "memorias", roles específicos dentro de la empresa e incluso sus propias cuentas corporativas y contraseñas.
"Estos empleados tendrían un nivel de autonomía que excede con creces lo que tienen los agentes actuales", explicó Clinton, quien además señaló los problemas de seguridad que esto plantea: cómo proteger las cuentas de usuario del empleado de IA, qué acceso a la red se le debe otorgar y quién es responsable de gestionar sus acciones.
Clinton ejemplificó un escenario preocupante: un empleado virtual podría "volverse rebelde" y hackear el sistema de integración continua de una empresa mientras completa una tarea. "En el mundo tradicional, eso es una ofensa punible. Pero en este nuevo mundo, ¿quién es responsable de un agente que estuvo funcionando durante un par de semanas y llegó a ese punto?", cuestionó.
Mientras tanto, Besiroglu argumenta que tener agentes haciendo todo el trabajo enriquecerá a los humanos a través de un "crecimiento económico explosivo", señalando que "la automatización completa del trabajo podría generar una vasta abundancia, estándares de vida mucho más altos y nuevos bienes y servicios que ni siquiera podemos imaginar hoy".
Sin embargo, esta visión optimista pasa por alto un hecho básico: si los humanos no tienen empleos, no tendrán ingresos para comprar las cosas que los agentes de IA están produciendo. Cuando se le preguntó al respecto, Besiroglu explicó que "incluso en escenarios donde los salarios podrían disminuir, el bienestar económico no está determinado únicamente por los salarios. Las personas típicamente reciben ingresos de otras fuentes, como rentas, dividendos y asistencia social".
Aunque la visión de estos pioneros pueda parecer extrema, el problema técnico que ambos están abordando es legítimo. Si cada trabajador humano contara con un equipo personal de agentes que le ayudara a producir más trabajo, la abundancia económica podría seguir. Sin embargo, un año después del comienzo de la era de los agentes de IA, estos todavía no funcionan muy bien: son poco fiables, no retienen información, luchan por completar tareas de forma independiente y "no pueden ejecutar planes a largo plazo sin descarrilarse".
Anthropic considera que la seguridad de los empleados virtuales será una de las áreas donde las empresas de IA podrían realizar mayores inversiones en los próximos años, especialmente en soluciones que proporcionen visibilidad sobre las acciones de las cuentas de empleados de IA y herramientas que creen nuevos sistemas de clasificación de cuentas.
Un uso práctico para la inteligencia artificial
Amurex, un asistente invisible que opera en segundo plano
Amurex se presenta como un "compañero invisible" para el trabajo y la vida personal que, a diferencia de muchas otras soluciones de IA, no requiere una aplicación independiente. Su propuesta de valor es clara: funciona silenciosamente en segundo plano, integrándose con las herramientas que ya utilizás a diario sin necesidad de interrumpir tu flujo de trabajo.
Lo que distingue a Amurex de otras herramientas es su enfoque en ser una capa de asistencia que opera a través de tus aplicaciones existentes, eliminando tareas mundanas sin requerir interacción directa constante. Entre sus principales funcionalidades destacan:
Conocimiento instantáneamente buscable: Integra y permite buscar fácilmente a través de Notion, Google Drive, Obsidian y otras plataformas, centralizando el acceso a tu información personal y profesional.
Gestión de reuniones en piloto automático: Graba, transcribe, resume y realiza seguimiento de elementos de acción automáticamente, eliminando una de las tareas más tediosas del trabajo moderno.
Categorización de bandeja de entrada: Organiza y prioriza automáticamente tus emails, ayudándote a mantener un inbox más ordenado y eficiente.
El servicio actualmente está disponible de forma gratuita, aunque no queda claro si esto cambiará en el futuro. Una característica especialmente interesante para desarrolladores y entusiastas de la privacidad es que Amurex es completamente open-source, permitiendo revisar su código y eventualmente contribuir a su desarrollo a través de GitHub.
Esta herramienta parece dirigida a profesionales que buscan optimizar su productividad sin tener que aprender a usar nuevas aplicaciones o cambiar sus flujos de trabajo establecidos. Para quienes estén interesados en probarlo, pueden acceder a través de su sitio web.
Los nuevos avances en la academia
Anthropic analiza los valores de Claude en conversaciones reales
El equipo de Impactos Sociales de Anthropic ha publicado una investigación pionera que examina cómo su modelo de IA, Claude, expresa valores en conversaciones reales con usuarios. Este estudio, titulado "Values in the wild: Discovering and analyzing values in real-world language model interactions", representa el primer análisis a gran escala sobre cómo los modelos de IA manifiestan juicios de valor durante interacciones cotidianas.
Los investigadores analizaron 700.000 conversaciones anónimas que los usuarios mantuvieron con Claude durante una semana de febrero de 2025, principalmente con el modelo Claude 3.5 Sonnet. Después de filtrar las conversaciones puramente factuales, se quedaron con 308.210 diálogos (el 44% del total) para su análisis.
El método empleado es particularmente innovador: utilizaron un sistema que preserva la privacidad para eliminar la información personal de los usuarios, categorizando y resumiendo las conversaciones para crear una taxonomía de valores. Este enfoque les permitió observar qué valores expresa Claude "en estado salvaje" y cómo estos varían según el contexto de cada conversación.
La investigación reveló cinco categorías principales de valores, ordenadas por prevalencia: prácticos, epistémicos, sociales, protectores y personales. Los valores individuales más comunes fueron el profesionalismo, la claridad y la transparencia, lo que tiene sentido dado el papel de Claude como asistente.
Uno de los hallazgos más interesantes es cómo Claude adapta sus valores según la situación. Por ejemplo, cuando se le pide consejo sobre relaciones románticas, Claude enfatiza desproporcionadamente los valores de "límites saludables" y "respeto mutuo". Al analizar eventos históricos controvertidos, el valor de "precisión histórica" aparece con mucha más frecuencia.
El estudio también revela cómo Claude responde a los valores expresados por los usuarios:
En el 28,2% de las conversaciones, Claude muestra un "fuerte apoyo" a los valores del usuario
En el 6,6% de los casos, Claude "reformula" los valores del usuario, reconociéndolos pero añadiendo nuevas perspectivas
En solo el 3% de las conversaciones, Claude "resiste firmemente" los valores del usuario, principalmente cuando estos piden contenido poco ético o expresan nihilismo moral
Este último punto es particularmente relevante, ya que muestra los "valores fundamentales" de Claude que actúan como líneas rojas inquebrantables, incluso cuando contradecir al usuario podría parecer poco servicial.
Los investigadores reconocen algunas limitaciones en su método. La definición de lo que cuenta como expresar un valor es inherentemente imprecisa, y dado que el modelo que impulsa la categorización también es Claude, podrían existir sesgos hacia encontrar comportamientos cercanos a sus propios principios.
Sin embargo, este enfoque abre nuevas posibilidades. Por un lado, podría ayudar a detectar "jailbreaks" (técnicas para eludir las restricciones del modelo), ya que identificaron grupos raros de valores como "dominancia" y "amoralidad" que probablemente provenían de estos intentos. Por otro lado, proporciona una forma de evaluar si el entrenamiento de Claude en valores como ser "útil, honesto e inofensivo" realmente se refleja en sus interacciones del mundo real.
El equipo ha publicado su conjunto de datos para que otros investigadores puedan explorar más a fondo los valores y su frecuencia en las conversaciones. La investigación destaca la importancia de comprender cómo los modelos de IA inevitablemente realizan juicios de valor, y cómo estos juicios pueden (o no) estar alineados con los valores humanos que aspiramos a incorporar en estos sistemas.
Si te gustó esta newsletter te invitamos a suscribirte para recibir todas las semanas novedades, análisis y tips sobre todo lo nuevo que ocurre en la inteligencia artificial.
Si te interesa contactarnos, ya sea para adoptar inteligencia artificial en tu empresa, para aprender a usar los grandes modelos de lenguaje o para conocer más acerca de todo lo referido a la inteligencia artificial no dudes en comentar en este post. También puedes seguirnos en LinkedIn y en nuestra página web