o3: El nuevo modelo de OpenAI que compite con los mejores programadores del planeta

Erebant

dic 23, 2024

Resumen de las noticias más relevantes de la semana

OpenAI cierra evento navideño: Anuncia modelo o3 con rendimiento récord en múltiples rankings y expande integración con aplicaciones de escritorio.
Google responde con fuerza: Lanza Veo 2 superando a Sora en calidad y duración, y presenta Gemini 2.0 Flash Thinking, un modelo con capacidades de razonamiento.
Meta busca bloquear transformación corporativa de OpenAI mientras surgen rumores sobre Microsoft invirtiendo en el competidor de OpenAI, Anthropic.
Perplexity adquiere Carbon: Movimiento estratégico valorado en $9 mil millones para personalizar IA con datos privados.

Nueva herramienta para maximizar el uso de la inteligencia artificial

Claude mejora análisis de datos: Nueva actualización permite procesar archivos Excel de hasta 30MB y realiza análisis complejos desde dispositivos móviles.

Nuevos avances científicos

IA genera investigación masiva: Experimento crea 288 papers académicos indistinguibles de investigación legítima, alertando sobre riesgos futuros.

Lo que pasó esta semana

OpenAI cierra su evento navideño con grandes anuncios: nuevo modelo o3 y más integración con aplicaciones

OpenAI ha concluido su evento "12 Days of OpenAI" con dos grandes anuncios que marcan el rumbo de la compañía hacia un futuro más integrado y potente. Por un lado, la expansión de las capacidades del escritorio de ChatGPT, y por otro, la presentación preliminar de su nuevo modelo de razonamiento o3.

La empresa ha ampliado significativamente el número de aplicaciones con las que ChatGPT puede interactuar desde su versión de escritorio. Entre las nuevas integraciones destacan IDEs populares como la familia completa de JetBrains (incluyendo PyCharm, IntelliJ IDEA y Android Studio), BBEdit, MatLab y Nova. También se han añadido aplicaciones de productividad como Apple Notes, Notion y Quip. Estas integraciones permiten que ChatGPT comprenda el contexto de los proyectos en estas aplicaciones y proporcione asistencia más precisa.

Kevin Weil, director de producto de OpenAI, señaló durante una transmisión en vivo que estas mejoras son parte de una visión más amplia: "A medida que nuestros modelos se vuelven más poderosos, ChatGPT se volverá más agéntico. Esto significa que iremos más allá de las preguntas y respuestas; ChatGPT comenzará a hacer cosas por ti". Esta declaración sugiere que OpenAI está siguiendo los pasos de Anthropic y su función Computer Use, que permite a Claude interactuar directamente con las computadoras de los usuarios.

Como broche final del evento, Sam Altman anunció los sucesores de su modelo de razonamiento o1: o3 y o3-mini. El salto en rendimiento es notable en todas las pruebas de evaluación estándar de la industria: alcanza un 87.7% en GPQA Diamond, una prueba que evalúa el razonamiento general y la resolución de problemas complejos (comparado con 78.0% de o1); 71.7% en SWE-Bench Verified, que mide la capacidad de escribir y verificar código de software (frente al 48.9% de o1); y un impresionante 96.7% en AIME, una prueba que evalúa capacidades matemáticas avanzadas (superando el 83.3% de o1). Este modelo representa un claro avance respecto a o1, que ya contaba con niveles de inteligencia similares a los de una persona con un doctorado.

Quizás lo más sorprendente es su rendimiento en FrontierMath de EpochAI, una prueba que mide la capacidad de resolver problemas matemáticos extremadamente complejos, donde alcanza un 25.2%, superando ampliamente el récord anterior de 2.0%.

No hay descripción alternativa para esta imagen

Con un puntaje de 2727 en competencias de código, o3 se posiciona como el 175º mejor programador a nivel mundial.

Estos avances son particularmente significativos considerando el rendimiento ya extraordinario de o1. Como ejemplo, estudios recientes muestran que o1-preview alcanza aproximadamente un 80% de precisión en diagnósticos médicos complejos del NEJM CPC, mientras que los médicos humanos promedian alrededor del 30%. Esta brecha sustancial en el razonamiento diagnóstico sugiere que estamos entrando en una nueva era donde la IA no solo complementa sino que potencialmente supera el razonamiento humano en campos altamente especializados.

Aunque estos modelos todavía no están disponibles públicamente (o3 mini saldrá en los primeros meses de 2025), los investigadores en seguridad pueden solicitar acceso anticipado para pruebas. Algo relevante de estos nuevos modelos es la introducción de una técnica de entrenamiento llamada "deliberate alignment" (alineación deliberada), que permite a los modelos utilizar razonamiento paso a paso para reflexionar sobre las solicitudes de los usuarios, identificar texto relevante de las políticas internas de OpenAI y redactar respuestas más seguras.

Resumen del “12 days of OpenAI”

Durante 12 dias OpenAI anunció una serie de actualizaciones, novedades y nuevas funcionalidades. Con el evento ya terminado, dejamos un resumen de los principales anuncios realizados por la compañía en cada uno de los días:

Día 1 – OpenAI presentó el modelo o1 y ChatGPT Pro ($200/mes) con acceso a modelos avanzados (o1, o1-mini, GPT-4o, Advanced Voice Mode).
Día 2 – Expansión del "Reinforcement Fine-Tuning Program" para crear modelos expertos con pocos datos.
Día 3 – Lanzamiento de Sora, un modelo de generación de video con creación a partir de texto/imágenes y funciones de storyboard.
Día 4 – Disponibilidad de Canvas, herramienta colaborativa en ChatGPT para escritura y programación.
Día 5 – Integración con Apple Intelligence, mejorando Siri con respuestas de ChatGPT.
Día 6 – Advanced Voice con Video y Santa Mode para interacciones estacionales.
Día 7 – Presentación de "Projects" en ChatGPT para organizar archivos, conversaciones e instrucciones personalizadas.
Día 8 – Disponibilidad total de ChatGPT Search, herramienta para respuestas web optimizadas.
Día 9 – Nuevas herramientas para desarrolladores: API en tiempo real y método de fine-tuning.
Día 10 – Posibilidad de interactuar con ChatGPT4o mini por Whatsapp (agendando el número +1 (800) 242-8478) y llamadas gratis de 15 min a ChatGPT por teléfono (solo en Estados Unidos).
Día 11 – Integración con aplicaciones para funcionamiento multitarea.
Día 12 – Vista previa de modelos o3 y o3-mini (lanzamiento en 2025).

Tensiones en el mundo de la IA: Meta busca bloquear la transformación de OpenAI mientras surgen rumores sobre Microsoft

El ecosistema de la inteligencia artificial está experimentando turbulencias significativas esta semana. Meta ha tomado una posición agresiva contra OpenAI al enviar una carta al Fiscal General de California, Rob Bonta, instándolo a bloquear la transformación de OpenAI de organización sin fines de lucro a entidad con fines de lucro. Meta sugiere en su carta que Elon Musk está "calificado y bien posicionado para representar los intereses de los californianos en este asunto", un cambio notable considerando las tensiones pasadas entre Musk y Mark Zuckerberg.

En la carta enviada al Fiscal General, Meta expresa su profunda preocupación por el intento de OpenAI de desprenderse de su estatus sin fines de lucro. La empresa argumenta que permitir este cambio podría llevar a una proliferación de empresas que usen el estatus sin fines de lucro como estrategia temporal hasta volverse rentables. Meta solicita una revisión exhaustiva de cualquier transferencia de activos entre las entidades de OpenAI y pide una pausa en todas las actividades con fines de lucro hasta que se resuelva la situación.

En paralelo a esta confrontación, han surgido rumores sobre posibles movimientos estratégicos de Microsoft. Según el analista Dylan Patel, Microsoft estaría considerando una inversión en Anthropic, la empresa creadora de Claude, que podría valorar a la compañía en $59 mil millones, un aumento sustancial desde su actual valuación de $18.4 mil millones. Esta potencial inversión es particularmente notable ya que llega poco después de que Anthropic recibiera $4 mil millones en financiamiento liderado por Amazon. Según Patel, esta movida podría estar motivada por lo que describe como una relación "cada vez más rebelde" de OpenAI con Microsoft.

En medio de estas tensiones, Sam Altman, CEO de OpenAI, ha tomado una postura firme respecto a la lealtad de los inversores. La compañía ha anunciado que aquellos inversores que coloquen capital en empresas competidoras perderán acceso al roadmap futuro de la compañía y a información estratégica clave sobre desarrollos tecnológicos futuros.

Google se pone a la par de OpenAI

Google ha tenido una semana intensa con múltiples lanzamientos que reafirman su posición en la carrera por la IA. La compañía ha presentado tres avances significativos que abarcan desde la generación de video hasta la robótica avanzada, marcando un hito importante en su desarrollo tecnológico.

Veo 2: El competidor de Sora

El nuevo modelo de generación de video de Google, Veo 2, representa una victoria de google por sobre OpenAI. El modelo puede generar videos en resolución 4K con una duración superior a los 2 minutos, cuadruplicando la resolución y sextuplicando la duración máxima que ofrece actualmente Sora de OpenAI.

Una de las características más destacadas de Veo 2 es su sofisticada comprensión de la cinematografía. Los usuarios pueden especificar tipos de lentes específicos (como 18mm para tomas gran angular), estilos de tomas (seguimientos en ángulo bajo), efectos de profundidad de campo y manejo mejorado de elementos complejos como dinámica de fluidos, reflejos y sombras.

En su fase inicial, Veo 2 está disponible a través de VideoFX, la plataforma experimental de Google, donde está limitado a 720p y clips de ocho segundos. La compañía planea expandir su disponibilidad integrándolo en YouTube Shorts y su plataforma Vertex AI durante 2025.

Gemini 2.0 Flash Thinking: Razonamiento Visible

Google también ha introducido una versión experimental de su modelo de lenguaje llamado Gemini 2.0 Flash Thinking. La novedad principal de esta actualización es la capacidad del modelo para mostrar sus "pensamientos" mientras resuelve problemas complejos, ofreciendo una ventana única a su proceso de razonamiento. Al igual que la familia de modelos “o” de OpenAI, este tiempo de pensamiento le permite al modelo llegar a mejores respuestas, superando las capacidades de los modelos anteriores de Google.

Este nuevo modelo puede planificar sus acciones mostrando sus pensamientos de manera visible y resolver problemas complejos a velocidades "Flash". Ya está disponible a través de Google AI Studio y la API de Gemini, marcando el primer paso de Google en su viaje hacia modelos con capacidades de razonamiento más avanzadas.

Alianza Estratégica con Apptronik: El Futuro de la Robótica

Google DeepMind ha anunciado una alianza estratégica con Apptronik, una empresa especializada en robots humanoides. La colaboración busca combinar la experiencia en IA de Google con el hardware avanzado de Apptronik.

El foco inicial de esta colaboración será Apollo, un robot humanoide de 5 pies 8 pulgadas y 160 libras de peso, diseñado para realizar tareas físicas demandantes en espacios industriales. Apollo es el resultado de casi una década de desarrollo y la experiencia acumulada de Apptronik en la creación de 15 tipos diferentes de robots, incluyendo el robot Valkyrie de la NASA.

Jeff Cardenas, CEO de Apptronik, destacó que esta alianza une "la plataforma robótica de vanguardia de Apptronik con la experiencia incomparable en IA del equipo de robótica de Google DeepMind" para crear "robots inteligentes, versátiles y seguros que transformarán industrias y mejorarán vidas".

Esta colaboración se construye sobre el impulso reciente de Apptronik, que en el último año ha establecido asociaciones con líderes de la industria como GXO y Mercedes-Benz, con más colaboraciones programadas para anunciarse el próximo año. El equipo de robótica de Google DeepMind aportará su experiencia en modelos base, aprendizaje automático e ingeniería, aprovechando modelos de IA avanzados como Gemini para desarrollar sistemas que puedan razonar y actuar en el mundo real.

Perplexity adquiere Carbon: un movimiento estratégico en la carrera por la IA personalizada

Perplexity, la empresa de inteligencia artificial valorada en $9 mil millones que se ha convertido en uno de los principales competidores de Google, ha adquirido Carbon, una startup de Seattle especializada en conectar fuentes de datos externos con modelos de lenguaje. La adquisición marca un paso significativo en la evolución de Perplexity hacia una IA más personalizada y contextual.

Para entender la importancia de esta adquisición, es fundamental conocer a Perplexity. La empresa comenzó como un motor de búsqueda impulsado por IA que ofrecía respuestas detalladas y con citas en lugar de simples enlaces. Con el tiempo, ha evolucionado para incluir capacidades de chat y análisis de documentos, compitiendo directamente con gigantes como Google y OpenAI. Su enfoque en proporcionar respuestas precisas y contextualizadas le ha valido una valoración de $9 mil millones, convirtiéndola en una de las startups de IA más valiosas del mundo.

La adquisición de Carbon, aunque pequeña en términos de personal (solo cuatro empleados), es estratégicamente significativa. Carbon ha desarrollado una tecnología que permite a los modelos de lenguaje acceder a información personal y corporativa de manera segura y privada. Su tecnología RAG (Retrieval Augmented Generation) permite que la IA acceda a la información mientras esta permanece en su ubicación original, sin necesidad de copiarla.

"Creemos que tu IA debería ser personal para ti, ya sea en casa, en el trabajo o en movimiento", explica Perplexity en su anuncio oficial. La integración de Carbon permitirá a los usuarios conectar aplicaciones como Notion y Google Docs directamente con Perplexity, permitiendo búsquedas y análisis más contextualizados y relevantes.

Algunas implicaciones de esta adquisición son:

Los usuarios podrán buscar información a través de múltiples fuentes personales y corporativas sin comprometer la privacidad
La IA podrá proporcionar respuestas más relevantes al tener acceso al contexto específico del usuario
Las empresas podrán implementar soluciones de IA manteniendo sus datos seguros y en su lugar

Perplexity planea integrar estas nuevas capacidades en su plataforma a principios de 2025, marcando otro hito en su rápida expansión. La empresa ya ha tenido un año 2024 notable, con el lanzamiento de Enterprise Pro, nuevas características como Spaces y búsqueda de archivos internos, y experiencias de búsqueda mejoradas para compras y análisis de transcripciones de llamadas de ganancias.

Un uso práctico para la inteligencia artificial

Claude mejora sus capacidades de análisis de datos

Claude ha recibido una actualización en sus herramientas de análisis que será especialmente útil para profesionales y analistas de datos. La principal novedad es la capacidad de procesar archivos Excel de gran tamaño, permitiendo analizar documentos de hasta 30MB que normalmente excederían su ventana de contexto. Además, esta funcionalidad de análisis ahora está disponible en las aplicaciones móviles de Claude, permitiendo realizar análisis de datos complejos desde cualquier lugar.

Estas mejoras facilitan significativamente tareas como el análisis de grandes conjuntos de datos financieros, reportes de ventas extensos o bases de datos corporativas, sin necesidad de fragmentar los archivos o recurrir a herramientas adicionales.

Los nuevos avances en la academia

IA genera cientos de papers académicos: una advertencia sobre el futuro de la investigación

Robert Novy-Marx y Mihail Velikov, dos investigadores reconocidos en el campo de las finanzas, han llevado a cabo un experimento que pone en evidencia los riesgos y posibilidades de la IA en la academia. Utilizando grandes modelos de lenguaje (LLMs), lograron generar 288 papers académicos completos sobre predicción de retornos bursátiles, cada uno con marcos teóricos plausibles y citas académicas.

El proceso comenzó con la extracción de más de 30.000 potenciales señales predictivas de datos contables. Aplicando un riguroso protocolo de evaluación denominado "Assaying Anomalies", seleccionaron 96 señales que cumplían con criterios estrictos. Para cada una de estas señales, utilizaron LLMs de última generación para generar tres versiones diferentes de papers académicos completos.

Los papers generados no son simples ejercicios de redacción: cada uno incluye nombres creativos para las señales identificadas, introducciones personalizadas que proporcionan diferentes justificaciones teóricas para los patrones de predictibilidad observados, y citas tanto a literatura existente como, en ocasiones, a literatura imaginada que respalda sus argumentos.

Lo más alarmante del experimento es que estos papers son prácticamente indistinguibles de la investigación académica legítima. Siguen todas las convenciones académicas, presentan argumentos coherentes y están respaldados por datos empíricos reales. Este desarrollo plantea preguntas serias sobre el futuro de la publicación académica y la necesidad de nuevos métodos para verificar la autenticidad y originalidad de la investigación.

Los investigadores señalan que su trabajo sirve como una advertencia sobre la posible industrialización del "HARKing" (Hypothesizing After Results are Known), una práctica cuestionable en la que las hipótesis se formulan después de conocer los resultados. La capacidad de generar masivamente papers aparentemente creíbles podría exacerbar este problema y otros desafíos éticos en la investigación académica.

El experimento demuestra que el futuro que muchos académicos temían ha llegado antes de lo esperado, y las instituciones académicas aún no están preparadas para enfrentar este desafío. La facilidad con la que se pueden generar investigaciones aparentemente legítimas sugiere la necesidad urgente de desarrollar nuevos sistemas de verificación y estándares de publicación que puedan distinguir entre la investigación genuina y relevante a la generada por IA.

Si te gustó esta newsletter te invitamos a suscribirte para recibir todas las semanas novedades, análisis y tips sobre todo lo nuevo que ocurre en la inteligencia artificial.

Si te interesa contactarnos, ya sea para adoptar inteligencia artificial en tu empresa, para aprender a usar los grandes modelos de lenguaje o para conocer más acerca de todo lo referido a la inteligencia artificial no dudes en comentar en este post. También puedes seguirnos en LinkedIn y en nuestra página web

Erebant AI

Discusión sobre este post