EMAO NEWS | Tactical Intelligence for the AI Age

TL;DR / KEY POINTS

OpenAI ha introducido tres nuevos modelos de audio en tiempo real en su API, elevando las capacidades de los agentes de voz a un nivel ejecutivo.

El GPT-Realtime-2 es el buque insignia, basado en razonamiento de clase GPT-5, que permite interacciones de voz fluidas y procesamiento de audio continuo con una ventana de contexto ampliada de 128K tokens.

Los modelos GPT-Realtime-Translate y GPT-Realtime-Whisper ofrecen traducción de voz en vivo en más de 70 idiomas y transcripción en tiempo real de baja latencia, respectivamente, siendo críticos para operaciones globales.

Innovación en Agentes de Voz en Tiempo Real

OpenAI ha marcado un hito significativo en el panorama de la inteligencia artificial con el lanzamiento de tres nuevos modelos de audio en tiempo real a través de su API en mayo de 2026. Estos modelos, ahora disponibles para uso en producción, están diseñados para transformar las interacciones de voz, permitiendo a los agentes de IA escuchar, razonar, traducir y actuar dentro de una única conversación en vivo. Esta evolución representa un avance crítico, moviendo la IA de voz de interacciones básicas a agentes de voz altamente inteligentes y autónomos.

GPT-Realtime-2: La Nueva Generación de Interacción Vocal

El corazón de esta nueva suite es el GPT-Realtime-2, el primer modelo de voz de OpenAI construido sobre el razonamiento de clase GPT-5. A diferencia de las arquitecturas tradicionales que dependen de etapas separadas de transcripción y síntesis, GPT-Realtime-2 procesa el audio en un flujo continuo. Esta capacidad le permite interpretar el habla a medida que ocurre y responder sin pausas notables. El modelo soporta una ventana de contexto de 128K tokens, cuadruplicando la versión anterior y facilitando sesiones de voz más largas y flujos de trabajo de agentes complejos. Sus características clave incluyen preámbulos para la gestión del tiempo, llamadas a herramientas paralelas, una mejor recuperación ante fallos y ajuste de tono contextual, lo que permite una interacción vocal más natural y adaptable.

GPT-Realtime-Translate y GPT-Realtime-Whisper: Ampliando Capacidades

Complementando a GPT-Realtime-2, OpenAI ha lanzado también GPT-Realtime-Translate y GPT-Realtime-Whisper. GPT-Realtime-Translate está diseñado para experiencias de voz multilingües en vivo, soportando más de 70 idiomas de entrada y 13 de salida. Este modelo es crucial para aplicaciones de soporte al cliente, educación y ventas transfronterizas, manteniendo el significado y el ritmo del hablante incluso en contextos cambiantes o con pronunciaciones regionales. Por su parte, GPT-Realtime-Whisper extiende la aclamada tecnología de reconocimiento de voz Whisper de OpenAI a un sistema de streaming, proporcionando transcripción de voz a texto de baja latencia, ideal para subtítulos en vivo, notas de reuniones y transcripciones en tiempo real.

Disponibilidad y Aplicaciones Tácticas

La disponibilidad general de la API Realtime marca un punto de inflexión para desarrolladores que buscan construir agentes de voz avanzados. Estos modelos ya no están en fase beta, lo que indica su preparación para despliegues a gran escala en entornos de producción. La combinación de razonamiento avanzado, traducción en tiempo real y transcripción de baja latencia abre un abanico de posibilidades para la automatización de servicios al cliente, comunicación multilingüe en tiempo real y la creación de experiencias inmersivas en el sector audiovisual y de medios.