GPT-Realtime-2: OpenAI refuerza la voz en tiempo real

OpenAI presentó GPT-Realtime-2, un nuevo modelo para aplicaciones de voz que busca ir más allá de los asistentes que solo responden por turnos. La compañía lo acompaña con GPT-Realtime-Translate, orientado a traducción en vivo, y GPT-Realtime-Whisper, pensado para transcripción continua mientras una persona sigue hablando. Con este lanzamiento, OpenAI intenta reforzar que la IA de voz no se limita a hablar de forma natural, sino que también debe seguir instrucciones, usar herramientas y mantener el contexto sin romper la conversación.

Según OpenAI, GPT-Realtime-2 está diseñado para conversaciones en tiempo real en las que el sistema puede gestionar interrupciones, correcciones y tareas encadenadas. La empresa también amplió la ventana de contexto de 32K a 128K para este tipo de uso, un cambio relevante para agentes que necesitan sostener sesiones largas o procesos más complejos. El movimiento apunta a un terreno muy concreto: atención al cliente, soporte interno, ventas, educación y flujos de trabajo guiados por voz.

GPT-Realtime-2 suma más control, traducción en vivo y transcripción continua

El punto central del anuncio es GPT-Realtime-2. OpenAI lo define como su primer modelo de voz con capacidades de nivel GPT-5 para lo que la industria suele describir como “razonamiento” en tiempo real. En la práctica, eso significa que puede mantener la conversación mientras consulta herramientas, prepara una acción o resuelve una instrucción más difícil.

La empresa destacó varias mejoras útiles para productos actuales. Entre ellas están la posibilidad de usar frases breves para avisar que el sistema está trabajando, llamadas paralelas a herramientas, mejor recuperación ante fallos y mayor control del tono de la respuesta. También añadió niveles ajustables de esfuerzo de “razonamiento”, con el objetivo de equilibrar latencia y profundidad según el caso de uso.

El lanzamiento no se queda solo en el modelo principal. GPT-Realtime-Translate promete traducción de voz en vivo desde más de 70 idiomas de entrada hacia 13 idiomas de salida, algo pensado para soporte multilingüe, ventas internacionales, eventos y formación. A su vez, GPT-Realtime-Whisper se centra en transcribir audio al instante, una función útil para subtítulos, actas de reuniones, seguimiento comercial y documentación de llamadas.

OpenAI también publicó precios concretos para estas herramientas. GPT-Realtime-2 costará 32 dólares por millón de tokens de audio de entrada y 64 dólares por millón de tokens de audio de salida. GPT-Realtime-Translate tendrá un precio de 0,034 dólares por minuto y GPT-Realtime-Whisper de 0,017 dólares por minuto. Más allá de la cifra exacta, OpenAI ya no presenta la voz solo como demostración tecnológica, sino como una categoría de producto con oferta comercial clara.

Por qué GPT-Realtime-2 importa para empresas, productos y competencia

La relevancia de GPT-Realtime-2 está en el tipo de software que habilita. Muchas experiencias de voz fallan cuando el usuario se sale del guion, interrumpe, cambia de idea o mezcla varias tareas en una misma frase. OpenAI está tratando de resolver ese cuello de botella con un modelo que conserve el hilo de la conversación mientras ejecuta acciones en segundo plano.

Eso puede traducirse en asistentes que no solo contestan preguntas, sino que revisan calendarios, actualizan reservas, guían a un cliente durante una compra o generan notas mientras una reunión sigue abierta. Para sectores donde escribir no es siempre cómodo, como logística, salud, retail, viajes o trabajo en terreno, este tipo de salto puede ser más importante que una mejora incremental en chat de texto.

También hay una señal competitiva. OpenAI ya había apostado por audio y voz, pero ahora separa con más claridad tres capas: conversación en tiempo real, traducción en vivo y transcripción continua. Esa segmentación facilita que desarrolladores y empresas compren exactamente la pieza que necesitan, y no un bloque único más difícil de integrar. En un mercado donde Google Translate apunta al tiempo real y Grok activa voz para desarrolladores, la voz y flujos Inter modulares aparecen cada vez más como una interfaz de trabajo y no solo de demostración.

Otro punto relevante es que la compañía insiste en salvaguardas para evitar usos dañinos, con clasificadores activos en sesiones de Realtime API y obligación de informar a los usuarios cuando interactúan con IA, salvo que el contexto ya lo haga evidente. Esa parte no resuelve todos los riesgos, pero sí muestra que OpenAI sabe que la voz en vivo tiene un estándar de sensibilidad más alto que un chatbot tradicional.

El lanzamiento de GPT-Realtime-2 refuerza la carrera por convertir la voz en una capa operativa de productos y servicios. Si las promesas de menor latencia, mejor control y mayor capacidad para usar herramientas se sostienen en despliegues reales, OpenAI podría ganar terreno en uno de los segmentos más prácticos de la IA aplicada.

Fuentes

OpenAI: Advancing voice intelligence with new models in the API
OpenAI API Docs: Realtime API
OpenAI API Docs: gpt-realtime model

Roberto Meza Ferrari