Microsoft presentó MAI en Build 2026 como una familia de siete modelos desarrollados dentro de la propia compañía para cubrir generación de imágenes, voz, transcripción, programación y lo que la industria suele describir como “razonamiento”.
El cambio no significa que OpenAI deje de ser parte del ecosistema de Microsoft, pero sí muestra que la empresa quiere ofrecer más piezas propias dentro de Azure AI Foundry, GitHub Copilot, VS Code y otros servicios que ya usa su base de desarrolladores.
La compañía los presentó como un conjunto multimodal pensado para tareas concretas de trabajo y desarrollo. En paralelo, medios como Windows Central destacaron que este movimiento también apunta a bajar costos para desarrolladores y a reducir la dependencia de modelos externos en algunos usos.
Dentro del grupo, MAI-Thinking-1 aparece como el modelo de “razonamiento” de referencia de Microsoft AI. La empresa dice que fue entrenado desde cero con datos limpios y con licencia comercial, sin recurrir a destilación de modelos de terceros. MAI-Code-1-Flash, por su parte, está orientado a programación y Microsoft lo describe como un modelo eficiente para inferencia, integrado de forma directa en GitHub Copilot y VS Code.
Qué ofrece Microsoft MAI en imagen, voz, código y transcripción
La parte visual queda en manos de MAI-Image-2.5 y su variante Flash. Microsoft los presentó para generación de imágenes a partir de texto y para edición de imágenes. La tarjeta técnica oficial de MAI-Image-2.5 confirma una fecha de lanzamiento del 2 de junio de 2026 y lo describe como un modelo de difusión para texto a imagen y edición imagen a imagen, con un máximo de 1.048.576 píxeles por salida, equivalente a 1024 x 1024.
El mismo documento indica que su primera disponibilidad llega a través de integraciones en productos y servicios de Microsoft, como Azure AI Foundry y MAI Playground.
En voz y audio, Microsoft dividió la oferta en dos frentes. MAI-Transcribe-1.5 se dedica a convertir audio en texto y, según Microsoft AI, incorpora soporte para terminología específica por dominio en 43 idiomas.
En el escenario de Build 2026, Microsoft añadió que ya se está integrando en Copilot, Teams, GitHub y Dynamics 365 Contact Center. MAI-Voice-2, en cambio, se centra en síntesis de voz en 15 idiomas, con adaptación a una voz a partir de una muestra breve y con salvaguardas frente a usos indebidos. La versión Voice-2-Flash quedó anunciada como una opción más rápida y barata para agentes de voz con baja latencia.
La familia también muestra una estrategia de distribución más abierta. En su anuncio, Microsoft AI dijo que los modelos estarán en Foundry y que también llegarán a plataformas para desarrolladores como OpenRouter, Fireworks y Baseten. Para quienes siguen cómo se mueve la adopción de IA en entornos de trabajo, este tipo de integración importa porque acerca los modelos a herramientas empresariales ya instaladas; ese es el mismo terreno donde suele aparecer la adopción de IA en empresas cuando pasa de pruebas aisladas a uso diario.
El anuncio de Microsoft no describe una ruptura con OpenAI. Lo que sí deja ver es una Microsoft más interesada en controlar una parte mayor de su propia pila de modelos. Eso le permite decidir con más precisión dónde optimiza costos, dónde integra funciones nativas y en qué productos quiere depender menos de proveedores externos.


