Los modelos MAI de Microsoft ya están disponibles en Microsoft Foundry y en MAI Playground, con una apuesta en tres frentes que hoy concentran buena parte del mercado de IA aplicada: transcripción de audio, generación de voz y creación de imágenes. La novedad incluye MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, una nueva familia propia con la que Microsoft busca ampliar su oferta más allá de sólo integrar tecnología de OpenAI.

La parte más relevante de este anuncio es que no se trata solo de una demo o de un avance de laboratorio. Microsoft presentó precios, disponibilidad inmediata y usos claros para desarrolladores y empresas. Según la compañía, MAI-Transcribe-1 ofrece transcripción de voz a texto en 25 idiomas de alto uso y mejora la velocidad por lotes frente a su oferta Azure Fast. MAI-Voice-1 añade generación de voz con opción de crear una voz personalizada a partir de pocos segundos de audio. MAI-Image-2, por su lado, acelera la generación de imágenes y ya empezó a desplegarse también en productos como Bing y PowerPoint.

Parecida a la agresividad que mostró Google las últimas semanas incorporando traducción en tiempo real a Google Translate.

Qué traen los modelos MAI de Microsoft

Microsoft ordenó el lanzamiento alrededor de tres necesidades prácticas. La primera es convertir audio en texto con menos fricción. En ese punto, la empresa afirma que MAI-Transcribe-1 logra resultados de primer nivel en el benchmark FLEURS y que fue diseñado para rendir bien en entornos reales, con ruido y grabaciones menos limpias. También informó un precio inicial de 0,36 dólares por hora, lo que sugiere una estrategia agresiva para ganar adopción en flujos de reuniones, atención al cliente, medios y documentación automática.

La segunda pieza es MAI-Voice-1. Aquí Microsoft no habla solo de lectura en voz alta, sino de una voz más natural y expresiva, pensada para asistentes de audio, narración y lo que la industria suele describir como agentes de voz. La función más llamativa es la creación segura de una voz personalizada con unos pocos segundos de muestra. Según Microsoft, el modelo puede generar 60 segundos de audio en un segundo, con un precio inicial de 22 dólares por cada millón de caracteres.

La tercera pieza es MAI-Image-2, un modelo de imágenes que la empresa presenta como más rápido y competitivo en relación entre costo y rendimiento. Microsoft sostiene que los usuarios ya ven tiempos de generación al menos dos veces más rápidos en Foundry y Copilot, con una calidad similar, y que el modelo fue ajustado para necesidades muy concretas: luz natural, tonos de piel más precisos y texto claro dentro de la imagen. También indicó un precio desde 5 dólares por millón de tokens de entrada de texto y 33 dólares por millón de tokens de salida de imagen. WPP aparece entre los primeros socios empresariales que ya trabajan con esta tecnología a escala.

Como afectan los modelos MAI a desarrolladores y empresas

TechCrunch y VentureBeat coinciden en que este lanzamiento muestra a una Microsoft más decidida a construir parte de su propia capa de modelos, incluso mientras mantiene su relación con OpenAI. En términos simples, Microsoft quiere vender una plataforma donde el cliente no solo consuma modelos ajenos, sino también modelos propios integrados con sus productos, controles y precios.

Eso puede tener efectos prácticos rápidos. Para equipos que ya trabajan dentro de Foundry, los modelos MAI reducen la cantidad de piezas externas necesarias para montar transcripción, voz e imagen en un mismo entorno. Para empresas, el atractivo no pasa solo por el benchmark, sino por el paquete completo: disponibilidad inmediata, herramientas de gobierno, despliegue empresarial y una integración más cercana con productos que ya usan a diario.

También hay una señal importante en precios. Microsoft remarca que los modelos MAI fueron lanzados con tarifas agresivas frente a otros proveedores grandes. Si esa promesa se sostiene en uso real, el efecto puede sentirse en el mercado: desde productos de audio y subtitulado hasta herramientas creativas, asistentes corporativos y software de marketing. No cambia por sí solo el mapa de la IA, pero sí refuerza una tendencia clara: las grandes plataformas ya no quieren depender de un solo proveedor de modelos para construir sus productos estrella.

Fuentes

 

 

Recommended Posts
0
Veo 3.1 Lite