MAI-Transcribe-1 converte áudio em texto 2,5× mais rápido que o Azure Fast por US$ 0,36/hora. Acompanha MAI-Voice-1 para geração de voz e MAI-Image-2 para imagens. Português incluso.

Microsoft lança trio de modelos MAI: transcrição em 25 idiomas, voz e imagem com preço competitivo

A Microsoft lançou em 2 de abril um trio de modelos de IA desenvolvidos internamente pela sua equipe MAI Superintelligence, liderada por Mustafa Suleyman: MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2. Os três estão disponíveis no Microsoft Foundry e marcam a primeira vez que os modelos MAI chegam ao uso comercial amplo.

MAI-Transcribe-1 — transcrição de áudio em 25 idiomas

O MAI-Transcribe-1 converte áudio em texto com precisão em 25 dos idiomas mais falados do mundo — incluindo português, inglês, espanhol, francês, alemão, japonês, árabe e chinês. Segundo a Microsoft, o modelo supera concorrentes como Whisper-large-V3, GPT-Transcribe e Gemini 3.1 Flash-Lite no benchmark FLEURS, que mede taxa de erro por palavra em condições reais de áudio.

A velocidade de transcrição em lote é 2,5 vezes maior que a oferta atual do Azure Fast. O modelo foi projetado para lidar com ruído de fundo, áudio de baixa qualidade e falas simultâneas — situações comuns em reuniões, call centers e gravações de campo. O preço de entrada é US$ 0,36 por hora de áudio processado, disponível via Azure Speech SDK e REST API. Funcionalidades como transcrição em tempo real, diarização (identificação de quem falou o quê) e contextualização por domínio ainda estão previstas para versões futuras.

MAI-Voice-1 e MAI-Image-2 completam o trio

O MAI-Voice-1 é um modelo de geração de voz com foco em naturalidade e preservação de identidade do falante em conteúdos longos. Um dos recursos de destaque é a criação de voz personalizada de marca a partir de apenas alguns segundos de áudio gravado — útil para empresas que querem manter consistência de identidade sonora em produtos com IA.

O MAI-Image-2 é voltado para geração de imagens, com ênfase em iluminação natural, fidelidade de tons de pele e clareza de texto dentro das imagens — áreas onde modelos geradores costumam ter dificuldade. O modelo já estava disponível no MAI Playground desde março e agora chega ao Foundry.

O que isso significa para o mercado

O lançamento é um sinal claro de que a Microsoft está construindo sua própria pilha de modelos de IA para reduzir dependência da OpenAI — parceira histórica mas cada vez mais concorrente. Os três modelos são posicionados explicitamente com preço abaixo das alternativas da Google e da OpenAI. MAI-Transcribe-1 a US$ 0,36/hora compete diretamente com o Whisper da OpenAI, que na versão via API custa US$ 0,006 por minuto (~US$ 0,36/hora também), mas com a vantagem de, segundo a Microsoft, superar a acurácia em 11 dos 25 idiomas suportados.

Para desenvolvedores brasileiros, o suporte ao português está confirmado entre os 25 idiomas. A disponibilidade nas regiões East US e West US está ativa agora, com expansão global prevista para os próximos meses.