본문 바로가기
AI

마이크로소프트 MAI 모델 3종 완벽 정리 — ChatGPT보다 싸고 빠른 AI 음성·이미지 도구 등장

by AI 써먹기 2026. 4. 17.
반응형

2026년 4월 2일, 마이크로소프트가 처음으로 자체 개발한 AI 모델 3종을 공개했다. 이름은 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2. 각각 음성 인식, 음성 생성, 이미지 생성을 담당하는 전문 모델들이다.

이 발표가 단순한 신제품 출시 이상의 의미를 갖는 건, 마이크로소프트가 지금껏 OpenAI 기술에 의존해왔기 때문이다. ChatGPT를 만든 OpenAI에 수백억 달러를 투자하고 그 기술을 Bing, Copilot, Azure에 얹어온 게 지금까지의 전략이었는데, 이번에 처음으로 외부 의존 없이 완전히 자체 개발한 모델을 내놓은 거다. DeepMind 공동창업자 출신의 Mustafa Suleyman이 이끄는 MAI(Microsoft AI) Superintelligence 팀이 2025년 11월 결성 이후 약 5개월 만에 만들어낸 결과물이다.

목차

마이크로소프트가 직접 AI를 만들기 시작한 배경

2023년 이후 마이크로소프트는 GPT-4, GPT-4o 등 OpenAI 모델을 Azure에 공급하며 AI 클라우드 시장을 공략해왔다. 전략은 제대로 먹혔다. Azure AI 매출은 가파르게 성장했고, Copilot 브랜드는 오피스와 윈도우에 자연스럽게 녹아들었다.

그런데 균열이 생기기 시작했다. OpenAI가 기업 고객을 위한 독립 제품을 강화하면서 마이크로소프트와의 역할 분담이 흐릿해진 거다. 동시에 Meta의 Llama 4, Google의 Gemma 4 같은 강력한 오픈소스 모델들이 연달아 쏟아지면서 "굳이 OpenAI 모델이어야 하는가"라는 질문이 Azure 고객들 사이에서도 나오기 시작했다.

마이크로소프트가 선택한 방향은 명확했다. 특정 작업에 특화된 소형 전문 모델을 자체 개발해 비용을 낮추는 것이다. 범용 거대 언어 모델과 경쟁하는 게 아니라, 기업 현장에서 실제로 많이 쓰는 워크플로—음성 인식, 음성 합성, 이미지 생성—에서 먼저 자체 경쟁력을 확보하겠다는 전략이다. (TechCrunch, 2026년 4월 2일)

MAI-Transcribe-1 — 업계 최고 수준의 음성 인식, 한국어도 된다

MAI-Transcribe-1은 음성을 텍스트로 변환하는 STT(Speech-to-Text) 모델이다. 25개 언어를 지원하며 한국어가 공식 지원 목록에 포함된다. (Microsoft MAI-Transcribe-1 Model Card, 2026년 4월 2일)

성능 수치가 눈에 띈다. FLEURS 벤치마크(다국어 음성 인식 표준 평가)에서 상위 25개 언어 중 11개 언어에서 1위를 차지했다. 단어 오류율(WER)은 3.8%인데, 쉽게 말하면 100단어를 인식했을 때 약 4단어 정도만 틀린다는 의미다. OpenAI Whisper보다 낮은 오류율이라는 게 마이크로소프트의 설명이다.

속도도 강점이다. 기존 Azure Fast 배치 전사 서비스보다 2.5배 빠르고, GPU 비용은 약 50% 낮다. 대용량 회의 녹화나 강의 자막 생성 작업에서 실질적인 시간·비용 절감이 가능하다. 가격은 오디오 1시간당 $0.36(약 500원). OpenAI Whisper API가 동일하게 $0.36/시간이므로, 같은 비용에 더 빠른 속도와 더 낮은 오류율을 제공한다는 게 핵심 메시지다.

Azure Speech 서비스와 통합되어 있어 기존에 Azure를 쓰는 기업이라면 추가 인프라 구축 없이 바로 적용할 수 있다. 콜센터 녹취 분석, 유튜브 자막 자동화, 다국어 회의 기록 시스템 등에서 도입 검토를 시작해볼 만한 수준이다.

MAI-Voice-1 — 60초 음성을 1초에, 내 목소리도 복제 가능

MAI-Voice-1은 텍스트를 자연스러운 음성으로 바꾸는 TTS(Text-to-Speech) 모델이다. 가장 눈에 띄는 수치는 생성 속도다. 단일 GPU 환경에서 60초 분량의 오디오를 1초 만에 만들어낸다. 실시간 응답이 필요한 AI 음성 비서, 자동 IVR(전화 자동 응대), 유튜브 나레이션 자동화 같은 용도에서 체감이 다르다.

가격은 텍스트 100만 글자당 $22다. OpenAI TTS-1이 $15이고 TTS-1 HD가 $30이니 중간 정도 가격대인 셈이다. 마이크로소프트는 이 가격에서 생성 속도와 음질이 앞선다고 주장한다.

특히 주목할 기능은 퍼스널 보이스(Personal Voice)다. 약 10초 분량의 음성 샘플만 있으면 특정 인물의 목소리 특성을 학습해 동일한 음색으로 음성을 생성할 수 있다. 이미 Microsoft Copilot의 오디오 표현 기능과 팟캐스트 자동화 도구에 적용되어 있다. 다만 음성 복제 기술인 만큼 악용 방지를 위해 별도 승인 과정이 필요하다.

MAI-Image-2 — 글자도 잘 그리는 이미지 AI

MAI-Image-2는 텍스트 설명을 고품질 이미지로 변환하는 이미지 생성 모델이다. 2026년 3월 19일 MAI Playground에서 먼저 공개된 후 4월 2일 Azure Foundry를 통해 정식 출시됐다. Arena.ai 리더보드에서 전 세계 이미지 생성 모델 상위 3위 안에 드는 성능으로 평가받는다.

기존 이미지 AI의 오래된 약점이 텍스트 렌더링이었다. "Hello World"라고 요청하면 철자가 뒤섞이거나 엉뚱한 글자가 나오는 문제가 DALL-E나 Midjourney에서도 빈번했는데, MAI-Image-2는 이 부분이 크게 개선됐다는 평가다. 인포그래픽처럼 이미지 안에 글자가 필요한 작업, 제품 배너나 SNS 카드뉴스 제작에서 강점이 두드러진다.

Foundry와 Copilot 환경에서 기존 마이크로소프트 이미지 도구 대비 최소 2배 빠른 속도를 낸다. 가격은 텍스트 입력 100만 토큰당 $5, 이미지 출력 100만 토큰당 $33이다. 이미지 한 장을 뽑는 개인 사용자보다는 마케팅 콘텐츠를 대량으로 자동 생성하는 팀에서 가성비가 두드러진다.

OpenAI·Google과 가격 직접 비교

세 모델의 가격을 경쟁사와 나란히 놓으면 다음과 같다.

기능 Microsoft MAI OpenAI Google Cloud
음성 인식 (STT) $0.36/시간 (MAI-Transcribe-1) $0.36/시간 (Whisper) $0.004~$0.009/15초
음성 생성 (TTS) $22/M 글자 (MAI-Voice-1) $15/M 글자 (TTS-1) $4~$16/M 글자
이미지 생성 $33/M 출력 토큰 (MAI-Image-2) $0.04/장 (DALL-E 3) Imagen 별도 요금
STT 지원 언어 25개 (한국어 포함) 57개 (Whisper) 125개 이상
TTS 생성 속도 60초 오디오를 1초에 비공개 비공개

STT에서는 OpenAI와 가격이 같지만 속도와 정확도에서 앞선다고 주장한다. TTS는 OpenAI보다 7달러 비싸지만 생성 속도가 월등히 빠르다. 이미지 생성은 단위 구조 자체가 달라 단순 비교가 어려운데, 대용량 배치 환경에서는 토큰 기반 과금이 더 효율적일 수 있다.

한 가지 짚고 넘어가야 할 부분이 있다. 지원 언어 수에서 OpenAI Whisper(57개)와 Google(125개 이상)이 훨씬 넓다. 25개 언어만 지원하는 MAI-Transcribe-1은 다양한 언어를 동시에 다루는 글로벌 서비스에는 아직 제약이 있다. 한국어 단일 환경이라면 문제없지만, 동남아시아나 중동 언어까지 요구한다면 먼저 확인이 필요하다.

한국에서 어떻게 쓸 수 있나?

세 모델 모두 Microsoft Foundry(ai.azure.com)를 통해 API 방식으로 접근할 수 있다. Azure 계정만 있으면 Foundry 포털에서 각 모델을 선택하고 API 키를 발급받아 프로젝트에 연동할 수 있다. 한국 리전을 포함한 글로벌 Azure 인프라에서 제공되므로 국내 기업도 바로 사용 가능하다.

더 간단하게 체험하려면 MAI Playground가 있는데, 현재는 미국 접근만 가능하다. 한국에서 직접 브라우저로 접근하기 어렵고, VPN을 써도 안정적인 접속이 보장되지 않는다. 실무 도입을 검토한다면 Playground보다는 Foundry API를 직접 테스트하는 편이 현실적이다.

실무 활용 시나리오를 몇 가지 들면 이렇다.

  • 콜센터 녹취 자동 분석 및 CS 품질 평가 (MAI-Transcribe-1)
  • 사내 AI 안내 시스템이나 오디오북 자동 제작 (MAI-Voice-1)
  • 마케팅 SNS 배너와 제품 인포그래픽 자동 생성 (MAI-Image-2)
  • 강의·세미나 영상 자막 자동 생성 파이프라인 (MAI-Transcribe-1)

마이크로소프트 AI 전략의 다음 수는?

이번 3종 모델 출시는 시작일 가능성이 높다. 마이크로소프트는 4월 7일, Anthropic의 Claude 모델을 지원하기 위한 Google·Broadcom과의 컴퓨팅 확장 계약도 체결했다. (TechCrunch, 2026년 4월 7일) 자체 모델을 키우면서 동시에 외부 파트너 모델도 지원하는, 양방향 전략이다.

Mustafa Suleyman 팀이 음성·이미지에서 성과를 냈으니 다음은 텍스트 생성 분야의 자체 모델이 나올 가능성도 있다. 실제로 지난해부터 마이크로소프트 내부에서 자체 언어 모델 개발이 진행 중이라는 보도가 여러 차례 나온 바 있다. OpenAI와의 파트너십이 이어지는 동시에 자체 경쟁력을 조용히 쌓아가는 형국이다.

Azure를 쓰는 국내 기업이라면 이번 발표로 선택지가 하나 더 생긴 셈이다. 기존에 OpenAI API나 Google Cloud STT를 쓰던 곳이라면 속도·가격·한국어 지원 세 가지를 기준으로 MAI 모델과 직접 비교 테스트를 해볼 이유가 충분하다.

반응형