본문 바로가기
AI

라마 4 Scout·Maverick 총정리: 10M 컨텍스트부터 한국어 성능까지

by AI 써먹기 2026. 4. 17.
반응형

6억 5천만 회. Meta의 Llama 모델군이 지금까지 기록한 누적 다운로드 숫자입니다. 2025년 4월 5일 메타가 Llama 4 Scout과 Maverick을 공개한 지 꼭 1년이 지났는데, 첫 네이티브 멀티모달 오픈소스로 등장한 두 모델은 여전히 오픈소스 AI 진영의 주역이죠. 그 사이 메타는 독자 모델 Muse Spark까지 내놓았고, 맏형 격인 Behemoth는 여전히 학습 단계에 머물러 있어요.

그러면 출시 1주년을 맞은 라마 4는 오늘 어디쯤 서 있을까요. 10M 토큰 컨텍스트, MoE 구조, 200개 언어 학습 같은 스펙만 보면 지금도 눈에 띄는 숫자가 많지만, 한국어 성능이나 실제 사용성으로 들어가면 기대와 현실 사이에 꽤 큰 간격이 존재하기 때문입니다. 메타 공식 자료와 한국 개발자 커뮤니티에 1년간 쌓인 실사용 후기를 함께 짚어, 라마 4 Scout·Maverick이 한국 사용자에게 주는 오늘의 가치를 정리했습니다.

목차

공개 1년을 맞은 라마 4, 지금 어디까지 왔나

2025년 4월 5일 메타가 Llama 4 시리즈를 공개했을 때 시장 반응은 뜨거웠습니다. 기존 Llama 3 계열과 달리 처음부터 텍스트·이미지·비디오를 모두 다루는 네이티브 멀티모달로 설계됐고, Mixture-of-Experts 구조를 공식 채택한 첫 Llama였기 때문이에요. 당시 공개된 것은 Scout과 Maverick 둘뿐이었고, 맏형 격인 Behemoth는 학습 중이라고 발표됐죠.

1년이 지난 지금의 지형도는 달라졌습니다. 컴퓨터월드 보도 기준 Behemoth는 여러 차례 연기된 끝에 아직 미공개 상태이고, 메타는 2026년 4월 8일 자체 슈퍼인텔리전스 랩의 독자 모델 Muse Spark를 새로 발표하면서 오픈소스 Llama와 프로프라이터리 Muse를 병행하는 이원 체계로 방향을 틀었어요.

그 사이에도 Llama 자체의 영향력은 커졌는데요. 메타 공식 자료 기준 Llama 모델군 누적 다운로드는 6억 5천만 회를 넘어섰고, WhatsApp·Instagram·Messenger·meta.ai 웹에 기본 탑재된 상태입니다. AWS Bedrock(한국 블로그 기준), IBM watsonx.ai, Runpod 같은 주요 클라우드에도 정식 지원 모델로 올라가며 기업 도입 경로가 크게 넓어졌죠. 라마 4는 이제 신상 스타라기보다 오픈소스 AI의 '기본값'에 가까운 위치로 자리 잡은 셈이다.

Scout vs Maverick, 두 모델의 차이 한눈에 보기

Scout와 Maverick은 이름만 다른 쌍둥이 형제가 아닙니다. 활성 파라미터는 둘 다 170억 개로 동일한데, 전체 파라미터와 전문가(expert) 수에서 크게 차이가 나거든요. Scout은 전문가 16개에 총 1,090억 파라미터, Maverick은 전문가 128개에 총 4,000억 파라미터 규모이죠.

컨텍스트 윈도우 역시 설계 철학이 다릅니다. Scout의 인스트럭트 버전은 업계 최고 수준인 10M 토큰의 장문 처리 능력을 갖추고 있는데요. 이에 비해 Maverick은 1M 토큰으로 상대적으로 짧지만, 전문가 수가 많아 복잡한 추론이나 멀티모달 분석에서 강점이 두드러집니다.

구분 Llama 4 Scout Llama 4 Maverick
활성 파라미터 170억 170억
총 파라미터 1,090억 4,000억
전문가 수 16 128
컨텍스트 윈도우(Instruct) 10M 토큰 1M 토큰
권장 하드웨어 H100 단일 GPU H100 DGX 호스트
대표 용도 초장문 문서, 긴 코드베이스 복잡 추론, 이미지 이해, 코드 생성

벤치마크 수치로 보면 Maverick이 한 수 위입니다. 허깅페이스 릴리스 노트 기준 Maverick의 MMLU-Pro는 80.5%, GPQA Diamond는 69.8%, 멀티모달 ChartQA는 85.3%를 기록했어요. Scout은 MMLU-Pro 74.3%, GPQA Diamond 57.2%로 순수 추론에서 8~12포인트 뒤처지는 셈이다. 대신 긴 문서 요약이나 대규모 코드 검색처럼 맥락 길이가 핵심인 작업에서는 10M 컨텍스트를 가진 Scout이 실무에 더 유용하다는 평가가 Runpod·Box AI 리뷰에서 공통적으로 등장하거든요.

MoE와 10M 컨텍스트 윈도우가 실제로 의미하는 것

Mixture-of-Experts, 우리말로 '전문가 혼합'은 표현은 멋있지만 감이 잘 안 올 수 있어요. 쉽게 비유하자면 AI 안에 여러 전문가가 대기하고 있다가, 질문이 들어오면 가장 잘 아는 전문가만 골라 답변을 만드는 구조라고 생각하면 됩니다. 덕분에 Scout은 1,090억 파라미터 중 170억 개만 활성화해도 훨씬 큰 밀집 모델에 근접한 품질이 나오고, Maverick도 4,000억 파라미터를 다 돌리지 않고 128명 중 일부만 호출해 운영 비용 면에서 효율적이죠.

10M 토큰 컨텍스트 윈도우도 숫자보다 실제 감각이 중요합니다. 영어 기준 약 750만 단어, 장편 소설로 치면 해리 포터 전 7권을 한 번에 집어넣고도 남는 분량인데요. 실무에서는 대규모 코드베이스 전체 검토, 수천 페이지 계약서 비교, 수년치 고객 상담 로그 분석 같은 작업이 하나의 프롬프트로 가능해졌다는 의미가 큽니다.

다만 컨텍스트가 길다고 해서 그 안을 '잘 추론한다'는 보장은 아니라는 점은 짚어둘 필요가 있어요. 허깅페이스 블로그의 MGSM 다국어 수학 벤치마크에서 Maverick은 92.3%로 Llama 3.1 405B의 91.6%를 근소하게 앞선 정도에 그쳤거든요. PyTorchKR에서도 Needle-in-a-Haystack(바늘 찾기) 점수는 높지만 실제 장문 활용에서는 기대만큼 안정적이지 않다는 지적이 공유되어 있습니다.

한국어는 얼마나 좋아졌을까, 기대와 현실 사이

라마 4의 한국어 지원은 공식 자료만 보면 상당히 매력적입니다. 메타 발표 기준 라마 4는 200개 언어로 사전 학습됐고, 이 중 100개 이상이 각각 10억 토큰 넘는 분량으로 투입됐다고 해요. 국내 AI 스타트업 Sionic AI의 토크나이저 분석 블로그에 따르면, Llama 4의 토크나이저는 한국어 표현 관점에서 Llama 3.3 대비 2.5배 수준으로 개선됐고, 기존 Qwen 계열보다도 한국어 친화적이라는 분석이에요.

토크나이저가 좋아졌다는 말은 같은 한국어 문장을 훨씬 적은 토큰으로 표현한다는 뜻입니다. 덕분에 추론 속도가 빨라지고 토큰 기반 과금 모델에서는 비용도 줄어드는 효과가 생기죠.

여기까지가 기대치라면, 현실은 조금 더 복잡합니다. PyTorchKR 디스커션과 arca.live 한국어 AI 로컬 채널에 올라온 실사용 후기를 모아보면 "벤치마크 대비 실제 한국어 답변 품질이 기대에 못 미친다"는 평가가 적지 않게 보이거든요. 특히 장문 답변이나 미묘한 뉘앙스 번역에서 Gemma 3 27B 같은 구형 모델에 뒤처진다는 후기가 남아 있습니다.

원인은 허깅페이스 공식 릴리스 노트의 instruction fine-tuning 명단에서 드러납니다. 라마 4 인스트럭션 튜닝은 아랍어·스페인어·독일어·힌디어 등 12개 언어에 대해서만 집중 진행됐고, 한국어는 이 명단에 들어 있지 않거든요. 학습 데이터는 한국어를 '이해할 만큼' 봤지만, 사람의 질문에 자연스럽게 답하는 대화형 튜닝은 한국어에서 충분히 이뤄지지 않았다는 뜻이에요. 토크나이저는 좋아졌지만 대화 품질이 그에 비례하지 않는 구조인 셈이죠. 순수 한국어 대화형 서비스에는 Claude Sonnet이나 GPT-5 계열, 또는 한국어 전용 파인튜닝 오픈소스 모델을 함께 고려하는 편이 현실적입니다.

한국에서 라마 4를 직접 써보는 세 가지 경로

한국에서 라마 4를 체험하는 길은 크게 세 갈래입니다. 예산과 기술 수준에 따라 선택이 달라지니, 내게 맞는 경로부터 골라 시작하면 좋아요.

첫 번째는 Meta AI 접속입니다. meta.ai 웹사이트에 로그인만 하면 Llama 4 기반 AI 어시스턴트와 바로 대화할 수 있고, WhatsApp·Instagram Direct·Messenger에서도 동일하게 제공되거든요. 무료이고 별도 설정이 없다는 장점이 크지만, 기능 일부는 국가 설정에 따라 이용 범위가 달라질 수 있다는 점은 유의해야 합니다.

두 번째는 허깅페이스에서 가중치를 직접 받아 자체 호스팅하는 방식입니다. meta-llama/Llama-4-Scout-17B-16E-Instruct 또는 meta-llama/Llama-4-Maverick-17B-128E-Instruct 저장소에서 Llama 4 커뮤니티 라이선스에 동의한 뒤 다운로드하면 돼요. transformers 4.51.0 버전 이상이 필요하고, Scout는 H100 단일 GPU, Maverick은 H100 DGX급 자원이 권장됩니다. INT4 양자화를 쓰면 RTX 4090 같은 소비자 GPU에서도 Scout을 구동할 수 있다는 점이 매력이죠.

세 번째는 클라우드 API를 활용하는 길입니다. AWS Bedrock의 서버리스 엔드포인트, IBM watsonx.ai, Runpod 같은 GPU 임대 플랫폼에서 라마 4를 정식 지원하는데요. 자체 서버 구축 없이 즉시 호출할 수 있고 사용량만큼 과금되기 때문에 개인 개발자나 스타트업이 빠르게 붙여보기 좋습니다. AWS 코리아 블로그에 정식 출시 공지가 올라와 있어 한국어 가이드를 참고하기도 편해요. 낮은 허들로 체험할 땐 meta.ai 웹, 서비스 개발엔 AWS Bedrock, 자체 호스팅과 파인튜닝엔 허깅페이스 직접 다운로드가 현실적인 조합입니다.

GPT-5·Gemini·Claude 사이에서 라마 4의 자리

2026년 4월 기준 플래그십 AI 시장은 GPT-5 계열, Claude 4·Sonnet, Gemini 3.x 프로·플래시, 그리고 오픈소스 진영의 라마 4·Qwen·DeepSeek로 구분되는 구도입니다. 라마 4의 강점은 이 표에서 드러납니다.

비교 항목 Llama 4 Maverick GPT-5 계열 Claude Sonnet 4.x Gemini 2.0 Flash
가중치 공개 공개(커뮤니티 라이선스) 비공개 비공개 비공개
컨텍스트 윈도우 1M 토큰 최대 1M(베타) 최대 1M(베타) 1M 토큰
멀티모달 텍스트·이미지 텍스트·이미지·음성 텍스트·이미지 텍스트·이미지
자체 호스팅 가능 불가 불가 불가
MMLU-Pro 80.5 상위권(비공식) 80대 내외 77.6

가중치가 공개돼 있다는 점은 다른 모델과 성격이 근본적으로 다릅니다. 기업 내부 데이터로 파인튜닝하거나, 외부 호출 없이 자체 인프라에서 돌릴 수 있다는 의미인데요. 의료·금융·공공처럼 데이터 반출이 까다로운 분야에서 라마 4가 여전히 1순위 후보로 꼽히는 이유죠. 다만 PyTorchKR과 arca.live 후기 기준, 순수 대화 품질이나 한국어 자연스러움에서는 Claude Sonnet 4.x·GPT-5에 비해 한 템포 늦다는 평가가 우세합니다.

선택 기준은 용도에 맞추는 편이 합리적이에요. 데이터 보안을 지키며 자체 인프라로 돌려야 하거나 10만 줄 이상 코드베이스·계약서·장기 대화 로그를 한 번에 분석하고 싶다면 Scout이 매력적이고, 이미지 기반 상담이나 복잡한 멀티모달 추론에는 Maverick이 낫습니다. 반면 일상 대화, 한국어 콘텐츠 작성, 즉각적인 답변 품질이 우선이라면 ChatGPT·Claude·Gemini가 여전히 손에 더 붙는 선택지입니다.

라마 4 Scout·Maverick은 출시 한 해를 채운 지금도 오픈소스 AI 진영의 기준점으로 남아 있어요. 완전히 개방된 가중치, 10M 토큰이라는 현존 최장 컨텍스트, 개선된 한국어 토크나이저는 대체하기 쉽지 않은 조합이거든요. 인스트럭션 튜닝의 언어 구성과 실제 대화 품질 사이의 간극은 아직 메워지지 않았지만, '자체 호스팅이 필요한가, 초장문 맥락이 필요한가'라는 질문에 해당하는 상황이라면 라마 4는 지금도 가장 먼저 검토할 가치가 있는 선택지입니다.

반응형