메타, 새로운 라마 4 AI 모델 출시

메타, 라마 4 시리즈의 첫 두 모델 공개
메타가 라마 4 제품군의 첫 두 모델인 '라마 4 매버릭(Llama 4 Maverick)'과 '라마 4 스카우트(Llama 4 Scout)'를 출시했습니다. 매버릭 모델은 일반적인's 비서 및 채팅 용도의 "워크호스"로 설계되었으며, 스카우트는 "다중 문서 요약, 개인화된 작업을 위한 광범위한 사용자 활동 분석, 방대한 코드베이스에 대한 추론" 등에 더 적합합니다.
이 기술 거인은 또한 자사가 세계에서 가장 스마트한 LLM 중 하나라고 주장하는 '라마 4 비히모스(Llama 4 Behemoth)'를 소개했습니다. 추가로 몇 주 안에 출시될 네 번째 모델인 '라마 4 리즈닝(Llama 4 Reasoning)'도 언급했습니다.
많은 사람들이 메타가 중국의 딥시크(DeepSeek)의 "위협"에 대응할 것으로 예상해왔습니다. 딥시크는 메타의 이전 플래그십 라마 모델을 포함한 최고 AI 모델들과 비슷한 성능을 보이면서도 훨씬 적은 비용으로 운영된다고 보고되었습니다. 이러한 주장이 논쟁의 여지가 있지만, 딥시크가 AI 환경을 재편한 것은 부인할 수 없습니다. 메타가 라마 4를 소개하는 블로그 포스트에서 딥시크와의 비교를 직접 언급한 것은 놀라운 일이 아닙니다.
메타는 4월 29일 예정된 라마콘(LlamaCon) 훨씬 전에 최신 릴리스를 발표하기로 결정했습니다. 이는 개발자들에게 새 모델을 다운로드하고 실험할 충분한 시간을 제공합니다. 흥미롭게도, 이 발표는 대부분의 기술 발표가 진행되지 않는 토요일에 이루어졌습니다. 스레드(Threads)에서 주말 라마 4 출시에 대해 질문을 받았을 때, 메타 CEO 마크 저커버그는 간단히 "그때 준비가 되었기 때문"이라고 답했습니다.

사양에 따르면, 라마 4 매버릭은 매우 유능한 모델로 보입니다. 170억 개의 활성 매개변수와 128개 전문가에 분산된 총 4,000억 개의 매개변수를 갖추고 있으며, 효율성을 극대화하기 위해 전문가 혼합(MoE) 아키텍처를 활용합니다. 효율성을 위해 설계되었으며, 멀티모달 작업을 지원하고, 단일 NVIDIA H100 DGX 호스트에서 배포할 수 있습니다.
반면 라마 4 스카우트는 총 1,090억 개의 매개변수와 16개의 전문가 내에서 170억 개의 활성 매개변수를 제공합니다. 가장 두드러진 특징은 1,000만 토큰의 컨텍스트 윈도우로, 방대한 양의 텍스트나 대용량 문서를 효과적으로 처리할 수 있습니다. 스카우트의 효율성 덕분에 단일 NVIDIA H100 GPU에서 실행할 수 있습니다.
이번이 라마 모델에 MoE 아키텍처가 사용된 첫 사례입니다. 이 아키텍처를 사용하면 작업을 더 작은 부분으로 나누고 특정 부분을 처리하는 전문 "전문가" 모델에 할당함으로써 훈련 및 쿼리 응답이 더 효율적으로 이루어집니다.
매버릭과 스카우트는 현재 라마 웹사이트와 허깅 페이스(Hugging Face)에서 다운로드할 수 있습니다. 또한 메타 AI에 통합되어 WhatsApp, Messenger, Instagram DM과 같은 플랫폼을 통해 접근할 수 있습니다.
메타는 "이것은 라마 4 컬렉션의 시작일 뿐"이라고 밝혔습니다. "가장 지능적인 시스템은 일반화된 행동을 취하고, 인간과 자연스럽게 대화하며, 이전에 보지 못한 까다로운 문제를 해결할 수 있어야 한다고 믿습니다."
"이러한 영역에서 라마에 초능력을 부여하면 우리 플랫폼의 사용자에게 더 나은 제품을 제공하고 개발자들이 다음 큰 소비자 및 비즈니스 사용 사례에 혁신을 가져올 수 있는 더 많은 기회를 제공할 것입니다. 우리는 계속해서 모델과 제품을 연구하고 프로토타입을 만들고 있으며, 라마콘에서 우리의 비전에 대해 더 많은 정보를 공유할 것입니다."
출시 예정인 비히모스 모델은 2,880억 개의 활성 매개변수, 16개의 전문가, 거의 2조 개에 달하는 총 매개변수로 더 강력한 하드웨어를 제공합니다. 메타의 내부 벤치마킹에 따르면, 비히모스는 STEM 기술을 측정하는 여러 평가에서 GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Pro보다 우수한 성능을 보입니다.

주목할 만한 점은, 라마 4 모델 중 어느 것도 OpenAI의 o1 및 o3-mini와 같은 완전한 추론 모델로 기능하지 않는다는 것입니다. 추론 모델은 응답을 사실 확인하고 더 신뢰할 수 있는 답변을 제공하도록 설계되었지만, 일반적으로 기존의 비추론 모델에 비해 결과를 생성하는 데 더 많은 시간이 걸립니다.
메타는 라마 4 모델을 미세 조정하여 챗봇이 편향, 특히 "논쟁의 여지가 있는 정치적 또는 사회적 주제 세트"를 처리하는 방식을 조정했다고 공유했습니다. 이는 일부 정치 인사들, 특히 일론 머스크와 데이비드 삭스와 같은 인물들이 AI 챗봇이 종종 특정 이데올로기에 치우친다고 주장하면서 AI 기업들이 압력을 받고 있는 시기에 발표되었습니다. 그러나 AI 편향은 지속적이고 근본적인 문제이며, 곧 완전히 해결되지 않을 수도 있습니다.
최근 인스타그램 비디오에서 저커버그는 회사의 "목표는 세계 최고의 AI를 구축하고, 오픈소스화하며, 전 세계가 혜택을 받을 수 있도록 보편적으로 접근 가능하게 만드는 것"이라고 말했습니다. "저는 한동안 오픈소스 AI가 선도적인 모델이 될 것이라고 말해왔으며, 라마 4와 함께 그것이 실현되기 시작하고 있습니다."
라마 4 시리즈에 대한 메타의 성능 주장은 "널리 보고된 다양한 벤치마크"의 결과를 기반으로 합니다. 특히, 매버릭은 잘 알려진 벤치마킹 플랫폼인 LMArena에서 2위를 차지했습니다. 그러나 AI 커뮤니티에서는 테스트된 라마 4 모델이 벤치마크에 맞게 특별히 "최적화"되었을 가능성이 있어 점수가 부풀려지고 오해의 소지가 있다는 미확인 보고서에 대해 논의하고 있습니다.
메타의 생성형 AI 부문 부사장인 Ahmad Al-Dahle은 이러한 소문을 빠르게 부인했습니다. "테스트 세트로 훈련했다는 주장도 들었는데, 그것은 단순히 사실이 아니며 우리는 절대로 그렇게 하지 않았을 것입니다,"라고 Al-Dahle은 자신의 X 계정에서 공유했습니다.

Al-Dahle은 일부 사용자들이 매버릭과 스카우트에서 "혼합된 품질"을 경험하고 있다고 인정했습니다. 그는, "우리가 모델이 준비되자마자 바로 출시했기 때문에, 모든 공개 구현이 제대로 조정되기까지는 며칠이 걸릴 것으로 예상합니다."라고 이러한 문제를 모델의 조기 출시 탓으로 돌렸습니다. Al-Dahle은 팀이 적극적으로 버그 수정을 처리하고 전반적인 사용자 경험을 개선하기 위해 파트너 온보딩 작업을 진행 중이라고 덧붙였습니다.
메타가 시스템을 조작하려 했는지 여부와 상관없이, 널리 퍼진 소문들은 벤치마크의 신뢰성에 의문을 던지기에 충분했습니다. 이러한 플랫폼들은 객관적인 성능 평가를 제공하기보다는 기업들이 우위를 차지하기 위해 경쟁하는 AI 전장으로 변모했습니다.