7가지 인기 있는 LLM 아키텍처 소개

우리는 일상적인 많은 작업에서 대규모 언어 모델(LLM)을 사용합니다. 이러한 모델들은 수십억 개의 온라인 문서와 다양한 데이터셋을 학습하여 인간과 유사한 언어로 이해, 해석, 응답할 수 있습니다. 그러나 모든 LLM이 동일하게 만들어진 것은 아닙니다. 핵심 개념은 비슷하지만, 기본 아키텍처에 차이가 있으며, 이러한 차이점이 성능에 큰 영향을 미칩니다. 다양한 벤치마크에서 볼 수 있듯이, DeepSeek는 추론 작업에 탁월하고, Claude는 코딩에 강점이 있으며, ChatGPT는 창의적 글쓰기에서 두각을 나타냅니다.
이 글에서는 7개의 인기 있는 LLM 아키텍처를 간단하게 소개하겠습니다. 시작해 볼까요?
1. BERT
2018년 Google이 개발한 BERT는 언어 모델링에 깊은 양방향 주의 메커니즘을 도입하여 자연어 이해에 큰 변화를 가져왔습니다. 이전 모델들이 왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽으로 텍스트를 읽는 방식과 달리, BERT는 트랜스포머 인코더를 사용하여 양방향을 동시에 고려합니다.
BERT는 두 가지 작업으로 훈련됩니다: 마스크된 단어 예측(무작위로 가려진 단어 예측)과 다음 문장 예측(한 문장이 논리적으로 다른 문장에 이어지는지 판단). 구조적으로 BERT는 두 가지 크기로 제공됩니다: BERT Base(12개 층, 1억1천만 매개변수)와 BERT Large(24개 층, 3억4천만 매개변수).
BERT의 구조는 인코더 스택에 전적으로 의존하며 [CLS]와 같은 특수 토큰을 포함하여 전체 문장을 표현하고, [SEP]를 통해 두 문장을 구분합니다. 감정 분석, 질문 답변(SQuAD 등) 등의 작업에 미세 조정할 수 있습니다. BERT는 문장의 전체 의미를 진정으로 이해한 최초의 모델이었습니다.
2. GPT
GPT(Generative Pre-trained Transformer) 시리즈는 OpenAI에서 소개했습니다. 이 시리즈는 2018년 GPT-1부터 시작하여 2023년 GPT-4로 발전했으며, 2024년 5월에 출시된 최신 버전 GPT-4o는 텍스트와 이미지를 모두 처리하는 멀티모달 기능을 갖추고 있습니다.
GPT 모델들은 매우 큰 텍스트 코퍼스에서 표준 다음-토큰 예측 언어 모델링 목표로 사전 훈련됩니다: 각 단계에서 모델은 이전 단어들이 주어졌을 때 시퀀스의 다음 단어를 예측합니다. 이 비지도 사전 훈련 단계 이후, 동일한 모델을 특정 작업에 미세 조정하거나 최소한의 추가 매개변수로 제로샷/퓨샷 방식으로 사용할 수 있습니다.
디코더 전용 설계는 BERT의 양방향 인코더와 달리 GPT가 이전 토큰만 참조한다는 것을 의미합니다. GPT 도입 당시 주목할만한 점은 GPT의 규모와 능력이었습니다: 각 세대(GPT-2, GPT-3)가 커질수록, 모델은 매우 유창한 텍스트 생성과 퓨샷 학습 능력을 보여주었고, 대규모 언어 모델에 대한 "사전 훈련 및 프롬프트/미세 조정" 패러다임을 확립했습니다.
그러나 이들은 독점적이며, 일반적으로 API를 통해 접근할 수 있고, 특히 최신 버전의 정확한 아키텍처는 완전히 공개되지 않았습니다.
3. LLaMA
LLaMA는 Meta AI에서 개발하여 2023년 2월에 처음 출시된 오픈소스 디코더 전용 트랜스포머 모델 시리즈입니다. 70억에서 700억 매개변수 범위를 가지며, 최신 버전인 Llama 4는 2025년 4월에 출시되었습니다.
GPT와 마찬가지로 LLaMA는 트랜스포머 디코더 전용 아키텍처(각 모델은 자기회귀적 트랜스포머)를 사용하지만 일부 아키텍처 변형이 있습니다. 예를 들어, 원래 LLaMA 모델은 GeLU 대신 SwiGLU 활성화 함수를, 고정 임베딩 대신 회전 위치 임베딩(RoPE)을, 그리고 계층 정규화 대신 RMSNorm을 사용했습니다.
LLaMA 시리즈는 LLaMA1에서 7B부터 65B 매개변수까지, 이후 LLaMA3에서는 더 큰 크기로 출시되어 대규모 모델을 더 접근하기 쉽게 만들었습니다. 주목할 만한 점은 비교적 적은 매개변수 수에도 불구하고, 이 모델들이 훨씬 더 큰 동시대 모델들과 경쟁력 있게 수행했다는 것입니다: Meta는 LLaMA의 13B 모델이 OpenAI의 175B GPT-3를 많은 벤치마크에서 능가했으며, 65B 모델은 Google의 PaLM 및 DeepMind의 Chinchilla와 같은 동시대 모델들과 경쟁력이 있다고 보고했습니다.
LLaMA의 오픈(연구 제한적이지만) 출시는 광범위한 커뮤니티 사용을 촉진했습니다. 주요 혁신은 대규모의 효율적인 훈련과 모델 가중치에 대한 더 개방적인 접근을 결합한 것입니다.
4. PaLM
PaLM(Pathways Language Model)은 Google Research에서 개발한 대규모 언어 모델 시리즈입니다. 2022년 발표된 원래 PaLM은 5400억 매개변수를 가진 디코더 전용 트랜스포머로, Google의 Pathways 시스템의 일부입니다.
PaLM은 7800억 토큰의 고품질 코퍼스에서 훈련되었으며, Google 인프라의 수천 개의 TPU v4 칩에서 병렬 처리를 통해 높은 하드웨어 활용률을 달성했습니다. 이 모델은 또한 추론 중 메모리 대역폭 요구 사항을 줄이기 위해 다중 쿼리 주의 메커니즘을 사용합니다.
PaLM은 퓨샷 학습 능력으로 유명하며, 웹 페이지, 책, 위키피디아, 뉴스, GitHub 코드, 소셜 미디어 대화를 포함하는 대규모이고 다양한 훈련 데이터 덕분에 최소한의 예시로 새로운 작업에서 좋은 성능을 보입니다.
2023년 5월에 발표된 PaLM 2는 다국어, 추론, 코딩 능력을 더욱 향상시켰으며, Google Bard 및 Workspace AI 기능과 같은 애플리케이션을 지원합니다.
5. Gemini
Gemini는 2023년 말에 소개된 Google의 차세대 LLM 시리즈(Google DeepMind 및 Google Research에서 개발)입니다. Gemini 모델은 기본적으로 멀티모달로, 하나의 모델에서 텍스트, 이미지, 오디오, 비디오, 심지어 코드까지 처리하도록 설계되었습니다.
PaLM 및 GPT와 마찬가지로 Gemini는 트랜스포머를 기반으로 하지만, 주요 특징으로는 대규모 스케일, 매우 긴 컨텍스트 지원, 그리고 (Gemini 1.5에서) 효율성을 위한 전문가 혼합(MoE) 아키텍처가 있습니다.
예를 들어, Gemini 1.5("Pro")는 희소 활성화 전문가 레이어(수백 개의 전문가 서브네트워크 중 입력당 몇 개만 활성화)를 사용하여 비례적인 컴퓨팅 비용 없이 용량을 증가시킵니다.
2025년 3월에 출시된 Gemini 2.5 시리즈는 더 깊은 "사고" 능력으로 이 기반을 확장했습니다. 2025년 6월, Google은 Gemini 2.5 Flash와 Pro를 안정적인 모델로 출시하고, 가장 비용 효율적이고 빠른 버전인 Flash-Lite를 미리 공개했으며, 이는 검색 및 코드 실행과 같은 도구 통합과 백만 토큰 컨텍스트 창을 여전히 지원하면서 고처리량 작업에 최적화되었습니다.
Gemini 시리즈는 여러 크기(Ultra, Pro, Nano)로 제공되어 클라우드 서버부터 모바일 기기까지 다양한 환경에서 실행될 수 있습니다. 멀티모달 사전 훈련과 MoE 기반 스케일링의 조합으로 Gemini는 유연하고 높은 성능을 갖춘 기반 모델이 됩니다.
6. Mistral
Mistral은 2023년에 첫 LLM을 출시한 프랑스의 AI 스타트업입니다. 대표 모델인 Mistral 7B(2023년 9월)는 73억 매개변수의 트랜스포머 기반 디코더 모델입니다.
구조적으로 Mistral 7B는 GPT 스타일 모델과 유사하지만 추론을 위한 최적화가 포함되어 있습니다: 자기 주의를 가속화하기 위한 그룹화된 쿼리 주의(GQA)와 더 긴 컨텍스트를 효율적으로 처리하기 위한 슬라이딩 윈도우 주의를 사용합니다.
성능 측면에서 Mistral 7B는 Meta의 Llama 2 13B를 능가했으며 심지어 34B 모델과 비교해도 강력한 결과를 보여주면서도 훨씬 작은 크기를 유지했습니다. Mistral AI는 이 모델을 Apache 2.0 라이선스로 출시하여 자유롭게 사용할 수 있게 했습니다.
다음 주요 출시작은 Mixtral 8×7B로, 레이어당 8개의 7B 매개변수 전문가 네트워크를 갖춘 희소 전문가 혼합(MoE) 모델이었습니다. 이 설계 덕분에 Mixtral은 수학, 코딩, 다국어 벤치마크와 같은 작업에서 GPT-3.5 및 LLaMA 2 70B와 비슷하거나 더 나은 성능을 보였습니다.
2025년 5월, Mistral은 기업을 대상으로 한 독점 중형 모델인 Mistral Medium 3을 출시했습니다. 이 모델은 표준 벤치마크에서 Claude 3.7 Sonnet과 같은 더 비싼 모델 점수의 90% 이상을 제공하면서도 토큰당 비용을 크게 절감합니다(Sonnet의 $3.00 대비 약 $0.40). 다중 모달 작업(텍스트 + 이미지), 전문적인 추론을 지원하며, API를 통해 또는 최소 4개의 GPU에서 온프레미스 배포로 제공됩니다.
그러나 이전 모델과 달리 Medium 3은 비공개 소스로, Mistral이 오픈 소스 정신에서 벗어나고 있다는 커뮤니티 비판을 불러일으켰습니다. 이후 2025년 6월, Mistral은 명시적 추론에 전념하는 첫 번째 모델인 Magistral을 소개했습니다. 소형 버전은 Apache 2.0에 따라 개방되어 있지만, Magistral Medium은 기업 전용입니다. Magistral Medium은 AIME2024에서 73.6%를 기록했고, 소형 버전은 70.7%를 기록하여 여러 언어에서 강력한 수학 및 논리 기술을 보여주었습니다.
7. DeepSeek
DeepSeek는 중국의 AI 회사(High-Flyer AI에서 분사, 2023년 설립)로 대규모 LLM을 개발합니다. 최근 모델(DeepSeek v3 및 DeepSeek-R1 등)은 고도로 희소 활성화된 전문가 혼합 트랜스포머 아키텍처를 채택하고 있습니다.
DeepSeek v3/R1에서 각 트랜스포머 레이어는 수백 개의 전문가 서브네트워크를 가지고 있지만, 토큰당 몇 개만 활성화됩니다. 이는 모델의 모든 부분을 한 번에 실행하는 대신, 모델이 수백 개의 전문가 네트워크를 보유하고 각 입력에 필요한 몇 개(257개 중 9개 등)만 활성화한다는 의미입니다.
이를 통해 DeepSeek는 총 모델 크기가 매우 크지만(6700억 매개변수 이상) 각 응답 시 약 370억 매개변수만 사용하므로, 유사한 크기의 밀집 모델보다 훨씬 빠르고 저렴하게 실행할 수 있습니다.
다른 현대적인 언어 모델과 마찬가지로, SwiGLU 활성화, 회전 임베딩(RoPE), 고급 최적화(훈련 중 실험적인 FP8 정밀도 포함)를 사용하여 더 효율적으로 만듭니다.
이러한 적극적인 MoE 설계를 통해 DeepSeek는 더 낮은 컴퓨팅 비용으로 매우 높은 성능(훨씬 더 큰 밀집 모델과 비슷한)을 달성할 수 있습니다. 오픈 라이선스로 출시된 DeepSeek의 모델들은 훈련 및 추론 리소스 요구 사항을 크게 줄이면서도 다국어 생성 및 추론에서 GPT-4와 같은 주요 모델과 견줄 만한 성능을 보여 주목을 받았습니다.