IBM Think 2025: IBM의 차세대 Granite 모델 미리보기 다운로드

IBM Think 2025에서 IBM은 오픈 소스 커뮤니티를 위해 예정된 Granite 4.0 언어 모델 시리즈 중 가장 작은 모델의 예비 버전인 Granite 4.0 Tiny Preview를 발표했습니다. IBM Granite 모델은 AI 기반 모델 시리즈입니다. 원래는 IBM의 클라우드 기반 데이터 및 생성형 AI 플랫폼인 Watsonx에서 다른 모델들과 함께 사용하기 위해 개발되었으나, IBM은 일부 코드 모델의 소스 코드를 공개했습니다. IBM Granite 모델은 인터넷, 학술 출판물, 코드 데이터셋, 법률 및 금융 문서에서 수집된 데이터셋으로 훈련됩니다.
FP8 정밀도에서 Granite 4.0 Tiny Preview는 매우 컴팩트하고 컴퓨팅 효율이 높습니다. 소비자급 하드웨어(GPU 포함)에서 실행할 수 있는 긴 컨텍스트(128K) 작업을 위한 여러 동시 세션을 허용합니다.
이 모델은 아직 부분적으로만 훈련되었지만(계획된 15T 이상의 훈련 토큰 중 2.5T만 적용됨), 이미 더 적은 활성 매개변수와 약 72%의 메모리 요구사항 감소에도 불구하고 IBM Granite 3.3 2B Instruct와 견줄 만한 성능을 제공합니다. IBM은 훈련 및 훈련 후 과정이 완료되면 Granite 4.0 Tiny의 성능이 Granite 3.3 8B Instruct와 비슷한 수준이 될 것으로 예상합니다.

이름에서 알 수 있듯이 Granite 4.0 Tiny는 Granite 4.0 모델 제품군 중 가장 작은 제품 중 하나가 될 것입니다. Granite 4.0 Small과 Granite 4.0 Medium을 포함하는 모델 라인업의 일부로 이번 여름에 공식 출시될 예정입니다. Granite 4.0은 효율성과 실용성을 기업용 LLM 개발의 초석으로 삼겠다는 IBM의 약속을 이어갑니다.
Granite 4.0 Tiny의 이 예비 버전은 현재 표준 Apache 2.0 라이선스 하에 Hugging Face에서 사용할 수 있습니다. IBM은 GPU가 부족한 개발자들이 소비자급 GPU에서 모델을 실험하고 개발할 수 있도록 허용하려고 합니다. 모델의 새로운 아키텍처는 Hugging Face transformers와 vLLM에서의 지원이 진행 중이며, IBM은 두 프로젝트 모두 곧 완료될 것으로 예상합니다. Ollama와 LMStudio를 포함한 플랫폼 파트너를 통해 이 모델을 로컬에서 실행하기 위한 공식 지원은 올 여름 전체 모델 출시 시점에 맞춰 제공될 예정입니다.
소비자 하드웨어에서의 엔터프라이즈 성능
IBM은 LLM 메모리 요구사항이 종종 적절한 컨텍스트 없이 제공된다고 언급합니다. 모델을 GPU에 성공적으로 로드할 수 있다는 것만 아는 것으로는 충분하지 않습니다. 하드웨어가 사용 사례에 필요한 컨텍스트 길이로 모델을 처리할 수 있는지 알아야 합니다.
또한 많은 기업 사용 사례에는 다중 모델 배포와 여러 동시 인스턴스의 배치 추론이 수반됩니다. 따라서 IBM은 긴 컨텍스트와 동시 세션을 고려하여 메모리 요구사항을 측정하고 보고하려고 노력합니다.
이러한 측면에서 IBM은 Granite 4.0 Tiny가 오늘날 가장 메모리 효율적인 언어 모델 중 하나라고 믿습니다. Granite 4.0의 여러 동시 인스턴스와 함께 매우 긴 컨텍스트에도 불구하고, Tiny는 적당한 소비자 GPU에서도 쉽게 실행할 수 있습니다.

새로운 하이브리드 MoE 아키텍처
이전 세대의 Granite LLM이 기존 트랜스포머 아키텍처를 활용했던 반면, Granite 4.0 제품군의 모든 모델은 Mamba의 속도와 효율성을 트랜스포머 기반 셀프-어텐션의 정밀도와 결합한 새로운 하이브리드 Mamba-2/트랜스포머 아키텍처를 사용합니다. Granite 4.0 Tiny-Preview는 세밀한 하이브리드 전문가 혼합(MoE) 모델로, 총 7B 매개변수와 추론 시간에 활성화되는 1B 매개변수만을 갖추고 있습니다.
Granite 4 아키텍처에 영향을 미친 많은 혁신은 IBM Research가 원래 Mamba 제작자들과 Bamba에 대해 협력한 결과에서 비롯되었으며, 그 후속 모델(Bamba v2)은 이번 주 초에 출시되었습니다.
Mamba 모델의 간략한 역사
Mamba는 2017년 트랜스포머 등장 약 6년 후인 2023년에 도입된 상태 공간 모델(SSM) 유형입니다.
SSM은 트랜스포머 이전 시대에 자연어 처리(NLP)를 지배했던 순환 신경망(RNN)과 개념적으로 유사합니다. 이들은 원래 현재 상태, 이전 상태 및 가능성 범위(상태 공간)에서만 정보를 사용하여 연속 시퀀스(전기 신호와 같은)의 다음 상태를 예측하도록 설계되었습니다. 수십 년 동안 여러 영역에서 사용되었지만, SSM은 RNN과 특정 단점을 공유하며, 최근까지 언어 모델링에 대한 잠재력을 제한했습니다.
트랜스포머의 셀프-어텐션 메커니즘과 달리, 기존 SSM에는 컨텍스트 정보의 특정 부분에 선택적으로 집중하거나 무시할 수 있는 고유한 능력이 없습니다. 따라서 2023년, 카네기 멜론 대학의 Albert Gu와 프린스턴 대학의 Tri Dao는 선택 메커니즘과 스캔 방법(계산 효율성을 위한)을 추가하는 구조화된 상태 공간 시퀀스("S4") 신경망 유형을 도입했습니다. 이를 "S6" 모델로 약칭하고, 트랜스포머와 경쟁할 수 있는 언어 모델링 결과를 달성했습니다. 그들은 여러 가지 이유 중에서도 모든 S가 뱀의 쉿 소리처럼 들린다는 이유로 모델을 "Mamba"라고 명명했습니다.
2024년, Gu와 Dao는 Mamba 아키텍처의 단순화되고 최적화된 구현인 Mamba-2를 출시했습니다. 더 중요하게도, 그들의 기술 논문은 SSM과 셀프-어텐션 간의 호환성을 자세히 설명했습니다.
Mamba-2 vs. 트랜스포머
Mamba가 트랜스포머 기반 모델보다 가지는 주요 이점은 효율성과 속도에 중점을 둡니다.
트랜스포머에는 중요한 약점이 있습니다: 셀프-어텐션의 계산 요구사항이 컨텍스트에 따라 2차로 확장됩니다. 다시 말해, 컨텍스트 길이가 두 배로 늘어날 때마다 어텐션 메커니즘은 단순히 두 배의 리소스를 사용하는 것이 아니라 네 배의 리소스를 사용합니다. 이 "2차 병목 현상"은 컨텍스트 창(및 해당 KV-캐시)이 커짐에 따라 속도와 성능을 점점 더 제한합니다.
반대로 Mamba의 계산 필요성은 선형적으로 확장됩니다: 입력 시퀀스의 길이를 두 배로 늘리면 Mamba는 리소스를 두 배만 사용합니다. 셀프-어텐션이 각 새 토큰에 대해 모든 이전 토큰의 관련성을 반복적으로 계산해야 하는 반면, Mamba는 이전 토큰에서 이전 컨텍스트의 압축된 고정 크기 "요약"을 유지합니다. 모델이 각 새 토큰을 "읽을" 때, 해당 토큰의 관련성을 결정한 다음 그에 따라 요약을 업데이트(또는 업데이트하지 않음)합니다. 본질적으로, 셀프-어텐션은 모든 정보를 유지한 다음 관련성에 따라 각각의 영향력을 가중치를 부여하는 반면, Mamba는 관련 정보만 선택적으로 유지합니다.
트랜스포머는 메모리를 더 많이 사용하고 계산 중복이 있지만, 이 방법에는 자체적인 장점이 있습니다. 예를 들어, 연구에 따르면 트랜스포머는 컨텍스트 내 학습(few-shot 프롬프팅 등), 복사 또는 장기 컨텍스트 추론이 필요한 작업에서 여전히 Mamba와 Mamba-2보다 성능이 뛰어납니다.
두 가지의 장점 모두 활용
다행히도, 트랜스포머와 Mamba의 각 강점은 상호 배타적이지 않습니다. 원래 Mamba-2 논문에서 저자 Dao와 Gu는 하이브리드 모델이 순수 트랜스포머나 SSM의 성능을 능가할 수 있다고 제안했으며, 이는 작년 Nvidia 연구에 의해 검증되었습니다. 이를 더 탐구하기 위해 IBM Research는 Dao와 Gu 자신들, 그리고 일리노이 대학교 어바나-샴페인(UIUC)의 Minjia Zhang과 함께 Bamba와 Bamba V2에 대해 협력했습니다. Bamba는 차례로 Granite 4.0의 많은 아키텍처 요소에 영향을 미쳤습니다.
Granite 4.0 MoE 아키텍처는 트랜스포머 블록 하나당 9개의 Mamba 블록을 사용합니다. 본질적으로, Mamba 블록의 선택성 메커니즘은 효율적으로 글로벌 컨텍스트를 캡처하고, 이는 로컬 컨텍스트의 더 미묘한 분석을 가능하게 하는 트랜스포머 블록으로 전달됩니다. 그 결과 성능 저하 없이 메모리 사용량과 지연 시간이 극적으로 감소했습니다.
Granite 4.0 Tiny는 총 7B 매개변수와 64개 전문가로 구성된 컴팩트한 세밀한 전문가 혼합(MoE) 프레임워크 내에서 이러한 효율성 이점을 두 배로 활용하여 추론 시간에 1B 활성 매개변수를 생성합니다. 자세한 내용은 Granite 4.0 Tiny Preview의 Hugging Face 모델 카드에서 확인할 수 있습니다.
제한 없는 컨텍스트 길이
SSM 기반 언어 모델의 더 매력적인 측면 중 하나는 무한히 긴 시퀀스를 처리할 수 있는 이론적 능력입니다. 그러나 실제적인 제약으로 인해 "이론적"이라는 단어는 일반적으로 많은 부담을 담고 있습니다.
이러한 제약 중 하나, 특히 하이브리드-SSM 모델의 경우, 단어 순서에 대한 정보를 표현하는 데 사용되는 위치 인코딩(PE)에서 비롯됩니다. PE는 계산 단계를 추가하며, 연구에 따르면 회전 위치 인코딩(RoPE)과 같은 PE 기술을 사용하는 모델은 훈련에서 본 것보다 긴 시퀀스로 일반화하는 데 어려움을 겪습니다.
Granite 4.0 아키텍처는 위치 인코딩을 사용하지 않습니다(NoPE). IBM 테스트는 이것이 긴 컨텍스트 성능에 부정적인 영향을 미치지 않았음을 설득력 있게 보여줍니다. 현재 IBM은 이미 적어도 128K 토큰에 대한 Tiny Preview의 긴 컨텍스트 성능을 검증했으며, 모델이 훈련 및 훈련 후 과정을 완료할 때까지 상당히 더 긴 컨텍스트 길이에서도 유사한 성능을 검증할 것으로 예상합니다. 약 1M 토큰 컨텍스트 범위의 작업에 대한 성능을 확실히 검증하는 주요 과제는 적합한 데이터셋의 부족이라는 점을 주목할 가치가 있습니다.
Mamba 컨텍스트 길이에 대한 또 다른 실제적인 제약은 계산입니다. 선형 확장이 2차 확장보다 낫지만, 여전히 결국에는 추가됩니다. 여기서도 Granite 4.0 Tiny는 두 가지 주요 이점이 있습니다:
- PE와 달리, NoPE는 모델의 트랜스포머 레이어에서 어텐션 메커니즘에 추가적인 계산 부담을 추가하지 않습니다.
- Granite 4.0 Tiny는 매우 컴팩트하고 효율적이어서 선형 확장을 위한 하드웨어 공간이 충분히 남아 있습니다.
간단히 말해서, Granite 4.0 MoE 아키텍처 자체는 컨텍스트 길이를 제한하지 않습니다. 하드웨어 리소스가 허용하는 한 확장할 수 있습니다.
향후 계획
IBM은 과정 초기에 이렇게 유망한 결과를 보이는 Granite 4.0 Tiny의 사전 훈련을 계속하는 것에 대한 흥분을 표현했습니다. 또한 추론 능력과 복잡한 지시 사항 이행에 관한 Granite 3.3 훈련 후의 교훈을 새로운 모델에 적용하는 것에 대해서도 기대하고 있습니다.
Granite 시리즈의 새로운 개발에 대한 더 많은 정보는 IBM Think 2025와 다음 몇 주 및 몇 달 동안 발표될 예정입니다.
Granite 4.0 Tiny는 Hugging Face에서 찾을 수 있습니다.