고성능 하드웨어 없이도 강력한 AI 모델 구현 가능하다는 연구 결과

고성능 하드웨어 없이 일반 기기에서 LLM 실행 가능성 열려
대규모 언어 모델(LLM)은 일반적으로 방대한 데이터를 처리하고 복잡한 계산을 수행하기 위해 고성능 하드웨어를 필요로 합니다. 대부분의 사람들에게 일상적인 기기에서 첨단 AI 기술을 실행하는 것은 비현실적으로 보입니다.
그러나 MIT, 킹 압둘라 과학기술대학(KAUST), 오스트리아 과학기술연구소(ISTA), 얀덱스 리서치의 연구자들이 품질 저하 없이 LLM을 빠르게 압축할 수 있는 새로운 AI 접근법을 개발했습니다. 이 혁신적인 기술은 스마트폰이나 노트북과 같은 일반 소비자용 기기에서도 강력한 AI 시스템을 사용할 수 있는 가능성을 열었습니다.

LLM 배포는 일반적으로 고성능 그래픽 처리 장치(GPU)가 필요한 자원 집약적이고 비용이 많이 드는 과정입니다. 이러한 하드웨어 요구 사항은 일반 사용자, 개인 개발자, 심지어 예산이 제한된 소규모 조직이 고급 AI 모델을 실험하는 데 큰 장벽이 되었습니다.
특수 장비의 필요성은 비용을 증가시킬 뿐만 아니라 처리 과정에 지연을 초래하여 기본 사용자에게 더 큰 어려움을 주고 있습니다. 이러한 지연은 주로 LLM 배포에 관련된 무거운 계산 요구 사항과 긴 양자화 프로세스에서 비롯됩니다.
HIGGS 방법론: 효율적인 LLM 압축 기술

연구자들이 개발한 새로운 HIGGS(Hadamard Incoherence with Gaussian MSE-optimal GridS) 방법(힉스 입자와는 무관)은 LLM을 효율적으로 압축하는 데 있는 한계를 극복하기 위해 개발되었습니다. 이 방법은 "아다마르 회전(Hadamard Rotations)"을 활용하여 내부 수치 가중치를 종 모양의 분포로 재구성함으로써 압축에 더 적합하게 만드는 새로운 접근법을 도입했습니다.
이 방법은 압축 중 오류를 최소화하기 위해 MSE-최적 그리드를 사용하고, 벡터 양자화를 통해 값 그룹을 함께 압축할 수 있습니다. 동적 프로그래밍은 각 레이어에 대한 최상의 압축 설정을 식별하여 프로세스를 더욱 개선합니다.
HIGGS의 주요 특징 중 하나는 "데이터 없는(data-free)" 기능입니다. 연구자들은 HIGGS가 보정 데이터셋 없이도 작동하여 일상적인 기기에 더 다양하고 실용적이라고 주장합니다.
HIGGS는 AI 모델의 다른 부분의 변화가 전체 성능에 어떻게 영향을 미치는지 설명하는 "선형성 정리(linearity theorem)"에 기반하고 있습니다. 이를 통해 연구자들은 기능에 영향을 미치는 핵심 부분을 보호하면서 덜 중요한 영역에 압축을 집중할 수 있습니다.
연구자들에 따르면, HIGGS는 단순히 LLM을 압축하는 것을 넘어섭니다. HIGGS 방법을 위해 개발된 특수 소프트웨어 커널이 압축된 모델의 성능을 최적화합니다. FLUTE 시스템을 기반으로 구축된 이러한 커널은 HIGGS 압축 모델이 압축되지 않은 버전보다 2~3배 빠르게 실행될 수 있게 합니다.
성능 및 응용
HIGGS는 Qwen 계열 모델과 Llama 3.1 및 3.2 계열 모델에서 테스트되었습니다. 연구 논문에 따르면 HIGGS는 이러한 모델에서 우수한, 정확도와 압축 성능을 달성했으며, 주요 벤치마크에서 다른 양자화 방법보다 우수한 성능을 보였습니다.
연구자들은 동적 HIGGS가 "3-4비트 범위에서 GPTQ(GPT Quantization) 및 AWQ(Activation-Aware Quantization)와 같은 보정 기반 방법보다 우수한 성능을 발휘할 수 있다"고 언급했습니다. 이는 데이터 없는 기술이 보정 데이터셋에 의존하지 않고도 최첨단 성능을 달성할 수 있는 잠재력을 강조합니다.
데이터 없는 저비트 양자화와 강력한 이론적 기초를 갖춘 HIGGS는 인프라 요구 사항을 줄일 것을 약속합니다. 이 방법은 다양한 모델에서 더 많은 테스트가 필요하지만, AI 도구를 더 접근하기 쉽게 만들기 위한 기반을 마련합니다.
HIGGS 논문은 2025년 4월 29일부터 5월 4일까지 뉴멕시코주 앨버커키에서 열리는 인공지능 분야의 주요 글로벌 컨퍼런스 중 하나인 NAACL(북미 컴퓨터 언어학 협회)에서 발표될 예정입니다.