소형 언어 모델(SLM)을 RAG 시스템에 활용하는 방안 탐구

Exploring the Role of Smaller LMs in Augmenting RAG Systems

소형 언어 모델(SLM)은 대형 언어 모델(LLM)의 소형 버전입니다. 이들은 일반적으로 약 30억 개 이하의 매개변수를 가지고 있어 대형 모델에 비해 상대적으로 가볍고 추론 속도가 빠릅니다.

SLM 연구에서 흥미로운 주제 중 하나는 검색 증강 생성(RAG) 시스템에 이러한 모델을 통합하여 성능을 향상시키는 방법입니다. 이 글에서는 이러한 최근 트렌드를 탐구하고, RAG 시스템에 SLM을 통합할 때의 장점과 한계에 대해 설명합니다.

SLM의 간략한 특징

SLM을 더 잘 이해하기 위해, LLM과의 차이점을 살펴보겠습니다.

  • 규모와 복잡성: LLM이 수조 개의 매개변수를 가질 수 있는 반면, SLM은 훨씬 작아서 보통 수백만에서 수십억 개의 매개변수를 가집니다. 물론 이 역시 상당히 크지만, 모든 것은 상대적이며 특히 LLM과 비교했을 때 그렇습니다.
  • 필요 자원: 크기가 작은 만큼, SLM은 훈련과 추론에 필요한 컴퓨팅 자원이 LLM만큼 많지 않습니다. 이러한 높은 자원 효율성이 SLM의 주요 장점입니다.
  • 모델 성능: 반면에 LLM은 정확도 측면에서 더 좋은 성능을 보이며, 광범위한 훈련 과정과 많은 매개변수 덕분에 더 복잡한 작업을 처리할 수 있습니다. SLM은 복잡한 패턴을 이해하고 생성하는 데 제한이 있을 수 있습니다.
  • 자원 및 비용 효율성 외에도 SLM의 장점으로는 가벼운 모델이기 때문에 배포가 더 유연하다는 점이 있습니다. 또 다른 장점은 도메인별 데이터셋에 대한 미세 조정이 더 빠르다는 것입니다.

    SLM의 단점으로는 매우 도전적인 언어 작업에 더 제한적이고, 일반화 능력이 떨어지며, 훈련받은 도메인 데이터 외의 언어를 처리하는 데 더 어려움을 겪는다는 점이 있습니다.

    RAG 시스템에 SLM 통합하기

    SLM을 RAG 시스템에 통합하는 방법에는 도메인별 애플리케이션에서 시스템 성능을 향상시키는 등 여러 목표가 있습니다. 앞서 언급했듯이, 특수 데이터셋에 SLM을 미세 조정하는 것은 LLM을 같은 데이터셋에 미세 조정하는 것보다 훨씬 비용이 적게 듭니다. RAG 시스템에서 미세 조정된 모델은 일반적인 텍스트에 훈련된 기본 모델보다 더 정확하고 맥락적으로 관련성 있는 응답을 제공할 수 있습니다. 요약하자면, SLM-RAG 통합은 미세 조정된 생성기(SLM)가 생성한 콘텐츠가 검색된 정보와 밀접하게 일치하도록 보장하여 전체 시스템 정확도를 향상시킵니다.

    기본적인 RAG 아키텍처가 어떻게 생겼는지 살펴보겠습니다(이 글에서는 생성기 내부의 'LLM'을 'SLM'으로 대체하는 것에 대해 논의합니다):

    RAG architecture

    위에서 논의한 RAG 시스템에서 SLM의 역할은 본질적으로 시스템의 생성기가 되는 것입니다. 그러나 RAG 시스템에 SLM을 통합하는 방법은 더 많습니다. 하나는 추가 검색 구성 요소가 되어 성능을 향상시키는 것으로, 쿼리 관련성에 따라 검색된 문서를 순위화하거나 재순위화하여 생성기에 더 높은 품질의 입력을 보장합니다. 이 생성기는 또 다른 SLM이나 LLM일 수 있습니다. SLM은 또한 RAG 시스템에서 검색된 컨텍스트를 전처리하거나 필터링하여 가장 관련성이 높거나 고품질 정보만 생성기에 전달되도록 할 수 있습니다. 이 접근법을 생성 전 필터링 또는 증강이라고 합니다. 마지막으로, LLM과 SLM이 생성기로 공존할 수 있는 하이브리드 RAG 아키텍처가 있습니다. 쿼리 라우팅 메커니즘을 통해 간단하거나 도메인별 쿼리를 처리하는 SLM과 더 많은 맥락적 이해가 필요한 복잡하고 일반적인 작업을 처리하는 LLM이 함께 작동합니다.

    RAG에서 SLM을 사용하는 것이 모든 상황에서 최선의 접근법은 아니며, 이 조합에는 몇 가지 과제와 한계가 있습니다:

    • 데이터 부족: SLM 훈련에는 고품질의 도메인별 데이터셋이 중요하지만 항상 쉽게 찾을 수 있는 것은 아닙니다. 충분한 데이터가 없으면 모델 성능이 최적이 아닐 수 있습니다.
    • 어휘 제한: 미세 조정된 SLM은 포괄적인 어휘가 부족하여 다양한 언어 패턴을 가진 응답을 이해하고 생성하는 능력에 영향을 미칩니다.
  • 배포 제약: SLM의 가벼운 특성이 엣지 장치에 적합하더라도, 다양한 하드웨어에서 호환성과 최적의 성능을 보장하는 것은 여전히 과제로 남아 있습니다.
  • 이로 인해 SLM이 모든 RAG 애플리케이션에서 LLM보다 보편적으로 더 좋은 것은 아니라는 결론에 도달합니다. RAG 시스템에 SLM과 LLM 중 어떤 것을 선택할지는 여러 기준에 따라 달라집니다. SLM은 도메인별 작업에 중점을 두는 시스템, 자원이 제한된 시나리오, 데이터 개인 정보 보호가 중요한 경우에 더 적합하며, LLM보다 클라우드 외부에서 추론에 더 쉽게 사용할 수 있습니다. 반대로 LLM은 일반 목적 RAG 애플리케이션, 복잡한 쿼리 이해가 중요한 경우, 더 긴 컨텍스트 윈도우(더 많은 텍스트 정보)를 검색하고 처리해야 하는 경우에 적합합니다.

    마무리

    SLM은 특히 도메인별 RAG 애플리케이션 개발을 용이하게 하는 비용 효율적이고 유연한 LLM의 대안을 제공합니다. RAG 시스템에서 SLM을 활용할 때의 장점과 한계를 논의함으로써, 이 글은 오늘날 AI 연구의 활발한 주제인 이러한 혁신적인 검색-생성 솔루션에서 소형 언어 모델의 역할에 대한 관점을 제공했습니다.