대형 언어 모델의 과도한 훈련에 대한 경고 연구

대형 언어 모델의 과도한 훈련이 성능 저하를 초래할 수 있다는 새로운 연구 결과
더 큰 언어 모델을 구축하기 위한 경쟁은 더 많은 사전 훈련 데이터가 더 나은 성능으로 이어진다는 가정에 의해 추진되고 있습니다. AI 기업들이 AI 모델을 훈련시키기 위한 충분한 품질의 데이터를 찾기 위해 노력하는 것은 놀라운 일이 아닙니다. 그러나 이 핵심 가정이 잘못되었다면 어떨까요?
새로운 연구에 따르면 더 많은 사전 훈련 데이터가 항상 더 나은 AI 모델로 이어지지는 않는다고 경고합니다. 카네기 멜론 대학교, 스탠포드 대학교, 하버드 대학교, 프린스턴 대학교를 포함한 유수 대학의 연구자들은 "파국적 과도 훈련(Catastrophic Overtraining)" 현상을 강조합니다. 이 주제에 관한 최근 연구는 사전 훈련을 연장하면 모델의 미세 조정 능력이 저하되어 실제 응용 프로그램에서 성능이 저하될 수 있음을 시사합니다.
연구자들은 AI 모델 훈련에 관한 "더 많을수록 좋다"는 믿음에 도전합니다. "일반적인 믿음과 달리, 더 오래 사전 훈련한다고 해서 항상 더 나은 훈련 후 모델로 이어지지는 않습니다"라고 연구 저자들은 arXiv에 게재된 연구에서 밝혔습니다. "이는 모델이 더 많은 토큰으로 사전 훈련됨에 따라 교란에 더 민감해지는 더 넓은 기저 현상의 결과입니다."
왜 AI 모델에는 사전 훈련이 필요할까요? AI 기업들은 사전 훈련을 통해 AI 시스템에 해당 작업과 관련된 기본 기술을 가르칩니다. 이는 언어 이해, 이미지 분석, 시퀀스 예측 또는 데이터의 패턴 인식 등 다양한 작업을 포함할 수 있습니다.

사전 훈련은 모델이 지식을 일반화하고, 다양한 맥락에 적응하며, 광범위한 작업에서 효과적으로 수행할 수 있게 해주기 때문에 중요한 역할을 합니다. 명확히 하자면, 연구자들은 사전 훈련을 거부하는 것이 아니라 개발자들이 얼마나 많은 사전 훈련이 충분한지에 대해 더 전략적으로 접근해야 한다고 제안합니다.
사전 훈련이 AI 모델에 어떤 영향을 미치는지 이해하기 위해, 연구자들은 Ai2의 오픈 소스 OLMo-1B 모델의 두 버전을 비교했습니다. 하나는 2.3조 토큰으로 훈련되었고, 다른 하나는 3조 토큰으로 훈련되었습니다. 놀랍게도 더 많은 데이터로 훈련된 모델이 미세 조정 후 성능이 더 나빴습니다. ARC-Challenge, PIQA, AlpacaEval과 같은 표준 벤치마크에서 2-3% 낮은 정확도를 보였습니다.
저자들은 이러한 성능 저하를 "점진적 민감성"이라고 부르는 것으로 설명합니다. 모델이 더 오래 훈련될수록 내부 매개변수가 미세 조정 중 모델을 조정하거나 더 많은 데이터를 추가하는 것과 같은 변화에 점점 더 민감해집니다. 이러한 높아진 민감성은 사소한 조정이나 데이터의 작은 노이즈조차도 모델이 이미 학습한 내용을 심각하게 방해할 수 있음을 의미합니다.
이 연구는 여러 각도에서 얻은 증거를 통해 그 발견을 뒷받침합니다. 연구자들이 사전 훈련된 모델에 가우시안 노이즈를 추가했을 때, 사전 훈련 토큰이 증가함에 따라 성능이 크게 악화되는 것을 발견했습니다. 또한, 그들은 미세 조정된 벤치마크를 포함하는 다른 설정을 사용하여 결과를 검증했으며, 유사한 결과를 얻었습니다.
연구자들은 자신들의 연구가 보편적이지 않다는 점을 인정합니다. 그들의 연구는 파국적 과도 훈련의 위험이 더 작은 모델에서 더 높다는 것을 시사합니다. 또한 작업이 잘 정렬되지 않은 경우 좋은 기술로도 과도 훈련을 항상 고칠 수 없다는 점을 강조합니다.

"파국적 과도 훈련은 미세 조정 프로세스가 규제되더라도, 특히 사전 훈련과 미세 조정 작업이 정렬되지 않은 경우 불가피할 수 있습니다"라고 연구자들은 공유했습니다. 이는 훈련과 미세 조정 목표 사이의 정렬을 보장하는 것의 중요성을 강조합니다.
AI 모델 사전 훈련은 개발 프로세스의 중요한 구성 요소입니다. 그러나 연구 결과는 과도 훈련의 위험을 강조합니다. 그렇다면 적절한 균형점은 어디일까요? 연구자들에 따르면, 기본 모델 품질과 훈련 후 적응성 사이의 균형을 맞추는 것이 관건입니다.
개발자들은 AI 모델 구축 접근 방식을 재고할 필요가 있을 수 있습니다. 연구자들이 제안하듯이, 초점은 단순히 데이터와 모델 크기를 확장하는 것에서 전체 훈련 파이프라인을 최적화하는 것으로 전환되어야 합니다. "우리의 발견은 전체 훈련 파이프라인을 고려하는 모델 확장에 대한 새로운 초점을 요구합니다"라고 연구자들은 강조합니다.
저자들은 파국적 과도 훈련이 언제, 어떻게 발생하는지 결정하는 요인을 탐구하기 위한 추가 연구의 필요성을 강조합니다. 그러나 그들의 연구에서 얻을 수 있는 주요 교훈은 AI 개발을 위한 더 스마트한 전략을 채택함으로써 때로는 적은 것이 더 많을 수 있다는 것입니다.