논문요약
QBB: 바이너리 베이스를 이용한 LLM 저비트 양자화
출판사
Neural Information Processing Systems (NeurIPS)
저자
drian Bulat; Yasin Taskiran; Georgios Tzimiropoulos
게시일
2025년 09월 17일
대형 언어모델(LLM)의 사후(Post-training) 양자화는 4-bit까지 성능 저하를 충분히 억제하는 수준으로 성숙했지만,
7B급 이하 모델에서 더 낮은 비트로의 추가 하향(예: 3/2bit)과 속도·정확도 동시 확보는 여전히 난제다.
이 논문은 원본 가중치를 한 쌍의 바이너리(±1) 행렬 합으로 분해하는 **QBB(Quantization with Binary Bases)** 를 제
안한다.
핵심은 (1) 반복적 근사로 생성한 바이너리 베이스와 (2) 잔차 오차를 최소화하는 **스케일링 벡터**를
스케일 경사하강·커리큘럼(Search curriculum)으로 안정적으로 탐색하는 것이다.
학습자는 교사 신호 없이도(autoreg. self-training) 데이터만으로 스케일을 최적화하며, 구현은 합산 전용 형태라 하드웨어 친화적이다.
다수 LLM 패밀리에서 QAT 없이도 기존 저비트 기법 대비 동등/우수한 정확도를 보고했고, 일부 과업에서 SOTA를 갱신했다.