aimedkorea

QBB: 바이너리 베이스를 이용한 LLM 저비트 양자화

Neural Information Processing Systems (NeurIPS)

drian Bulat; Yasin Taskiran; Georgios Tzimiropoulos

2025년 09월 17일

대형 언어모델(LLM)의 사후(Post-training) 양자화는 4-bit까지 성능 저하를 충분히 억제하는 수준으로 성숙했지만,

7B급 이하 모델에서 더 낮은 비트로의 추가 하향(예: 3/2bit)과 속도·정확도 동시 확보는 여전히 난제다.

이 논문은 원본 가중치를 한 쌍의 바이너리(±1) 행렬 합으로 분해하는 **QBB(Quantization with Binary Bases)** 를 제

안한다.

핵심은 (1) 반복적 근사로 생성한 바이너리 베이스와 (2) 잔차 오차를 최소화하는 **스케일링 벡터**를

스케일 경사하강·커리큘럼(Search curriculum)으로 안정적으로 탐색하는 것이다.

학습자는 교사 신호 없이도(autoreg. self-training) 데이터만으로 스케일을 최적화하며, 구현은 합산 전용 형태라 하드웨어 친화적이다.

다수 LLM 패밀리에서 QAT 없이도 기존 저비트 기법 대비 동등/우수한 정확도를 보고했고, 일부 과업에서 SOTA를 갱신했다.

논문요약