[24' ICML] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch (DARE)

카테고리 없음 2026. 3. 19. 17:58

한 줄 요약

SFT로 생긴 delta parameter의 90~99%를 랜덤으로 제거(Drop)하고 나머지를 1/(1-p)로 재스케일링(Rescale)해도 성능이 거의 유지된다는 사실을 밝히고, 이를 활용해 여러 SFT 모델을 추가 학습 없이 하나로 병합(Merge)하는 DARE(Drop And REscale) 기법을 제안했다.

문제점

하나의 사전학습 모델을 여러 태스크에 맞게 SFT하면, 태스크마다 별도의 모델을 유지해야 한다.
수학 추론용 WizardMath, 코드 생성용 WizardCoder, 일반 지시 따르기용 WizardLM처럼 같은 Llama 2 백본에서 출발했지만 각각 다른 능력만 갖게 된다.
이 모델들을 하나로 합쳐서 모든 능력을 동시에 갖춘 단일 모델을 만들 수 있다면 배포와 운영 비용이 크게 줄어든다.

기존 모델 병합의 한계

Task Arithmetic은 각 SFT 모델의 task vector(SFT 가중치 - 사전학습 가중치)를 단순 합산하여 사전학습 모델에 더하는 방식이다.
직관적이지만, 서로 다른 태스크의 delta parameter가 간섭(interference)을 일으켜 성능이 저하된다.

TIES-Merging은 크기가 작은 delta parameter를 제거하고, 부호 충돌을 해소한 뒤 병합한다.
magnitude 기반 pruning이라는 합리적인 전략을 사용하지만, 대규모 모델에서의 간섭 문제를 완전히 해결하지는 못했다.

핵심 문제는 여러 모델의 delta parameter를 동시에 합산할 때 파라미터 간 간섭이 발생한다는 점이다.
DARE는 이 간섭의 근본 원인이 delta parameter의 극단적 중복성(redundancy)에 있다고 진단하고, 병합 전에 각 모델의 delta parameter를 희소화(sparsify)하여 간섭을 줄이는 전략을 제안한다.

제안 방법

DARE의 핵심 아이디어는 두 단계로 구성된다.
SFT로 생긴 delta parameter 대부분을 랜덤으로 제거한 뒤, 나머지를 재스케일링하여 원래의 기대값을 보존한다.

Delta Parameter의 특성 관찰

SFT delta parameter(파인튜닝 가중치 - 사전학습 가중치)의 값 범위는 극히 작다.
대부분의 delta 값이 0.002 이내에 분포하며, 이는 SFT가 사전학습 가중치를 아주 미세하게만 변화시킨다는 뜻이다.
이러한 극단적 중복성 때문에, delta parameter의 대부분을 제거해도 모델의 능력이 유지된다.

Step 1: Drop (랜덤 제거)

각 delta parameter에 대해 Bernoulli(1-p) 분포에서 마스크를 샘플링한다.
확률 p로 해당 delta parameter를 0으로 설정한다.
여기서 p는 drop rate로, 0.9이면 90%를, 0.99이면 99%의 delta parameter를 제거한다는 의미다.
magnitude 기반이 아니라 완전히 랜덤하게 제거한다는 점이 TIES-Merging과의 핵심 차이다.

Step 2: Rescale (재스케일링)

남은 delta parameter를 1/(1-p)로 곱하여 스케일을 보정한다.
p=0.9이면 남은 10%의 파라미터를 10배로, p=0.99이면 남은 1%를 100배로 키운다.
이 재스케일링은 Dropout의 inference-time scaling과 동일한 원리로, 제거된 파라미터의 기여분을 남은 파라미터가 보상하여 원래 임베딩의 기대값을 근사한다.

수식 정리

delta parameter를 delta_t = W_sft - W_pre로 정의한다.
마스크 m ~ Bernoulli(1-p)를 생성하여 delta_t에 element-wise로 곱한다.
재스케일링된 delta는 (m * delta_t) / (1-p)가 된다.
최종 가중치는 W_dare = W_pre + (m * delta_t) / (1-p)이다.

모델 병합과의 결합

DARE 자체는 병합 기법이 아니라 병합 전 전처리(sparsification) 기법이다.
각 SFT 모델의 delta parameter를 DARE로 희소화한 뒤, 기존 병합 방법(Task Arithmetic, TIES-Merging 등)을 적용한다.
희소화된 delta parameter는 서로 겹치는 비영점 위치가 줄어들어 간섭이 자연스럽게 감소한다.

학습 상세

DARE는 별도의 학습이 필요하지 않은 training-free 기법이다.
GPU도 불필요하며, 사전학습 모델과 SFT 모델의 가중치만 있으면 된다.

핵심 하이퍼파라미터

항목	설명	실험 범위
Drop rate (p)	delta parameter 제거 비율	0.1 ~ 0.99
Rescale factor	1/(1-p), drop rate에 의해 자동 결정	1.11 ~ 100
병합 방법	DARE 적용 후 사용할 병합 알고리즘	Task Arithmetic, TIES-Merging
Scaling coefficient (lambda)	task vector 합산 시 가중치	태스크/모델별 튜닝

실험 모델 구성

Encoder 기반 (GLUE 벤치마크):

항목	설정
베이스 모델	BERT-base, RoBERTa-base
SFT 태스크	CoLA, SST-2, MRPC, STS-B, QQP, MNLI, QNLI, RTE (GLUE 8개)
평가	각 태스크별 성능 및 병합 후 multi-task 성능

Decoder 기반 (생성 벤치마크):

항목	설정
베이스 모델	Llama 2 (7B, 13B, 70B), Mistral-7B
SFT 모델	WizardLM (지시 따르기), WizardMath (수학 추론), Code Alpaca / WizardCoder-Python (코드 생성)
평가 벤치마크	AlpacaEval (지시 따르기), GSM8K / MATH (수학), HumanEval / MBPP (코드)

병합 조합

주요 실험은 Llama 2-13B 기반의 세 모델을 병합하는 설정이다.
WizardLM-13B + WizardMath-13B, WizardLM-13B + Code Alpaca-13B, 그리고 세 모델 모두를 병합하는 설정을 테스트했다.
추가로 Mistral-7B 기반 모델들(WildMarcoroni-Variant1-7B, WestSeverus-7B-DPO-v2)의 병합도 수행했다.

실험 결과

Delta Parameter 제거 실험 (단일 모델)

SFT 모델에서 DARE를 적용한 후 성능 변화를 측정한 핵심 결과다.

WizardMath-70B (GSM8K):

Drop rate (p)	성능 유지 여부
0.90 (90% 제거)	성능 거의 유지
0.99 (99% 제거)	성능 거의 유지

70B 모델은 delta parameter의 99%를 제거해도 수학 추론 능력이 유지되었다.
이는 delta parameter의 극단적 중복성을 보여주는 가장 강력한 증거다.

모델 크기별 비교:

모델	p=0.90	p=0.99
WizardMath-7B	성능 저하 발생	성능 크게 저하
WizardMath-13B	성능 저하 발생	성능 크게 저하
WizardMath-70B	성능 유지	성능 유지

모델이 클수록 더 높은 drop rate를 견딘다.
이는 모델 용량(capacity)과 허용 가능한 drop rate 사이에 정량적 상관관계가 있음을 시사한다.

Fine-tuned Parameter 완전 제거 vs DARE

SFT의 모든 delta parameter를 제거(p=1.0)하면, 즉 사전학습 모델로 되돌리면 성능이 완전히 붕괴한다.

모델	원래 성능	delta 완전 제거 후
WizardLM-13B (AlpacaEval)	67.20	8.56
WizardMath-13B (GSM8K / MATH)	64.22 / 14.02	0.38 / 0.16
WizardCoder-Python-13B (HumanEval / MBPP)	63.41 / 55.40	0.0 / 0.20

delta parameter 자체는 분명히 중요하지만, 그 중 극소수(1~10%)만으로도 핵심 능력을 보존할 수 있다는 것이 DARE의 발견이다.

DARE vs Magnitude Pruning (MP)

DARE(랜덤 제거 + 재스케일링)와 magnitude 기반 pruning을 GLUE 벤치마크에서 비교했다.
DARE가 높은 drop rate에서 MP를 일관되게 능가했다.
MP는 크기가 작은 파라미터부터 제거하는 것이 직관적으로 합리적이지만, 랜덤 제거 후 재스케일링이 원래 임베딩을 더 잘 보존한다는 결과다.
이는 delta parameter에서 개별 값의 크기보다 전체적인 방향(direction)이 더 중요하다는 것을 의미한다.

모델 병합 결과 (Decoder 기반)

DARE를 Task Arithmetic 및 TIES-Merging과 결합한 병합 결과다.

Llama 2-13B 기반 병합 (주요 결과):

병합 조합	벤치마크	개별 모델 성능	DARE + Task Arithmetic
WizardLM + WizardMath	GSM8K	WizardLM: 2.2 / WizardMath: 64.2	66.3 (WizardMath 초과)
LM + Math + Code vs LM	AlpacaEval	기준	+3.10% 향상
LM + Math vs Math	GSM8K	기준	+3.18% 향상
LM + Code vs Code	MBPP	기준	+19.57% 향상

가장 인상적인 결과는 WizardLM과 WizardMath를 병합했을 때다.
WizardLM의 GSM8K 성능이 2.2에서 66.3으로 급등하면서, 원래 WizardMath(64.2)를 오히려 초과했다.
지시 따르기 능력도 유지되었으므로, 병합된 모델이 개별 source 모델 모두를 능가하는 결과를 달성했다.

Open LLM Leaderboard 결과

DARE로 Mistral-7B 기반 모델들을 병합한 supermario_v1, supermario_v2 모델을 공개했다.
supermario_v2는 2024년 1월 28일 기준 7B 모델 중 Open LLM Leaderboard 1위를 달성했다.
WildMarcoroni-Variant1-7B와 WestSeverus-7B-DPO-v2를 Mistral-7B-v0.1 백본 기반으로 DARE를 적용하여 병합한 모델이다.

Encoder 기반 결과 (GLUE)

BERT-base와 RoBERTa-base에서 GLUE 8개 태스크의 SFT 모델을 DARE로 희소화 후 병합했다.
DARE 적용 시 병합 성능이 기존 Task Arithmetic 및 TIES-Merging 대비 향상되었다.
다만 decoder 기반 대규모 모델에서의 효과가 더 두드러졌다.

한계점 및 개인 의견

논문의 한계

모델 크기 의존성이 명확하다.
7B, 13B 모델에서는 p=0.99에서 성능이 크게 저하되며, 극단적 drop rate(99%)는 70B 이상에서만 안정적이다.
실무에서 가장 많이 사용되는 7B-13B 규모에서는 p=0.9 정도가 상한선이다.

적용 조건이 제한적이다.
DARE가 작동하려면 delta parameter의 절대값이 충분히 작아야 한다(0.002 이내).
이 조건은 일반적인 SFT에서는 성립하지만, 대규모 데이터로 장기간 파인튜닝한 모델이나 full fine-tuning이 아닌 방법(예: 큰 learning rate 사용)에서는 보장되지 않는다.

랜덤성에 의한 변동이 존재한다.
Bernoulli 마스크가 랜덤이므로 실행할 때마다 결과가 달라진다.
논문에서 이 변동성에 대한 체계적 분석(여러 seed에 대한 표준편차 등)이 충분하지 않다.

병합 대상이 동일 백본(homologous model)에 한정된다.
서로 다른 아키텍처나 다른 사전학습 모델에서 출발한 모델 간 병합은 불가능하다.

개인 의견

DARE의 가장 큰 학술적 기여는 병합 기법 자체보다 "SFT delta parameter의 90~99%가 중복이다"라는 경험적 발견에 있다.
이는 fine-tuning이 모델 가중치 공간에서 매우 좁은 부분공간(subspace)만 의미 있게 변화시킨다는 것을 시사한다.
개별 파라미터 값보다 delta의 전체적인 방향(direction)이 중요하다는 점은, Delta Transfer 계열 연구의 이론적 근거를 직접적으로 뒷받침한다.

재스케일링의 중요성도 주목할 만하다.
단순히 제거만 하면 성능이 붕괴하지만, 1/(1-p) 재스케일링으로 기대값을 보존하면 성능이 유지된다.
이는 delta parameter의 절대적 크기(norm)도 방향만큼 중요하다는 것을 의미하며, 방향과 크기가 함께 보존되어야 한다는 조건을 정립한다.

실용적 가치도 높다.
training-free이고 GPU가 불필요하며, 기존 병합 방법(Task Arithmetic, TIES-Merging)에 플러그인으로 결합할 수 있다.
실제로 HuggingFace의 mergekit에 DARE가 통합되어 오픈소스 커뮤니티에서 널리 사용되고 있다.
Open LLM Leaderboard 상위 모델 다수가 DARE를 활용한 병합 모델이라는 점이 이를 증명한다.

다만 이론적 설명이 부족하다는 점이 아쉽다.
왜 랜덤 제거가 magnitude 기반 제거보다 나은지에 대한 수학적 분석이 없고, 경험적 관찰에 의존한다.
Dropout과의 유사성을 언급하지만, Dropout은 학습 중 정규화 기법이고 DARE는 학습 후 후처리 기법이라는 근본적 차이에 대한 논의가 깊지 않다.

후속 연구로는 DELLA-Merging(magnitude 기반 확률적 제거)처럼 DARE의 완전 랜덤 제거를 개선하는 방향이 등장했으며, drop rate을 레이어별로 다르게 설정하는 adaptive 전략도 탐구 가치가 있다.

논문 정보 및 리소스

제목: Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

저자: Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li

소속: Alibaba Group (DAMO Academy)

학회: ICML 2024

arXiv: 2311.03099

GitHub: yule-BUAA/MergeLM

ICML Proceedings: proceedings.mlr.press/v235/yu24p

ABOUT ME

just do it just do it