ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [25' ICLR] DAREx: Revisiting Delta-Parameter Pruning
    카테고리 없음 2026. 3. 19. 17:59

    한 줄 요약

    DARE의 rescaling factor 한계를 이론적으로 분석하고, DAREx-q(rescaling factor 수정)와 DAREx-L2(AdamR 정규화)를 제안하여 극단적 pruning rate(99%)에서도 성능을 유지하는 delta-parameter pruning 프레임워크를 제시한 논문이다.

     

    문제점

    Delta-Parameter Pruning의 배경

    Fine-tuned 모델을 저장할 때, pre-trained 모델과의 차이인 delta parameter(ΔW = W_fine-tuned - W_pre-trained)만 저장하면 효율적이다.
    기존 DARE(Drop And REscale) 방법은 delta parameter를 랜덤하게 drop한 뒤 1/(1-p)로 rescale하여 출력의 기댓값을 보존하는 방식이다.
    그러나 이 접근법은 두 가지 근본적인 한계를 가진다.

    DARE의 실패 원인

    첫째, pruning rate p가 높아질수록 rescaling factor 1/(1-p)가 급격히 증가한다.
    예를 들어 p=0.99일 때 rescaling factor는 100이 되어, 남은 파라미터의 값이 100배로 증폭된다.
    이는 출력 변화의 분산을 O((1-p)^(-1/2)) 수준으로 키우며, 모델 성능을 심각하게 훼손한다.

    둘째, delta parameter의 mean과 variance가 클 경우 DARE의 랜덤 pruning이 효과적이지 않다.
    DARE는 출력 변화의 기댓값을 0으로 유지하는 데만 집중하고, 절대적인 출력 변화의 크기(absolute change)를 간과한다.
    실제로 BERT 기반 모델에서 p=0.99일 때 DARE의 COLA 성능은 56.24%에서 4.25%로 급락하며, SST2에서는 90.25%에서 51.00%로 떨어진다.

     

    제안 방법

    DAREx-q: Rescaling Factor 수정

    DARE의 핵심 문제는 rescaling factor 1/(1-p)가 mean을 보존하려다 variance를 폭발시키는 것이다.
    DAREx-q는 이를 1/q (q > 1-p)로 수정하여, mean과 variance 사이의 균형을 맞춘다.

    논문은 Theorem 3.1을 통해 출력 변화의 high-probability bound를 다음과 같이 도출한다:

    |h_i^diff| ≤ (Ψ(p)/(1-p)) · √(n(c̄_i² + σ_i²)) · √log(2/γ)

    여기서 Ψ(p)는 pruning rate에 따라 달라지는 함수이며, c̄_i와 σ_i²는 각각 delta parameter의 mean과 variance이다.
    이 bound는 rescaling factor를 줄이면 variance가 감소하지만 mean bias가 증가하는 trade-off 관계를 명확히 보여준다.

    DAREx-q는 네 가지 변형을 제공한다:

    • 1/q_v: labeled validation data를 사용하여 테스트 성능을 최대화하는 global q 탐색
    • 1/q_v (per-layer): 레이어별로 서로 다른 q를 validation data로 탐색
    • 1/q_e: unlabeled data로 mean output difference를 최소화하는 unsupervised 방식
    • 1/q_e (per-layer): 레이어별 unsupervised 탐색

    중요한 점은 DAREx-q가 post-training 기법이라는 것이다.
    단일 배치 inference만으로 최적 q를 찾을 수 있어 추가 학습 비용이 거의 없다.

    DAREx-L2: AdamR 정규화를 통한 In-Training 접근

    DAREx-L2는 fine-tuning 단계에서 delta parameter의 크기 자체를 줄이는 접근이다.
    AdamR-L2는 Adam optimizer의 weight decay 항을 수정하여 delta parameter에 직접 L2 정규화를 적용한다:

    θt = θ(t-1) - (η/√(v̂t + ε)) · m̂_t - (η/√(v̄_t + ε)) · λ · (θ(t-1) - θ_P)

    여기서 v̄_t는 second moment의 평균으로, gradient norm에 따라 정규화 강도를 자동 조절한다.
    λ는 정규화 강도 하이퍼파라미터이며, θ_P는 pre-trained 모델의 파라미터이다.
    이를 통해 fine-tuning 과정에서 delta parameter가 과도하게 커지는 것을 방지한다.

    또한 importance-based pruning과의 결합을 위해 AdamR-L1 변형도 제안한다.

     

    학습 상세

    모델 및 데이터셋

    Encoder 모델:

    • BERT-base-uncased, RoBERTa-base
    • 데이터셋: COLA(언어 수용성), SST-2(감성 분석), MRPC(문장 유사성), STS-B(의미 유사도)
    • 평가: Matthews correlation(COLA), Accuracy(SST-2), Accuracy/F1(MRPC), Pearson/Spearman(STS-B)

    Decoder 모델:

    • LLaMA2-7B 기반: MetaMath-7B, WizardMath-7B, Abel-7B
    • Qwen2-0.5B (fine-tuned 버전)
    • 데이터셋: GSM8K(수학 추론)
    • 평가: Zero-shot accuracy

    비교 대상 (Baselines)

    • No Pruning: pruning 없이 원본 fine-tuned 모델 사용 (upper bound)
    • DARE: 기존 1/(1-p) rescaling을 사용하는 랜덤 drop-and-rescale
    • L1+MP: magnitude 기반 pruning
    • WANDA: activation-weighted magnitude pruning

    DAREx-q 탐색 과정

    q 값은 지정된 범위(예: encoder에서 0.10.5, decoder에서 0.010.1) 내에서 grid search로 탐색한다.
    단일 배치 inference만 필요하므로 계산 비용이 매우 낮다.
    Per-layer 방식과 global 방식 모두 지원하며, encoder에서는 per-layer가, decoder에서는 global이 효율적이다.

    AdamR-L2 학습 설정

    정규화 강도 λ는 실험적으로 결정하며, Qwen-0.5B에서 λ=1e-4가 p=0.99에서도 성능을 유지하는 것으로 확인되었다.

     

    실험 결과

    Encoder 모델에서의 극단적 Pruning (p=0.99)

    BERT-base 기준 COLA에서:

    • No Pruning: 56.24%
    • DARE: 4.25% (사실상 붕괴)
    • DAREx-q (1/q_v): 48.96% (+44.71%p)
    • DAREx-L2: 57.24% (+52.99%p, 오히려 unpruned보다 높음)

    SST-2에서:

    • No Pruning: 90.25%
    • DARE: 51.00%
    • DAREx-q (1/q_v): 85.64% (+34.64%p)
    • DAREx-L2: 88.17% (+37.17%p)

    DAREx-q의 unsupervised 변형(1/q_e)도 labeled 버전에 근접한 성능을 보여, validation label 없이도 효과적으로 적용 가능하다.

    Decoder 모델 결과 (GSM8K)

    MetaMath-7B에서 p=0.99일 때:

    • DARE: 0.00% (완전 실패)
    • DAREx-q (1/q_v): 34.87%
    • DAREx-q (per-layer): 32.06%

    Decoder 모델에서는 DARE가 완전히 붕괴하는 반면, DAREx-q는 의미 있는 성능을 회복한다.

    LoRA와의 결합

    SST-2에서 LoRA fine-tuning + DAREx-q (p=0.9):

    • DARE + LoRA: 48.05%
    • DAREx-q + LoRA: 90.02% (unpruned 90.25%에 근접)

    DAREx-q는 LoRA와 같은 parameter-efficient fine-tuning 기법과 자연스럽게 결합된다.

    Structural Pruning

    입력 차원의 a%를 랜덤 선택하고 delta parameter의 b%를 유지하는 구조적 pruning에서도 DAREx-q는 DARE 대비 약 40% 성능 향상을 달성한다.
    이는 하드웨어 가속에 유리한 구조적 희소성(structured sparsity)을 제공한다는 점에서 실용적 의미가 크다.

    AdamR 정규화 강도에 따른 효과

    Qwen-0.5B에서 정규화 강도 λ를 변화시키며 실험한 결과:

    • λ=0: p=0.9에서 이미 실패
    • λ=1e-4: p=0.99에서도 성능 유지

    정규화가 delta parameter의 크기를 효과적으로 억제하여 극단적 pruning을 가능하게 함을 확인하였다.

     

    한계점 및 개인 의견

    논문의 한계점

    DAREx-q의 q 탐색 비용: post-training으로 가볍다고 하지만, per-layer 방식은 레이어 수만큼 grid search를 반복해야 한다.
    대규모 모델(70B 이상)에서의 per-layer 탐색 효율성에 대한 검증이 부족하다.

    AdamR-L2의 재학습 필요성: DAREx-L2는 fine-tuning 단계를 수정해야 하므로, 이미 학습이 완료된 모델에는 적용할 수 없다.
    이는 HuggingFace 등에 공개된 기존 fine-tuned 모델에 DAREx-L2를 바로 적용할 수 없다는 실용적 제약이다.

    Decoder 모델 실험의 제한: LLaMA2-7B 기반 모델과 Qwen2-0.5B에서만 실험하였으며, 더 큰 규모(13B, 70B)나 다양한 task(코드 생성, 대화 등)에서의 검증이 필요하다.

    Importance-based 방법의 제한적 우위: 논문 자체도 인정하듯, fine-tuned LLM의 delta parameter가 일반적으로 작기 때문에 importance-based 방법이 우위를 보이는 경우가 제한적이다.

    개인 의견

    Delta Transfer와의 결합 가능성: 이 논문의 delta pruning 기법을 Delta Transfer(mu-Transfer의 확장)와 결합하면 흥미로운 시너지가 기대된다.
    Delta Transfer에서는 작은 모델의 하이퍼파라미터를 큰 모델로 전이하는데, 이때 전이되는 delta parameter를 DAREx로 압축하면 저장 및 전송 효율성을 크게 개선할 수 있다.
    특히 여러 scale의 모델을 동시에 관리하는 시나리오에서 DAREx-q의 post-training 특성이 유용할 것이다.

    Model Merging과의 시너지: DARE는 원래 model merging의 전처리로 제안되었으므로, DAREx-q를 model merging 파이프라인에 적용하면 높은 pruning rate에서도 안정적인 병합이 가능할 것으로 보인다.

    이론적 기여의 가치: Theorem 3.1의 high-probability bound는 단순히 DAREx-q를 정당화하는 것을 넘어, rescaling factor의 역할에 대한 근본적 이해를 제공한다.
    이 분석 프레임워크는 다른 sparse 기법에도 적용될 수 있는 범용적 가치를 가진다.

    실용성 측면: DAREx-q가 post-training 기법이라는 점은 매우 큰 장점이다.
    기존에 학습된 어떤 fine-tuned 모델에도 바로 적용할 수 있으며, 단일 배치 inference 비용만으로 극단적 압축을 달성할 수 있다.
    이는 모델 배포 및 서빙 환경에서 즉각적인 실용적 가치를 제공한다.

     

    논문 정보 및 리소스

    • 제목: DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models
    • 저자: Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li, Christos Thrampoulidis
    • 소속: University of British Columbia, Vector Institute
    • 학회: ICLR 2025 (Spotlight)
    • arXiv: 2410.09344
    • OpenReview: avSocG0oFA
    • GitHub: vengdeng/DAREx
    • 분야: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Computation and Language (cs.CL)
    반응형
Designed by Tistory.