ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [25' CVPR] Task Singular Vectors: Reducing Task Interference in Model Merging
    논문 리뷰 2026. 3. 20. 17:07

    한 줄 요약

    Task Vector를 레이어 단위로 SVD 분해하여 Task Singular Vectors (TSV)를 정의하고, 이를 통해 태스크 간 간섭을 정량화 및 제거함으로써 모델 병합 성능을 기존 대비 약 15% 향상시킨 연구이다.

     

    문제점

    Task Arithmetic은 사전학습 모델과 파인튜닝 모델 간의 가중치 차이인 Task Vector를 단순 합산하여 멀티태스크 모델을 생성하는 방법이다.
    이 접근법은 추가 학습 없이 모델을 병합할 수 있다는 장점이 있으나, 네트워크 전체를 하나의 평탄한 파라미터 벡터로 취급하기 때문에 레이어별 구조적 정보를 간과한다.
    그 결과, 서로 다른 태스크의 파라미터가 동일한 방향으로 간섭(task interference)을 일으켜 병합 후 성능이 크게 저하되는 문제가 발생한다.

    기존 방법들은 이 문제를 부분적으로 해결하려 시도했다.
    TIES-Merging은 파라미터 중복성을 top-k 선택으로 처리하고, Fisher MergingRegMean은 가중 평균을 사용한다.
    TALL-MaskConsensus TA는 태스크별 중요 가중치를 식별하는 방식을 채택했다.
    그러나 이들 모두 태스크 간 간섭의 근본 원인인 특이벡터(singular vector) 수준의 기하학적 중첩을 직접적으로 다루지 못했다.

     

    제안 방법

    레이어 단위 SVD 분해

    본 논문은 Task Vector를 네트워크 전체가 아닌 레이어 단위로 분석한다.
    각 태스크 $i$의 레이어 $l$에 대한 태스크 행렬 $\Delta_i^{(l)}$에 SVD를 적용하여 다음과 같이 분해한다:

    $$\Delta_i = U_i \Sigma_i V_i^T$$

    여기서 $U_i$와 $V_i$의 열벡터들을 Task Singular Vectors (TSV)라 정의한다.
    핵심 발견은 태스크 행렬이 본질적으로 저랭크(low-rank) 구조를 가진다는 것이다.
    전체 특이 성분의 3%만 유지해도 정확도 손실이 1.5%에 불과하다.

    TSV-Compress (TSV-C)

    Eckart-Young 정리에 기반한 최적 랭크-$k$ 근사를 활용한다:

    $$\hat{\Delta}i = \sum{j=1}^{k} \sigma_j^i u_j^i {v_j^i}^T$$

    $T$개의 태스크가 있을 때 각 태스크당 상위 $1/T$개의 특이 성분만 보존한다.
    이를 통해 원본 크기의 10%로 압축하면서도 99%의 정확도를 유지한다.
    알려진 태스크 인덱스 $h$에 대해 병합 행렬은 $\hat{M} = \hat{\Delta}_h$로 단순화된다.

    Singular Task Interference (STI) 측도

    태스크 간 간섭을 정량화하기 위해 STI 측도를 정의한다:

    $$\text{STI}({\Delta_i}) = |({U}^T {U} - I) \Sigma ({V}^T {V} - I)|_1$$

    STI 값이 높을수록 서로 다른 태스크의 특이벡터가 중첩되어 간섭이 심함을 의미한다.
    이 측도는 간섭의 근본 원인을 기하학적으로 포착한다.

    TSV-Merge (TSV-M)

    TSV-Merge는 압축과 간섭 제거를 결합한 알고리즘이다.
    핵심 절차는 다음과 같다:

    1. 각 태스크 행렬에 대해 SVD를 수행한다.
    2. 태스크당 상위 $1/T$개의 특이 성분을 보존한다.
    3. 특이벡터 행렬을 연결한다: $U = [U_1 | U_2 | \cdots | U_T]$
    4. Procrustes 직교화를 적용하여 간섭을 최소화한다:
      $$\min |\hat{U}_\perp - \hat{U}|_F \quad \text{s.t.} \quad \hat{U}_\perp^T \hat{U}_\perp = I$$
    5. 병합 레이어를 재구성한다: $\hat{M} \leftarrow U_\perp \Sigma V_\perp^T$
    6. 최종 가중치를 생성한다: $\theta_{MT} \leftarrow \theta_{pre} + \alpha \hat{M}$

    Proposition 4.1은 화이트닝 변환 $X(X^T X)^{-1/2}$과 Procrustes 해 $PQ^T$의 동치성을 증명한다.
    Theorem 6.1은 태스크 수 $T > 4$일 때, 랭크 $k \leq n(T - 2\sqrt{T})/T$이면 저랭크 절단이 전체 랭크보다 더 작은 Procrustes 근사 오차를 생성함을 이론적으로 보장한다.

     

    학습 상세

    모델 및 데이터셋 구성

    항목 상세
    비전 인코더 CLIP ViT-B/32, ViT-B/16, ViT-L/14
    8 태스크 Cars, DTD, EuroSAT, GTSRB, MNIST, RESISC45, SUN397, SVHN
    14 태스크 8 태스크 + CIFAR100, STL10, Flowers102, OxfordIIIPet, PCAM, FER2013
    20 태스크 14 태스크 + EMNIST, CIFAR10, Food101, FashionMNIST, RenderedSST2, KMNIST
    병합 계수 α 1.0 (하이퍼파라미터 튜닝 불필요)
    압축 비율 태스크당 $1/T$ 특이 성분 보존 (약 10%)
    프레임워크 PyTorch, Hydra 설정 관리
    평가 지표 절대 정확도(Absolute Acc.), 정규화 정확도(Normalized Acc.)

    비교 기법

    Weight Averaging, Task Arithmetic, TIES-Merging, Fisher Merging, RegMean, Consensus TA, TALL-Mask 등 기존 모델 병합 기법들과 비교를 수행했다.
    정규화 정확도는 개별 파인튜닝 모델 대비 상대 성능을 나타낸다.

     

    실험 결과

    모델 병합 성능 (Table 2: 절대 정확도 / 정규화 정확도)

    ViT-B/32:

    Method 8 tasks 14 tasks 20 tasks
    Zeroshot 48.26 (53.59) 57.21 (63.69) 56.10 (62.41)
    Weight Averaging 66.34 (72.13) 64.34 (71.12) 61.04 (67.53)
    Task Arithmetic 70.79 (76.55) 65.32 (72.09) 60.52 (66.79)
    Consensus TA 75.03 (80.84) 70.39 (77.36) 65.43 (71.98)
    TSV-M (Ours) 85.86 (92.31) 80.06 (87.88) 77.07 (84.29)

    ViT-B/16:

    Method 8 tasks 14 tasks 20 tasks
    Zeroshot 55.34 (59.34) 61.28 (66.19) 59.73 (64.52)
    Weight Averaging 72.22 (76.60) 69.46 (74.82) 65.31 (70.36)
    Task Arithmetic 75.41 (79.58) 70.52 (75.89) 65.78 (70.76)
    Consensus TA 79.39 (83.86) 74.39 (79.92) 69.76 (74.93)
    TSV-M (Ours) 89.01 (93.94) 84.58 (91.01) 80.57 (86.45)

    ViT-L/14:

    Method 8 tasks 14 tasks 20 tasks
    Zeroshot 64.70 (68.00) 68.20 (72.15) 65.23 (68.99)
    Weight Averaging 79.56 (83.15) 76.73 (81.10) 71.60 (75.60)
    Task Arithmetic 84.93 (88.65) 79.41 (83.95) 74.01 (78.07)
    Consensus TA 86.34 (90.08) 82.22 (86.94) 79.00 (83.22)
    TSV-M (Ours) 92.98 (96.98) 89.17 (94.43) 87.72 (92.50)

    TSV-M은 모든 모델과 태스크 수 설정에서 기존 방법을 대폭 상회했다.
    ViT-B/32 8태스크 기준 Task Arithmetic 대비 +15.07%, Consensus TA 대비 +10.83%의 절대 정확도 향상을 달성했다.
    태스크 수가 증가할수록 TSV-M의 상대적 우위가 더욱 커진다는 점이 주목할 만하다.

    압축 성능 (Table 3: TSV-Compress)

    ViT-B/32:

    Method 8 tasks 14 tasks 20 tasks
    Finetuned (개별) 92.83 (100) 90.88 (100) 91.37 (100)
    TALL-Mask+TIES 93.13 (100.37) 90.92 (100.04) 91.11 (99.70)
    TSV-C (Ours) 92.62 (99.74) 90.29 (99.28) 90.64 (99.14)

    ViT-L/14:

    Method 8 tasks 14 tasks 20 tasks
    Finetuned (개별) 95.81 (100) 94.29 (100) 94.73 (100)
    TALL-Mask+TIES 95.96 (100.15) 93.40 (99.09) 93.91 (99.16)
    TSV-C (Ours) 95.68 (99.85) 94.04 (99.72) 94.42 (99.66)

    TSV-C는 원본 크기의 약 10%만 저장하면서도 99% 이상의 정규화 정확도를 일관되게 유지했다.
    특히 ViT-L/14에서는 TALL-Mask+TIES보다 14태스크(+0.63%), 20태스크(+0.50%)에서 더 높은 정규화 정확도를 기록했다.

    Ablation Study (Table 4: ViT-B/32, 정규화 정확도)

    Low-rank Interference Reduction 8 tasks 14 tasks 20 tasks
    X X 76.5 (+0.0) 72.1 (+0.0) 66.8 (+0.0)
    O X 75.2 (-1.3) 71.0 (-1.1) 66.3 (-0.5)
    X O 82.6 (+7.4) 75.7 (+4.7) 69.9 (+3.6)
    O O 92.3 (+9.7) 87.9 (+12.2) 84.3 (+14.4)

    저랭크 근사만 적용하면 오히려 소폭 성능이 하락했다.
    간섭 제거만 적용해도 유의미한 향상이 있었으나, 저랭크 근사와 간섭 제거를 결합했을 때 시너지 효과가 극대화되었다.
    태스크 수가 많을수록(20 tasks에서 +14.4%) 그 효과가 더 두드러졌다.

    추가 분석

    레이어별 간섭 분석: 트랜스포머 초기 레이어에서 태스크 간섭이 가장 높았고(STI 약 0.51.0), 깊은 레이어로 갈수록 감소했다(STI 약 0.10.2).
    이는 초기 레이어가 일반적 특징을, 후기 레이어가 태스크 특화 특징을 학습한다는 기존 관찰과 일치한다.
    STI-정확도 상관관계: STI 감소와 정확도 향상 간에 강한 양의 상관관계가 확인되었다.
    Task Arithmetic(STI 약 0.5)에서 TSV-M(STI 약 0.15)으로 전환 시 약 12%의 정확도 개선이 수반되었다.

     

    한계점 및 개인 의견

    논문의 한계점

    첫째, 균일 랭크 가정이 제한적이다.
    모든 태스크에 대해 동일하게 $1/T$개의 특이 성분을 보존하는데, 태스크별 복잡도나 중요도에 따라 적응적으로 랭크를 설정하는 것이 더 효과적일 수 있다.
    둘째, 선형 프레임워크의 한계가 존재한다.
    SVD 기반 분석은 태스크 간 상호작용을 선형적으로만 포착하며, 비선형 간섭 패턴을 놓칠 수 있다.
    셋째, 실험이 CLIP 비전 인코더에 한정되어 있어, NLP 모델이나 다른 아키텍처로의 일반화 가능성이 검증되지 않았다.

    개인 의견

    본 논문의 가장 큰 기여는 태스크 벡터의 저랭크 구조를 실증적으로 입증한 것이다.
    태스크 행렬의 10%만으로 99% 성능을 유지한다는 발견은 파인튜닝 과정에서 실제로 변화하는 파라미터 공간이 극도로 제한적임을 시사한다.
    이는 Delta Transfer의 SVD 프로젝션 접근법을 직접적으로 정당화한다.
    Delta Transfer가 사전학습 모델 간 크기 전이를 위해 SVD를 사용하는 것과 TSV의 저랭크 발견은 동일한 본질적 구조를 활용하는 것이다.

    Ablation에서 저랭크 근사와 간섭 제거의 시너지 효과가 각 구성요소의 단순 합보다 훨씬 크다는 점이 인상적이다.
    이는 저랭크 공간에서의 직교화가 단순한 차원 축소를 넘어 태스크 간 분리 가능한 부분공간을 효과적으로 구성함을 의미한다.

    스케일링 계수 $\alpha = 1.0$에서 최적 성능을 달성하여 하이퍼파라미터 튜닝이 불필요하다는 점도 실용적 가치가 높다.
    그러나 이 결과가 CLIP 모델에 특화된 것인지, 혹은 다른 아키텍처에서도 유지되는 보편적 속성인지는 추가 검증이 필요하다.

    향후 연구 방향으로는 태스크 적응형 랭크 선택, 비선형 간섭 모델링, 그리고 LLM 및 생성 모델로의 확장이 유망할 것으로 판단된다.

     

    논문 정보 및 리소스

    항목 내용
    제목 Task Singular Vectors: Reducing Task Interference in Model Merging
    저자 Antonio Andrea Gargiulo, Donato Crisostomi, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Emanuele Rodolà
    학회 CVPR 2025 (pp. 18695-18705)
    arXiv 2412.00081
    GitHub AntoAndGar/task_singular_vectors
    라이선스 Apache 2.0 (코드), CC BY-NC-SA 4.0 (논문)
    DOI 10.1109/CVPR52734.2025.01742
    반응형
Designed by Tistory.