-
[25' Neurips] LoRA vs Full Fine-tuning: An Illusion of Equivalence논문 리뷰 2026. 3. 20. 09:51
한 줄 요약
LoRA로 미세조정된 모델의 가중치 행렬에는 사전학습 모델에 존재하지 않는 "침입자 차원(Intruder Dimensions)"이 발생하며, 이는 LoRA와 Full Fine-tuning이 근본적으로 다른 해를 학습한다는 것을 스펙트럼 분석을 통해 밝힌 논문이다.
문제점
LoRA와 Full Fine-tuning의 동등성이라는 착각
기존 연구들은 LoRA가 시퀀스 분류, 명령어 튜닝, 대화 생성 등 다양한 태스크에서 Full Fine-tuning과 유사한 성능을 달성한다고 보고해 왔다.
이로 인해 두 방법이 본질적으로 동등한 해에 수렴한다는 암묵적 가정이 형성되었다.
그러나 다운스트림 성능의 유사성이 곧 학습된 가중치 구조의 동등성을 의미하는 것은 아니다.
LoRA는 저랭크(low-rank) 행렬의 곱 $BA$로 가중치 업데이트를 근사하기 때문에, 학습 과정에서 전체 가중치 공간의 일부만을 탐색하게 된다.
이러한 구조적 제약이 실제로 어떤 영향을 미치는지에 대한 심층적인 분석은 부족했다.사전학습 지식의 망각 문제
LoRA가 Full Fine-tuning보다 사전학습 지식을 더 잘 보존한다는 기존 관찰이 있었으나, 그 원인에 대한 메커니즘적 설명은 제시되지 않았다.
또한 연속 학습(continual learning) 시나리오에서 LoRA를 순차적으로 적용했을 때 발생하는 성능 저하의 원인도 규명되지 않았다.제안 방법
스펙트럼 분석을 통한 구조적 차이 규명
본 논문은 특이값 분해(Singular Value Decomposition, SVD)를 활용하여 사전학습 가중치와 미세조정 가중치의 스펙트럼 구조를 체계적으로 비교하였다.
가중치 행렬 $M = U\Sigma V^T$로 분해한 후, 미세조정된 모델의 상위 특이 벡터들이 사전학습 모델의 특이 벡터들과 얼마나 정렬되는지를 코사인 유사도로 측정하였다.침입자 차원(Intruder Dimensions)의 정의
미세조정된 가중치 $W_{tuned}$의 특이 벡터 $y_j$가 사전학습 가중치의 모든 특이 벡터 $x_i$에 대해 다음 조건을 만족할 때 침입자 차원으로 정의하였다:
$$\max_i \cos(y_j, x_i) < \epsilon$$
여기서 $\epsilon$은 코사인 유사도 임계값이며, 다양한 $\epsilon$ 값에 걸쳐 강건성을 검증하였다.
이 침입자 차원은 사전학습 모델의 어떤 특이 벡터와도 정렬되지 않는 완전히 새로운 방향을 의미한다.핵심 발견
LoRA로 학습된 가중치 행렬에는 높은 랭킹의 침입자 차원이 체계적으로 발생하지만, Full Fine-tuning에서는 거의 발생하지 않는다.
이는 LoRA의 저랭크 행렬 곱 $BA$가 스펙트럼 차이를 증폭시키기 때문으로 분석되었다.
학습 과정에서 침입자 차원의 특이값은 점진적으로 증가하며, 동시에 사전학습 벡터와의 유사도는 감소하는 패턴을 보였다.인과적 개입(Causal Intervention)
침입자 차원의 영향을 검증하기 위해 다음과 같은 가중치 수정을 수행하였다:
$$W = W_0 + \Delta W + (\lambda - 1) u_i \sigma_i v_i^T$$
여기서 $i$는 최상위 침입자 차원의 인덱스이고, $\lambda \in [0, 1]$은 스케일링 계수이다.
$\lambda = 0$이면 침입자 차원을 완전히 제거하고, $\lambda = 1$이면 변화가 없다.
비침입자 이웃 차원에 대해 동일한 개입을 수행하여 대조 실험도 진행하였다.학습 상세
모델 및 데이터셋
구분 모델 데이터셋 평가 인코더 RoBERTa-base SST-2, MNLI, QQP, FEVER, SIQA, WinoGrande 시퀀스 분류 정확도 디코더 LLaMA2-7B Magicoder-Evol-Instruct (코드) HumanEval 디코더 LLaMA2-7B MetaMathQA (수학) GSM8K 망각 평가 LLaMA2-7B - Hellaswag, WinoGrande, Arc-Challenge RoBERTa 학습 하이퍼파라미터
하이퍼파라미터 값 Learning Rate (Full FT) 1e-5 Total LoRA Learning Rate ($\alpha \times \eta$) 2.4e-3 Batch Size 16 Max Epochs 5 Max Sequence Length 512 Optimizer Adam (weight decay 없음) Linear Warmup Ratio 0.06 LoRA Rank 범위 {1, 2, 4, 8, 16, 64} LoRA $\alpha$ (기본) $\alpha = 2r$ LoRA $\alpha$ (비교) $\alpha = 8$ LLaMA2-7B 실험 설정
LLaMA2-7B 실험에서는 Biderman et al. (2024)이 공개한 사전학습 및 미세조정 체크포인트를 활용하였다.
LoRA 랭크는 ${16, 256, 2048}$ 범위에서 실험되었다.연속 학습 설정
순차적 태스크 순서: MNLI → QQP → SST-2 → SIQA → WinoGrande → FEVER
각 태스크 완료 후 LoRA 가중치를 기본 모델에 병합하고, 어댑터를 재초기화한 후 다음 태스크를 학습하였다.실험 결과
RoBERTa 시퀀스 분류 성능 ($\alpha = 2r$)
모델 MNLI SST-2 QQP WinoGrande SIQA FEVER Full FT 0.8745 0.9438 0.9152 0.6582 0.6499 0.6892 LoRA r=1 0.8677 0.9415 0.9042 0.6275 0.6418 0.6870 LoRA r=8 0.8704 0.9472 0.9093 0.6346 0.6607 0.6928 LoRA r=64 0.8719 0.9472 0.9061 0.6212 0.6167 0.6864 다운스트림 태스크 성능에서는 LoRA와 Full Fine-tuning 간의 차이가 미미하여, 표면적으로는 동등한 결과를 보인다.
그러나 가중치의 내부 구조는 근본적으로 상이하다.침입자 차원 발생 패턴
- Full Fine-tuning: 상위 10개 특이 벡터에서 침입자 차원이 거의 발생하지 않았다.
- LoRA (저랭크): 모든 $\epsilon$ 값에 걸쳐 일관되게 침입자 차원이 발생하였다.
- LoRA r=2048 (수학): 매우 높은 랭크에서는 침입자 차원이 소멸하여 Full Fine-tuning과 유사한 구조를 보였다.
침입자 차원과 망각의 상관관계
모델 Spearman 상관계수 ($\rho$) p-value RoBERTa 0.971 $p \ll 0.001$ LLaMA2-7B 0.59 $p = 0.0006$ 침입자 차원의 수와 사전학습 지식의 망각 사이에 극도로 강한 양의 상관관계가 확인되었다.
반면, 침입자 차원의 수와 테스트 정확도 간의 상관관계는 통계적으로 유의하지 않았다 (RoBERTa: $\rho = -0.3381$, LLaMA2: $\rho = -0.3178$, $p > 0.05$).
이는 침입자 차원이 다운스트림 성능에는 영향을 미치지 않으면서 망각을 유발한다는 것을 의미한다.인과적 개입 실험 결과
태스크 $\lambda$ 테스트 정확도 변화 망각 감소율 LLaMA2-7B (코드, r=16) 0.7 미미한 감소 상당한 감소 LLaMA2-7B (수학, r=256) 0.3 -0.1% -33.3% RoBERTa (QQP, r=8) 0.7 동등 -33.2% 침입자 차원의 스케일을 줄이면 테스트 정확도의 손실은 최소화하면서 망각을 대폭 줄일 수 있었다.
대조 실험에서 비침입자 차원을 동일하게 스케일링하면 오히려 망각이 증가하여, 침입자 차원이 망각의 인과적 원인임이 확인되었다.$\alpha$ 파라미터의 영향
- $\alpha = 8$: 모든 랭크에서 침입자 차원이 다량 발생하며, 유효 랭크(effective rank)가 크게 감소하고, 일반화 성능이 저하되었다.
- $\alpha = 2r$: 침입자 차원이 감소하고 일반화 성능이 개선되었다.
연속 학습 실험
첫 번째 태스크(MNLI)에서는 LoRA와 Full Fine-tuning이 동등한 성능을 달성하였다.
그러나 태스크가 순차적으로 추가될수록 LoRA의 성능 저하가 Full Fine-tuning보다 훨씬 급격하게 진행되었다.
낮은 랭크의 LoRA일수록 침입자 차원이 누적되며 성능 저하가 가속화되었다.
Full Fine-tuning은 사전학습 구조의 대각선 유사도 패턴을 유지한 반면, LoRA는 태스크마다 새로운 침입자 차원이 축적되어 가중치 구조가 점진적으로 왜곡되었다.LoRA 변형 실험
AdaLoRA, LoRA+, PiSSA, VeRA 등 다양한 LoRA 변형에서도 바닐라 LoRA와 유사한 침입자 차원 패턴이 관찰되었다.
이는 침입자 차원이 특정 구현이 아닌 저랭크 근사의 구조적 특성에서 기인함을 시사한다.한계점 및 개인 의견
한계점
- LLaMA2-7B 실험의 독립성 부족: LLaMA2-7B 실험은 Biderman et al. (2024)의 공개 체크포인트를 활용하였기 때문에, 학습 하이퍼파라미터에 대한 완전한 통제가 이루어지지 않았다.
- 모델 규모의 제한: RoBERTa-base와 LLaMA2-7B로 실험이 한정되어 있으며, 더 큰 규모의 모델(70B 이상)에서도 동일한 현상이 관찰되는지 검증이 필요하다.
- 태스크 다양성: 시퀀스 분류와 코드/수학 생성에 집중되어 있으며, 대화, 요약, 번역 등 다양한 생성 태스크에 대한 검증이 부족하다.
- 침입자 차원 제거의 실용적 방법론 부재: 침입자 차원의 스케일링이 망각을 줄인다는 것은 보였으나, 실전에서 적용 가능한 자동화된 방법론은 제시되지 않았다.
- $\epsilon$ 임계값의 객관적 설정 기준: 침입자 차원 탐지를 위한 $\epsilon$ 값에 대한 이론적 설정 기준이 제시되지 않았으며, 다양한 값에 걸친 강건성 검증에 의존하였다.
개인 의견
본 논문은 LoRA와 Full Fine-tuning의 동등성이라는 널리 퍼진 가정에 강력한 반례를 제시한 중요한 연구이다.
단순히 다운스트림 성능 비교를 넘어 가중치 공간의 기하학적 구조를 분석한 접근은 매우 설득력이 있다.
특히 Spearman 상관계수 0.971이라는 극도로 높은 상관관계는 침입자 차원과 망각 간의 관계를 강하게 뒷받침한다.Delta Transfer와의 연관성 측면에서 본 논문의 시사점은 크다.
Delta Transfer는 전체 랭크(full-rank)의 가중치 변화량(delta)를 전이하는 방식으로, 본 논문의 분석에 따르면 침입자 차원을 생성하지 않는다.
이는 Full Fine-tuning과 동일한 스펙트럼 구조를 유지하면서 전이 학습의 안정성을 보장할 수 있음을 의미한다.
LoRA의 침입자 차원이 연속 학습에서 누적되어 성능을 저하시킨다는 본 논문의 발견은, 전체 랭크 업데이트를 사용하는 Delta Transfer가 연속적 적응 시나리오에서 구조적으로 우월한 안정성을 제공할 수 있다는 이론적 근거를 제공한다.다만, 높은 랭크의 LoRA(r=2048)에서 침입자 차원이 소멸한다는 결과는 흥미롭다.
이는 저랭크 제약의 강도와 침입자 차원 발생 사이에 연속적인 관계가 있음을 시사하며, 랭크를 충분히 높이면 LoRA도 Full Fine-tuning의 스펙트럼 특성에 수렴할 수 있다는 가능성을 열어둔다.
실용적 관점에서는 랭크와 계산 비용 간의 트레이드오프를 고려하여 최적의 랭크를 선택하는 체계적 방법론의 개발이 필요할 것이다.논문 정보 및 리소스
항목 내용 제목 LoRA vs Full Fine-tuning: An Illusion of Equivalence 저자 Reece Shuttleworth, Jacob Andreas, Antonio Torralba, Pratyusha Sharma 소속 MIT 발표일 2024년 10월 28일 최신 버전 v3 (2025년 10월 22일) 분류 cs.LG, cs.CL arXiv https://arxiv.org/abs/2410.21228 PDF https://arxiv.org/pdf/2410.21228 HTML https://arxiv.org/html/2410.21228v2 반응형'논문 리뷰' 카테고리의 다른 글