분류 전체보기
-
[25' ICLR] LoRA-X: Training-Free Cross-Model Adaptation논문 리뷰 2026. 3. 20. 17:12
한 줄 요약LoRA-X는 소스 모델의 LoRA 어댑터를 타겟 모델로 추가 학습 없이(training-free) 전이하는 방법으로, 두 모델 간 서브스페이스 유사도(subspace similarity)를 기반으로 전이 가능한 레이어를 선별하여 LoRA 파라미터를 재활용한다. 문제점기존 LoRA의 한계대규모 파운데이션 모델의 파라미터 효율적 미세 조정(PEFT) 방법으로 LoRA(Low-Rank Adaptation)가 널리 사용되고 있다.LoRA는 전체 미세 조정에 준하는 성능을 소수의 추가 파라미터만으로 달성할 수 있다.그러나 LoRA 어댑터는 특정 베이스 모델에 종속적으로 학습된다.모델 업데이트 시 발생하는 문제베이스 모델이 업데이트되거나 단종(deprecated)될 경우, 기존에 학습된 모든 LoRA ..
-
[25' CVPR] Task Singular Vectors: Reducing Task Interference in Model Merging논문 리뷰 2026. 3. 20. 17:07
한 줄 요약Task Vector를 레이어 단위로 SVD 분해하여 Task Singular Vectors (TSV)를 정의하고, 이를 통해 태스크 간 간섭을 정량화 및 제거함으로써 모델 병합 성능을 기존 대비 약 15% 향상시킨 연구이다. 문제점Task Arithmetic은 사전학습 모델과 파인튜닝 모델 간의 가중치 차이인 Task Vector를 단순 합산하여 멀티태스크 모델을 생성하는 방법이다.이 접근법은 추가 학습 없이 모델을 병합할 수 있다는 장점이 있으나, 네트워크 전체를 하나의 평탄한 파라미터 벡터로 취급하기 때문에 레이어별 구조적 정보를 간과한다.그 결과, 서로 다른 태스크의 파라미터가 동일한 방향으로 간섭(task interference)을 일으켜 병합 후 성능이 크게 저하되는 문제가 발생한다..
-
[25' ICLR] Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts논문 리뷰 2026. 3. 20. 16:56
한 줄 요약Task vector의 gradient-aligned 성분이 knowledge conflict의 주원인임을 밝히고, trust region 내의 gradient-orthogonal 방향만을 선택적으로 병합하여 training 없이도 안정적인 multi-task model merging을 달성하는 TATR 방법을 제안한다. 문제점Knowledge Conflict의 발생Task arithmetic에서 서로 다른 task의 task vector를 단순 합산하면 knowledge conflict가 발생한다.이는 하나의 task에 대해 fine-tuning된 모델과 병합 시, 다른 task의 성능이 저하되는 현상으로 정의된다.기존 방법들은 이 문제를 scaling coefficient α의 조정으로 해..
-
[26' ICLR] Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature논문 리뷰 2026. 3. 20. 10:28
한 줄 요약Task vector 합산 시 발생하는 cross-task interference를 외부 데이터 없이 최소화하기 위해, KFAC(Kronecker-Factored Approximate Curvature) 기반 regularization을 fine-tuning 과정에 적용하여, 단순한 task vector 덧셈만으로도 SOTA급 multi-task 성능을 달성하는 TAK 프레임워크를 제안한다. 문제점Task Arithmetic에서의 Representation Drift여러 task vector를 단순 합산하면, task t'의 벡터가 추가될 때 기존 task t의 last-layer activation이 변화하는 representation drift가 발생한다.이 drift는 다음과 같이 정량화..
-
[25' Neurips] LoRA vs Full Fine-tuning: An Illusion of Equivalence논문 리뷰 2026. 3. 20. 09:51
한 줄 요약LoRA로 미세조정된 모델의 가중치 행렬에는 사전학습 모델에 존재하지 않는 "침입자 차원(Intruder Dimensions)"이 발생하며, 이는 LoRA와 Full Fine-tuning이 근본적으로 다른 해를 학습한다는 것을 스펙트럼 분석을 통해 밝힌 논문이다. 문제점LoRA와 Full Fine-tuning의 동등성이라는 착각기존 연구들은 LoRA가 시퀀스 분류, 명령어 튜닝, 대화 생성 등 다양한 태스크에서 Full Fine-tuning과 유사한 성능을 달성한다고 보고해 왔다.이로 인해 두 방법이 본질적으로 동등한 해에 수렴한다는 암묵적 가정이 형성되었다.그러나 다운스트림 성능의 유사성이 곧 학습된 가중치 구조의 동등성을 의미하는 것은 아니다.LoRA는 저랭크(low-rank) 행렬의 곱 ..
-
[25' ICLR] DAREx: Revisiting Delta-Parameter Pruning카테고리 없음 2026. 3. 19. 17:59
한 줄 요약DARE의 rescaling factor 한계를 이론적으로 분석하고, DAREx-q(rescaling factor 수정)와 DAREx-L2(AdamR 정규화)를 제안하여 극단적 pruning rate(99%)에서도 성능을 유지하는 delta-parameter pruning 프레임워크를 제시한 논문이다. 문제점Delta-Parameter Pruning의 배경Fine-tuned 모델을 저장할 때, pre-trained 모델과의 차이인 delta parameter(ΔW = W_fine-tuned - W_pre-trained)만 저장하면 효율적이다.기존 DARE(Drop And REscale) 방법은 delta parameter를 랜덤하게 drop한 뒤 1/(1-p)로 rescale하여 출력의 기댓값..
-
[24' ICML] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch (DARE)카테고리 없음 2026. 3. 19. 17:58
한 줄 요약SFT로 생긴 delta parameter의 90~99%를 랜덤으로 제거(Drop)하고 나머지를 1/(1-p)로 재스케일링(Rescale)해도 성능이 거의 유지된다는 사실을 밝히고, 이를 활용해 여러 SFT 모델을 추가 학습 없이 하나로 병합(Merge)하는 DARE(Drop And REscale) 기법을 제안했다. 문제점하나의 사전학습 모델을 여러 태스크에 맞게 SFT하면, 태스크마다 별도의 모델을 유지해야 한다.수학 추론용 WizardMath, 코드 생성용 WizardCoder, 일반 지시 따르기용 WizardLM처럼 같은 Llama 2 백본에서 출발했지만 각각 다른 능력만 갖게 된다.이 모델들을 하나로 합쳐서 모든 능력을 동시에 갖춘 단일 모델을 만들 수 있다면 배포와 운영 비용이 크게..
-
[24' NeurIPS] BitDelta: Your Fine-Tune May Only Be Worth One Bit논문 리뷰 2026. 3. 19. 17:55
한 줄 요약BitDelta는 파인튜닝된 모델과 베이스 모델 간의 가중치 차이(delta)를 1비트(부호 + 스케일 팩터)로 압축해도 성능 저하가 거의 없음을 보여주며, 파인튜닝이 추가하는 정보의 본질이 방향(direction)에 있음을 실증한 연구다. 문제점대규모 언어 모델의 멀티테넌트 서빙 비용 문제대규모 언어 모델(LLM)은 다양한 태스크에 맞춰 파인튜닝되어 수많은 변형 모델이 생성된다.각 파인튜닝된 모델은 베이스 모델과 동일한 크기의 가중치를 별도로 저장하고 로드해야 한다.예를 들어, Llama 2-70B 기반의 파인튜닝 모델 N개를 동시에 서빙하려면 N × 140GB에 달하는 GPU 메모리가 필요하다.이는 멀티테넌트 환경에서의 서빙 비용을 급격히 증가시킨다.기존 압축 방법의 한계기존의 모델 압축 ..