[25' CVPR] AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models

논문 리뷰 2026. 3. 19. 17:51

한 줄 요약

AdaMMS는 서로 다른 아키텍처를 가진 이종(heterogeneous) Multimodal LLM들을 라벨 데이터 없이 병합하기 위해, 파라미터 매핑(Mapping), 가중 보간 병합(Merging), 비지도 계수 탐색(Searching)의 3단계 프레임워크를 제안한 최초의 이종 MLLM 병합 방법론이다.

문제점

기존 모델 병합의 한계

기존의 모델 병합(model merging) 기법들은 동일한 아키텍처(homogeneous)를 가진 모델들을 대상으로 설계되었다.
그러나 Multimodal Large Language Model(MLLM)들은 본질적으로 이종적(heterogeneous) 특성을 가진다.
동일한 사전학습 베이스 모델(예: Qwen2, LLaMA)에서 파생되더라도, 각 MLLM은 서로 다른 transformer 블록 구조, 모달리티별 인코더, 아키텍처 변형을 적용한다.

구체적 문제

아키텍처 차이 문제: CogVLM은 attention head의 query/key/value를 복제(duplicate)하고, mPLUG-Owl2는 key/value 및 layer-norm 가중치를 복제하는 등 모델마다 구조적 변형이 다르다.
파라미터 공간 비대칭 문제: 이종 MLLM에서 두 모델의 파라미터 공간은 비대칭적이며, 큰 보간 계수(α ≥ 0.7)를 사용하면 언어 능력이 붕괴(collapse)된다.
라벨 데이터 의존 문제: FuseLLM, FuseChat 등 기존 방법들은 지도학습 기반으로 18억 토큰의 학습 데이터와 33시간의 훈련을 필요로 한다.
기존 병합 기법(Task Arithmetic, TIES-Merging, DARE 등)도 최적 하이퍼파라미터 선택을 위해 라벨이 있는 검증 데이터를 요구한다.

제안 방법

AdaMMS는 Adaptive Mapping, Merging, and Searching의 약자로, 3단계 파이프라인을 통해 이종 MLLM 병합 문제를 해결한다.

Step 1: Mapping (매핑)

서로 다른 아키텍처 간 파라미터를 정렬하기 위한 매핑 함수 f를 정의한다.
매핑 원칙은 다음과 같다:

공유 사전학습 가중치: 직접 매핑
복제/추가된 가중치: 대응하는 파라미터에 매핑
대응 파라미터가 없는 경우: null(φ)로 매핑

이를 통해 동일한 base 모델에서 파생되었으나 구조가 다른 MLLM 간의 파라미터 융합이 가능해진다.

Step 2: Merging (병합)

Task Arithmetic 패러다임을 기반으로 task vector를 활용한 가중 선형 보간(weighted linear interpolation)을 수행한다.

task vector는 다음과 같이 정의된다:

τᵢ = θᵢ − θ₀ (fine-tuned 가중치 − 사전학습 가중치)

이종 모델에 대한 병합 공식은 다음과 같다:

대응 파라미터가 없는 경우: θ_out = θ₁ (원본 유지)
대응 파라미터가 있는 경우: θ_out = (1−α)·θ₁ + α·f(θ₁)

여기서 α ∈ [0, 0.6] 범위로 제한되며, 이는 α ≥ 0.7에서 언어 능력 붕괴가 발생한다는 실험적 관찰에 기반한다.
이 방식은 보간(interpolation) 기반 병합으로, 두 모델 사이의 가중 평균을 취하는 방식이다.

Step 3: Searching (비지도 계수 탐색)

핵심 발견: 모델 성능은 생성 일관성(generation consistency)으로 근사할 수 있다.
즉, 인접한 α 후보들 간 생성 응답의 변동이 최소인 지점이 최적 성능 지점에 근접한다.

선택 기준은 다음과 같다:

ᾱ = argmin_α D(α; α⁻, α⁺)
여기서 D는 인접 보간 계수에서의 응답 차이(exact match 기반 불일치 수)

이론적 근거: 성능 landscape가 최적점 근처에서 국소적으로 볼록(convex)하다는 가정 하에, 최적점에서 기울기가 0이고 Hessian이 양의 준정부호(positive semi-definite)이므로, 파라미터의 작은 변동은 성능의 작은 변화만 유발한다.
따라서 응답 변동이 최소인 α가 최적점에 근접한다.

실용적으로는 100개의 비라벨 샘플만으로 충분하며, exact match 메트릭으로 응답 불일치를 측정한다.

학습 상세

AdaMMS는 추가 학습이 필요 없는 순수 추론 기반(inference-based) 병합 방법이다.

하이퍼파라미터 설정

하이퍼파라미터	값	비고
보간 계수 α 범위	[0, 0.6]	α ≥ 0.7에서 언어 붕괴 발생
α 탐색 간격 (granularity)	0.1	총 7개 후보 (0.0~0.6)
비지도 탐색 샘플 수	100개	라벨 불필요
일관성 측정 메트릭	Exact Match (EM)	이진 응답 비교

실험에 사용된 모델 조합

조합	Base 모델	Source 모델	Base 아키텍처
조합 1	Qwen2-VL-7B	LLaVA-OneVision-Qwen-7B	Qwen2
조합 2	CogVLM-Chat-7B	LLaVA-v1.5-7B	LLaMA
조합 3	mPLUG-Owl2-LLaMA2-7B	LLaVA-v1.5-7B	LLaMA
조합 4	mPLUG-Owl2	CogVLM-Chat	LLaMA
조합 5	Cambrian-34B	Yi-VL-34B	Yi

평가 벤치마크 (8개 주요 과제)

카테고리	벤치마크	평가 영역
종합 평가	MME, SeedBench, VizWiz	일반 멀티모달 능력
인지 및 추론	MMMU, OK-VQA, GQA	복합 이해 능력
텍스트 중심 VQA	OCRBench, TextVQA	문서 이해 능력

모든 점수는 0–100 범위로 정규화되었으며, MME의 경우 원래 2800점 만점을 28로 나누어 정규화하였다.
평가 프레임워크로는 LMMs-Eval과 VLMEvalKit을 사용하였다.

실험 결과

주요 결과 1: Qwen2-VL + LLaVA-OneVision 병합 (Table 1)

벤치마크	Qwen2-VL (base)	LLaVA-OV (source)	Task Arith.	TIES	DARE-L	DARE-T	MetaGPT	AdaMMS
MMMU_val	46.77	47.78	46.89	48.89	28.11	30.67	49.89	51.11
MME_sum	79.24	80.29	78.92	82.99	58.29	62.10	82.79	83.36
SeedBench	75.65	74.72	76.06	75.95	63.52	67.33	76.34	76.20
OCRBench	77.80	66.10	77.60	82.70	64.20	66.50	85.20	85.50
TextVQA	81.30	67.50	79.88	82.02	68.41	72.42	82.63	83.41
OKVQA	50.50	56.27	48.48	53.02	46.48	48.46	55.66	53.56
GQA	60.82	62.52	59.50	61.47	56.79	58.40	62.25	62.02
VizWiz	64.65	47.65	68.99	67.71	84.13	87.53	65.99	68.40
SUM	536.73	502.83	536.32	554.75	469.93	493.41	560.75	563.56
Gain	—	—	+18.03	+18.03	-66.79	-43.31	+24.03	+26.84

AdaMMS는 8개 벤치마크 중 8/9 Top-2 순위를 달성하며 모든 기존 병합 방법을 능가하였다.

주요 결과 2: CogVLM + LLaVA-v1.5 병합 (Table 2)

벤치마크	CogVLM (base)	LLaVA-v1.5 (source)	Task Arith.	TIES	AdaMMS
MMMU_val	34.95	34.33	34.67	34.22	34.90
MME_sum	62.96	63.68	63.27	63.04	69.09
SeedBench	60.87	66.09	62.62	64.23	64.12
OCRBench	43.90	34.60	45.50	45.30	55.70
TextVQA	61.81	58.16	63.68	63.84	76.90
OKVQA	57.12	44.53	57.28	57.33	61.11
GQA	60.69	61.73	60.64	60.65	60.12
VizWiz	45.69	50.24	46.40	46.56	37.27
SUM	427.99	413.36	434.06	435.17	459.21
Gain	—	—	+6.07	+7.18	+31.23

CogVLM + LLaVA-v1.5 조합에서 AdaMMS는 기존 방법 대비 +31.23의 압도적인 성능 향상을 달성하였다.

비지도 탐색의 정확도 (Table 4)

벤치마크	Oracle α	AdaMMS α	Oracle 점수	AdaMMS 점수	편차
MMMU_val	0.30	0.20	51.22	51.11	0.11
MME_sum	0.30	0.30	83.36	83.36	0.00
OCRBench	0.10	0.10	85.50	85.50	0.00

비지도 탐색으로 선택된 α는 Oracle(최적) α 대비 최대 0.5점 이내의 편차만 보이며, 라벨 없이도 거의 최적에 가까운 계수를 선택할 수 있음을 입증하였다.

Ablation: 샘플 수 및 메트릭 비교 (Table 3)

전체 테스트셋 대비 100개 샘플만 사용한 경우, 평균 성능 차이는 0.02점에 불과하였다.
Exact match 메트릭과 sentence embedding 메트릭의 성능 차이도 미미하여, 단순한 exact match로 충분함을 확인하였다.

한계점 및 개인 의견

논문에서 언급된 한계점

성능 격차가 큰 모델 조합의 한계: 두 모델 간 성능 차이가 큰 벤치마크(OCRBench, TextVQA 등)에서는 병합 후 오히려 성능이 하락할 수 있다.
파라미터 공간 비대칭 제약: α ≥ 0.7에서 언어 능력 붕괴가 발생하여 탐색 범위가 [0, 0.6]으로 제한된다.
동일 base 모델 제약: 완전히 다른 base 아키텍처(예: Qwen2와 LLaMA) 간의 병합은 불가능하며, 동일 사전학습 모델에서 파생된 이종 MLLM만 병합할 수 있다.

개인 의견

보간 기반 병합의 본질적 한계: AdaMMS의 핵심은 가중 선형 보간(weighted linear interpolation)이다.
이 방식은 두 모델의 파라미터를 가중 평균하는 것이므로, 한 모델의 고유한 능력이 다른 모델의 파라미터에 의해 희석될 수밖에 없다.
특히 α 범위가 [0, 0.6]으로 제한되어, source 모델의 강점을 충분히 활용하지 못하는 구조적 제약이 존재한다.
이후 연구인 Delta Transfer가 보간이 아닌 delta addition 방식을 채택한 것은 이러한 한계를 인식한 결과로 보인다.

볼록성 가정의 취약성: 비지도 탐색의 이론적 근거는 성능 landscape의 국소적 볼록성(local convexity)에 의존한다.
그러나 실제 심층 신경망의 loss landscape는 비볼록(non-convex)이며 다수의 local optima가 존재한다.
논문에서도 일부 벤치마크에서 generation consistency와 실제 성능 간 상관관계가 약해지는 현상이 관찰된다.

확장성 문제: 현재 방법은 2개 모델의 병합만을 다루고 있으며, 3개 이상의 MLLM을 동시에 병합하는 시나리오에 대한 논의가 부재하다.
또한 7B~34B 규모의 모델만 실험하였으며, 더 큰 규모의 모델에 대한 검증이 필요하다.

task-specific α의 한계: 각 벤치마크(task)별로 최적 α가 다르다는 점은 실용적 관점에서 단점이 될 수 있다.
실제 배포 환경에서는 단일 병합 모델이 다양한 과제를 수행해야 하므로, task-agnostic한 최적 α 선택 전략이 필요하다.

MLLM 병합 연구의 선구적 의의: 이종 MLLM 병합이라는 새로운 문제를 정의하고, 비지도 방식으로 접근한 최초의 연구라는 점에서 큰 의의가 있다.
특히 100개의 비라벨 샘플만으로 Oracle에 근접하는 성능을 달성한 비지도 탐색 메커니즘은 실용적 가치가 높다.

논문 정보 및 리소스

제목: AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization
저자: Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu (공동 1저자)
소속: Tsinghua University, Peking University, Alibaba Group, Shanghai AI Laboratory, ModelTC
학회: CVPR 2025
ArXiv: 2503.23733
GitHub: THUNLP-MT/AdaMMS
키워드: Model Merging, Multimodal LLM, Heterogeneous Architecture, Unsupervised Optimization, Task Arithmetic

'논문 리뷰' 카테고리의 다른 글

[25' Neurips] LoRA vs Full Fine-tuning: An Illusion of Equivalence (0)	2026.03.20
[24' NeurIPS] BitDelta: Your Fine-Tune May Only Be Worth One Bit (0)	2026.03.19
[CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster (0)	2026.03.17
Understanding LLM Scientific Reasoning through Promptings and Model’s Explanation on the Answers (1)	2025.07.10
Multimodal Chart Retrieval:A Comparison of Text, Table and Image Based Approaches (1)	2025.05.29

ABOUT ME

just do it just do it

한 줄 요약

문제점

기존 모델 병합의 한계

구체적 문제

제안 방법

Step 1: Mapping (매핑)

Step 2: Merging (병합)

Step 3: Searching (비지도 계수 탐색)

학습 상세

하이퍼파라미터 설정

실험에 사용된 모델 조합

평가 벤치마크 (8개 주요 과제)

실험 결과

주요 결과 1: Qwen2-VL + LLaVA-OneVision 병합 (Table 1)

주요 결과 2: CogVLM + LLaVA-v1.5 병합 (Table 2)

비지도 탐색의 정확도 (Table 4)

Ablation: 샘플 수 및 메트릭 비교 (Table 3)

한계점 및 개인 의견

논문에서 언급된 한계점

개인 의견

논문 정보 및 리소스

'논문 리뷰' 카테고리의 다른 글

티스토리툴바

ABOUT ME

한 줄 요약

문제점

기존 모델 병합의 한계

구체적 문제

제안 방법

Step 1: Mapping (매핑)

Step 2: Merging (병합)

Step 3: Searching (비지도 계수 탐색)

학습 상세

하이퍼파라미터 설정

실험에 사용된 모델 조합

평가 벤치마크 (8개 주요 과제)

실험 결과

주요 결과 1: Qwen2-VL + LLaVA-OneVision 병합 (Table 1)

주요 결과 2: CogVLM + LLaVA-v1.5 병합 (Table 2)

비지도 탐색의 정확도 (Table 4)

Ablation: 샘플 수 및 메트릭 비교 (Table 3)

한계점 및 개인 의견

논문에서 언급된 한계점

개인 의견

논문 정보 및 리소스

'논문 리뷰' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바