논문 리뷰
Multimodal Chart Retrieval:A Comparison of Text, Table and Image Based Approaches
minty_y
2025. 5. 29. 15:10
반응형
기여점
- 멀티모달 차트 검색 문제 제기 및 비교 평가
이미지 기반 차트를 텍스트 질의를 통해 검색하는 과제를 설정하고, 다음 네 가지 방법을 비교:- (a) OCR 후 텍스트 기반 검색
- (b) 차트 디렌더링(DEPLOT) → 테이블 검색
- (c) 이미지 이해 모델(PALI-3) 직접 사용
- (d) (b)와 (c)를 결합한 접근
- TABGTR 모델 제안
테이블 구조 임베딩을 활용한 텍스트 검색 모델을 새롭게 제안.
NQ-TABLES 벤치마크에서 R@1 48.88%로 기존 대비 성능 향상. - 모델 효율성과 정확도 비교
DEPLOT 기반 접근은 PALI-3보다 정확도가 높고 파라미터 수는 10배 적음 (300M vs 3B).
다만, 복잡한 차트에는 DEPLOT이 성능 저하를 보임. - 결합 방식의 시너지 효과
단일 모델보다 PALI-3 + DEPLOT 결합 방식이 가장 안정적인 성능을 보이며, 멀티태스크 학습 시 큰 성능 향상을 기록함.
한계점
- 차트 디렌더링의 복잡도 한계
복잡한 차트(다중 축, 이중 계열 등)에 대해 정확한 테이블 복원이 어렵고 성능이 하락함. - 단일 방법의 일관성 부족
데이터 분포나 차트 유형에 따라 접근법별 성능이 달라져, 범용성에서 한계가 있음. - TABGTR의 일반화 가능성 미지수
특정 벤치마크에서 성능은 좋지만, 다양한 도메인에서의 재현성과 범용성은 추가 실험이 필요함.
반응형