논문 리뷰

Multimodal Chart Retrieval:A Comparison of Text, Table and Image Based Approaches

minty_y 2025. 5. 29. 15:10
반응형

기여점

  1. 멀티모달 차트 검색 문제 제기 및 비교 평가
    이미지 기반 차트를 텍스트 질의를 통해 검색하는 과제를 설정하고, 다음 네 가지 방법을 비교:
    • (a) OCR 후 텍스트 기반 검색
    • (b) 차트 디렌더링(DEPLOT) → 테이블 검색
    • (c) 이미지 이해 모델(PALI-3) 직접 사용
    • (d) (b)와 (c)를 결합한 접근
  2. TABGTR 모델 제안
    테이블 구조 임베딩을 활용한 텍스트 검색 모델을 새롭게 제안.
    NQ-TABLES 벤치마크에서 R@1 48.88%로 기존 대비 성능 향상.
  3. 모델 효율성과 정확도 비교
    DEPLOT 기반 접근은 PALI-3보다 정확도가 높고 파라미터 수는 10배 적음 (300M vs 3B).
    다만, 복잡한 차트에는 DEPLOT이 성능 저하를 보임.
  4. 결합 방식의 시너지 효과
    단일 모델보다 PALI-3 + DEPLOT 결합 방식이 가장 안정적인 성능을 보이며, 멀티태스크 학습 시 큰 성능 향상을 기록함.

한계점

  1. 차트 디렌더링의 복잡도 한계
    복잡한 차트(다중 축, 이중 계열 등)에 대해 정확한 테이블 복원이 어렵고 성능이 하락함.
  2. 단일 방법의 일관성 부족
    데이터 분포나 차트 유형에 따라 접근법별 성능이 달라져, 범용성에서 한계가 있음.
  3. TABGTR의 일반화 가능성 미지수
    특정 벤치마크에서 성능은 좋지만, 다양한 도메인에서의 재현성과 범용성은 추가 실험이 필요함.
반응형