-
mllm 모델과 벤치마크 조사 (0107 ~ )카테고리 없음 2025. 1. 7. 18:05반응형
▶ OCR-related multimodal benchmarks
더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv preprint arXiv:2412.10302 (2024).
▶ medical QA 벤치마크
Medical Visual Question Answering: A Survey
▶ general QA 벤치마크
더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv preprint arXiv:2412.10302 (2024).
▶ 한국어 VQA 벤치마크
■ BAN-KVQA
https://github.com/SKTBrain/BAN-KVQA
GitHub - SKTBrain/BAN-KVQA: Bilinear Attention Networks for Korean Visual Question Answering
Bilinear Attention Networks for Korean Visual Question Answering - SKTBrain/BAN-KVQA
github.com
■ 외부 지식 기반 멀티모달 질의응답 데이터
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
■ 생활 및 거주환경 기반 VQA
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
■ 시각정보 기반 질의응답
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
■ k-viscuit
https://github.com/ddehun/k-viscuit
GitHub - ddehun/k-viscuit: Official repository for "Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with
Official repository for "Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration, arXiv 2024.06" (https://arxiv.org/pdf/2406.16469) - ddehun/k-...
github.com
■ KVQA Dataset
https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=104
https://sktbrain.github.io/KVQA/index-en.html
KVQA Dataset
Visual question answering dataset for visually-impaired Korean
sktbrain.github.io
더보기Kim, Jin-Hwa, et al. "Korean localization of visual question answering for blind people." SK T-Brain-AI for Social Good Workshop at NeurIPS. 2019.
▶ Chart 벤치마크
■ InfographicVQA
인포그래픽 이미지에서 다양한 정보를 통합적으로 해석하고 추론할 수 있는 AI 모델의 능력을 평가하는 데 중점을 둔 데이터셋
- 데이터셋 특징
- 구성 요소:
- 다양한 인포그래픽 이미지.
- 자연어로 작성된 질문과 답변 주석(annotation).
- 질문 유형:
- 문서 레이아웃, 텍스트 콘텐츠, 그래픽 요소, 데이터 시각화를 결합하여 추론해야 하는 질문.
- 기본적인 추론 능력과 산술 연산(arithmetic skills)이 필요한 질문에 중점.
- 구성 요소:
- 목적
- AI 모델의 인포그래픽 해석 능력 평가.
- 텍스트, 그래픽, 데이터 시각화 등 다양한 요소를 통합적으로 추론하는 능력을 요구.
- 특징적 초점
- 초등 수준의 논리적 추론 및 산술 계산 능력 평가.
- 단순한 이미지 해석을 넘어, 문서 전반을 이해하고 복합적인 정보 구조를 처리할 수 있는 모델 성능 테스트.
https://paperswithcode.com/dataset/infographicvqa
Papers with Code - InfographicVQA Dataset
InfographicVQA is a dataset that comprises a diverse collection of infographics along with natural language questions and answers annotations. The collected questions require methods to jointly reason over the document layout, textual content, graphical el
paperswithcode.com
■ EvoChart-QA
실제 데이터를 기반으로 한 차트 이해 및 질문 응답에서 모델의 기본적 정보 추출과 복합적 논리 추론 능력을 평가하는 데이터셋
1. 데이터셋 특징
- 구성 요소:
- 총 625개의 차트 이미지와 1,250개의 질문-답변 쌍으로 구성.
- 차트 유형: 선형 그래프(line chart), 막대 그래프(bar chart), 원형 차트(pie chart), 산점도(scatter plot) 포함.
- 모든 차트는 실제 웹사이트에서 수집된 데이터를 기반으로 함.
- 차트 선정 과정:
- 140개 웹사이트에서 1,000개의 차트를 수집한 후, 전문가 검토를 통해 모호하거나 손상된 이미지를 제거하여 최종적으로 625개의 유효 차트 선정.
2. 질문 구성
- 질문 유형:
- 직접 추출(Direct Retrieval):
- 차트의 구성 요소(라벨, 값, 시각적 요소)를 이해하고 직접 추출.
- 예: "2015년 녹색 점선의 값은 무엇인가?"
- 복합 추출(Complex Retrieval):
- 차트의 시각적 정보를 여러 단계에 걸쳐 논리적으로 추론.
- 예: "가장 밝은 파란색 막대가 나타내는 국가의 GDP는?"
- 직접 추출(Direct Retrieval):
- 질문 초점:
- 직접 추출: 차트 제목, 축 레이블, 데이터 값, 시각적 요소(선 색상, 가장 큰 구간 등)와 같은 정보를 바로 추출.
- 복합 추출: 시각적 설명과 데이터 간의 복합적 논리 추론을 요구.
3. 목적
- AI 모델의 차트 이해 능력 평가:
- 데이터 및 구조적 정보를 추출하는 기본적 이해 능력.
- 실제 사용자 질문과 유사한 복잡한 추론 수행.
4. 특징적 도전 과제
- 비표준 차트 처리:
- 다수의 로고, 복합적 차트 형태, 비표준적 요소 등이 포함된 현실적 차트.
- 사용자 질문의 모호성:
- 현실 세계 사용자 질문은 애매한 표현이 많으며, 이를 처리하는 모델의 능력 평가.
더보기Huang, Muye, et al. "EvoChart: A Benchmark and a Self-Training Approach Towards Real-World Chart Understanding." arXiv preprint arXiv:2409.01577 (2024).
■ CharXiv NeurIPS 2024
- 개요 및 목적
- 과학 논문에서 추출한 2,323개의 자연스럽고 도전적이며 다양한 차트로 구성된 평가 스위트
- 기존 데이터셋의 한계(단순화되고 동질적인 차트, 템플릿 기반 질문)를 극복하기 위해 개발
- 평가 구성 두 가지 유형의 질문으로 구성:
- 설명적 질문: 기본적인 차트 요소 검사
- 추론 질문: 복잡한 시각적 요소들 간의 정보를 종합적으로 분석 필요
- 데이터 품질 관리
- 모든 차트와 질문은 전문가가 직접 선별, 큐레이션, 검증
- 성능 평가 결과
- 최고 성능 사유 모델(GPT-4V): 47.1% 정확도
- 최고 성능 오픈소스 모델(InternVL Chat V1.5): 29.2% 정확도
- 인간 성능: 80.5% 정확도
- 의의
- 기존 멀티모달 LLM의 차트 이해 능력의 한계 명확히 제시
- 보다 현실적이고 신뢰할 수 있는 진행 상황 측정 도구 제공
- MLLM의 차트 이해 관련 향후 연구 촉진 기대
https://charxiv.github.io/#leaderboard
CharXiv
We evaluate general-purpose MLLMs on CharXiv and provide a leaderboard for the community to track progress. Note that all models are evaluated in a zero-shot setting with a set of natural instructions for each question type. The numbers below are based on
charxiv.github.io
https://github.com/princeton-nlp/CharXiv
GitHub - princeton-nlp/CharXiv: [NeurIPS 2024] CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
[NeurIPS 2024] CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs - princeton-nlp/CharXiv
github.com
더보기Wang, Zirui, et al. "Charxiv: Charting gaps in realistic chart understanding in multimodal llms." arXiv preprint arXiv:2406.18521 (2024).
■ VDU(visual document understanding) -> 이것도 넣어야할지 말아야할지
■ Chart2Text
Chart2Text is a dataset that was crawled from 23,382 freely accessible pages from statista.com in early March of 2020, yielding a total of 8,305 charts, and associated summaries. For each chart, the chart image, the underlying data table, the title, the axis labels, and a human-written summary describing the statistic was downloaded.
https://paperswithcode.com/dataset/chart2text
Papers with Code - Chart2Text Dataset
Chart2Text is a dataset that was crawled from 23,382 freely accessible pages from statista.com in early March of 2020, yielding a total of 8,305 charts, and associated summaries. For each chart, the chart image, the underlying data table, the title, the ax
paperswithcode.com
https://github.com/JasonObeid/Chart2Text
GitHub - JasonObeid/Chart2Text: Chart-to-Text: Generating Natural Language Explanations for Charts by Adapting the Transformer M
Chart-to-Text: Generating Natural Language Explanations for Charts by Adapting the Transformer Model - JasonObeid/Chart2Text
github.com
■ ScienceQA
SCIENCEQA는 대부분의 질문에 해당 강의 및 설명이 주석으로 추가된 최초의 대규모 멀티모달 과학 데이터 세트입니다.1 SCIENCEQA는 자연 과학, 사회 과학, 언어 과학의 세 가지 주제를 다룹니다.2 SCIENCEQA의 질문 중 83.9%에는 강의가 주석으로 달려 있고 91.3%에는 설명이 주석으로 달려 있습니다.3 SCIENCEQA의 예는 질문, 객관식 답변, 멀티모달 컨텍스트, 정답, 강의 및 설명으로 구성됩니다.4 강의는 유사한 종류의 문제를 해결하는 데 필요한 배경 정보를 제공하는 일반적인 외부 지식을 제공합니다.4 설명은 답변에 대한 구체적인 이유를 밝힙니다.4https://scienceqa.github.io/leaderboard.html
Leaderboard | ScienceQA: Science Question Answering
Leaderboard - ScienceQA Evaluation of different methods on the test split (whole: 4,241, mini: 1,000 examples). The accuracies across various categories and the overall average are reported below. 😀 You are invited to contribute your results to the Scie
scienceqa.github.io
더보기Lu, Pan, et al. "Learn to explain: Multimodal reasoning via thought chains for science question answering." Advances in Neural Information Processing Systems 35 (2022): 2507-2521.
■ ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning
https://github.com/vis-nlp/ChartQA
GitHub - vis-nlp/ChartQA
Contribute to vis-nlp/ChartQA development by creating an account on GitHub.
github.com
■ PlotQA
PlotQA is a VQA dataset with 28.9 million question-answer pairs grounded over 224,377 plots on data from real-world sources and questions based on crowd-sourced question templates. Existing synthetic datasets (FigureQA, DVQA) for reasoning over plots do not contain variability in data labels, real-valued data, or complex reasoning questions. Consequently, proposed models for these datasets do not fully address the challenge of reasoning over plots. In particular, they assume that the answer comes either from a small fixed size vocabulary or from a bounding box within the image. However, in practice this is an unrealistic assumption because many questions require reasoning and thus have real valued answers which appear neither in a small fixed size vocabulary nor in the image. In this work, we aim to bridge this gap between existing datasets and real world plots by introducing PlotQA. Further, 80.76% of the out-of-vocabulary (OOV) questions in PlotQA have answers that are not in a fixed vocabulary.
https://paperswithcode.com/dataset/plotqa
Papers with Code - PlotQA Dataset
PlotQA is a VQA dataset with 28.9 million question-answer pairs grounded over 224,377 plots on data from real-world sources and questions based on crowd-sourced question templates. Existing synthetic datasets (FigureQA, DVQA) for reasoning over plots do no
paperswithcode.com
■ MMC-Benchmark
https://huggingface.co/datasets/xywang1/MMC
xywang1/MMC · Datasets at Hugging Face
follows: we set wi = √ |Gi|, and λ1 = λ2 = ρ × λmax1 , where |Gi| denotes the size of the i-th group Gi, λ max 1 = ‖ATb‖∞ (the zero point is a solution to (1) if λ1 ≥ λmax1 ), and ρ is chosen from the set {5 × 10−1, 2 × 10−1, 1 ×
huggingface.co
■ ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning
차트에 대한 이해와 추론 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 ChartX
https://github.com/unimodal4reasoning/chartvlm
GitHub - UniModal4Reasoning/ChartVLM: Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for C
Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning - UniModal4Reasoning/ChartVLM
github.com
더보기Xia, Renqiu, et al. "Chartx & chartvlm: A versatile benchmark and foundation model for complicated chart reasoning." arXiv preprint arXiv:2402.12185 (2024).
■ M3DOCVQA (Document Understanding)
▶ MLLM 모델
■ LLaVA 이미지-언어 모델(Vision-Language Model, VLM)
■ BiChaLLaVA: Bi-lingual(Korean-English) ChartQA LLaVA
한국과학기술정보연구원 인공지능데이터연구팀
https://aida.kisti.re.kr/data/0fc84fe5-5aec-4fef-a66d-d5511e17511e
■ mPLUG-DocOwl
OCR 없이 문서 이해 성능을 향상
- 다양한 시각-텍스트 이해 작업을 포함하는 지시어 튜닝 데이터셋 구축
- 통합된 지시어 튜닝 전략: 언어 전용, 일반 시각-언어 및 문서 지시어 튜닝 데이터셋을 통합하여 모델을 학습
- 새로운 평가 세트인 LLMDoc 개발
https://github.com/X-PLUG/mPLUG-DocOwl
GitHub - X-PLUG/mPLUG-DocOwl: mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - X-PLUG/mPLUG-DocOwl
github.com
더보기Ye, Jiabo, et al. "mplug-docowl: Modularized multimodal large language model for document understanding." arXiv preprint arXiv:2307.02499 (2023).
■ mPLUG-PaperOwl
- mPLUG-DocOwl을 기반으로 함
- 과학 논문 작성에 도움을 주는 보다 다재다능한 보조 도구를 목표, 특히, 과학 다이어그램 분석 능력을 강화하는 데 중점
- M-Paper라는 새로운 데이터 세트를 사용하여 훈련
-> 고품질 논문의 LaTeX 소스 파일을 분석하여 이미지 및 LaTeX 코드 형식의 그림과 표를 포함한 여러 과학 다이어그램에 대한 이해를 지원하는 최초의 데이터 세트
- 시각적 특징을 추출하기 위한 비전 인코더, 시각적 특징을 언어 디코더와 정렬하고 집계하거나 필터링하기 위한 비전 추상화기, 텍스트 생성을 위한 언어 디코더로 구성
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/PaperOwl
더보기Hu, Anwen, et al. "mplug-paperowl: Scientific diagram analysis with the multimodal large language model." Proceedings of the 32nd ACM International Conference on Multimedia. 2024.
■ TextMonkey
OCR-Free 대형 멀티모달 모델인 TextMonkey를 제안
TextMonkey는 고해상도 이미지를 처리하고 텍스트 중심 작업에서 상당한 성능 향상을 달성하는 데 중점
기존 LMM의 한계, 특히 입력 해상도 제한으로 인해 작은 텍스트를 인식하는 데 어려움을 겪는 문제를 해결하기 위해 고안
-> 기존 방법들은 이미지 크기를 조정하거나 자르는 방식을 사용했지만, 이는 텍스트의 의미적 일관성을 훼손하거나 텍스트 위치 관련 작업을 처리하기 어렵게 만듦
Shifted Window Attention with Zero Initialization: 고해상도 이미지를 여러 개의 윈도우 패치로 분할하고, 각 패치에서 CLIP 아키텍처의 Transformer 블록을 사용하여 토큰을 처리. Shifted Window Attention은 윈도우 간의 연결을 가능하게 하여 컨텍스트 이해를 향상시키고, zero initialization은 초기 학습 단계를 안정화
Token Resampler: 해상도 증가로 인해 발생하는 토큰 길이 증가를 해결하기 위해 중요한 토큰을 식별하고 압축. 이는 언어 모델의 입력 길이 제한 및 훈련 시간 제약을 해결하면서 성능을 향상
Position-Related Task: 텍스트 스팟팅 및 텍스트 그라운딩과 같은 텍스트 관련 작업을 모델에 도입하여 텍스트 정보와 시각 정보 간의 연결을 강화. 위치 정보를 답변에 통합하여 모델의 신뢰성과 해석 가능성을 향상시킴
Position-Related Task: 텍스트 스팟팅 및 텍스트 그라운딩과 같은 텍스트 관련 작업을 모델에 도입하여 텍스트 정보와 시각 정보 간의 연결을 강화합니다. 위치 정보를 답변에 통합하여 모델의 신뢰성과 해석 가능성을 향상
- Scene Text-Centric 작업: STVQA, TextVQA, OCRVQA에서 5.2% 향상- Document-Oriented 작업: DocVQA, InfoVQA, ChartVQA, DeepForm, Kleister Charity, WikiTableQuestions에서 6.9% 향상- Key Information Extraction 작업: FUNSD, SROIE, POIE에서 2.8% 향상- Scene Text Spotting 작업: 10.9% 향상- OCRBench: 561점으로 새로운 기준 설정, 기존 오픈 소스 LMM보다 뛰어난 성능12더보기Liu, Yuliang, et al. "Textmonkey: An ocr-free large multimodal model for understanding document." arXiv preprint arXiv:2403.04473 (2024).
■ LLaVA-Med (의학도메인)
PubMed Central에서 추출한 1,500만 개의 생의학 이미지-텍스트 쌍으로 구성된 대규모 데이터셋인 PMC-15M을 활용
GPT-4를 사용하여 캡션에서 자기 지시적 명령어-따르기 데이터를 생성
새로운 커리큘럼 학습 방법을 사용하여 대규모 일반 도메인 비전-언어 모델을 미세 조정
1. 생의학 개념 특징 정렬 단계: LLaVA-Med는 먼저 이미지-텍스트 쌍을 있는 그대로 사용하여 생의학 어휘를 정렬하도록 미세 조정됩니다. 이 단계에서 모델은 이미지 캡션 작업을 수행하면서 생의학 개념을 학습.
2. 엔드-투-엔드 명령어 조정 단계: 다음으로, 모델은 GPT-4가 생성한 명령어-따르기 데이터를 사용하여 훈련됩니다. 이 단계에서 모델은 다양한 명령어를 이해하고 대화 형식으로 응답하는 방법을 학습.https://github.com/microsoft/LLaVA-Med
GitHub - microsoft/LLaVA-Med: Large Language-and-Vision Assistant for Biomedicine, built towards multimodal GPT-4 level capabili
Large Language-and-Vision Assistant for Biomedicine, built towards multimodal GPT-4 level capabilities. - microsoft/LLaVA-Med
github.com
더보기Li, Chunyuan, et al. "Llava-med: Training a large language-and-vision assistant for biomedicine in one day." Advances in Neural Information Processing Systems 36 (2024).
■ CHOPINLLM
- 차트 이해에 특화된 다중 모달 대규모 언어 모델(MLLM)
- 이 모델은 숫자 주석 없이도 다양한 차트 유형을 해석할 수 있음.
- 기존 MLLM은 자연 이미지-캡션 사전 훈련 데이터와 디지털 차트 이미지-QA 데이터 간의 근본적인 차이, 특히 차트에서 기본 숫자 값을 추출하는 모델의 능력 측면에서 차이가 있었음. 이 논문에서는 차트 이해를 위해 MLLM의 훈련 프로세스를 개선하는 데 중점을 둠.
- 정렬 사전 훈련에 원시 데이터 값을 통합하면 차트 데이터 이해도가 크게 향상됨.- 종단 간 미세 조정 중에 이미지를 텍스트 표현으로 무작위로 대체하면 언어 추론 기능이 차트 해석 기술로 전이됨.- 미세 조정에서 모델이 먼저 기본 차트 데이터를 추출한 다음 질문에 답하도록 요구하면 정확도가 더욱 향상됨.1. 기능 정렬 사전 훈련: ViT 및 LLM을 고정하고, 원본 LLaVA 데이터와 새로 생성된 차트-설명 및 차트-JSON 쌍을 사용하여 프로젝터를 처음부터 훈련. 이 단계에서는 시각적 특징과 언어적 특징을 정렬하여 시각적 데이터를 LLM이 이해할 수 있는 텍스트 영역으로 원활하게 변환.2.종단 간 미세 조정: ViT를 고정하고 원본 LLaVA QA 쌍과 생성된 차트 QA 쌍을 모두 사용하여 프로젝터와 LLM을 공동으로 미세 조정. 이를 통해 LLM은 시각적 토큰을 이해하고 차트 질문 답변을 용이3. 다운스트림 미세 조정: LLM의 응답 분포를 대상 다운스트림 데이터 세트에 맞추기 위해 LoRA 미세 조정을 적용더보기Fan, Wan-Cyuan, et al. "On pre-training of multimodal language models customized for chart understanding." arXiv preprint arXiv:2407.14506 (2024).
■ LayoutLLM
■ DoCo
더보기Li, Xin, et al. "Enhancing visual document understanding with contrastive learning in large visual-language models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
■ Multimodal arxiv & ArXivQA & ArXivcap
과학 논문의 이해 능력을 향상시키기 위해 특별히 고안된 대규모 시각-언어 데이터셋인 Multimodal ArXiv
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
Large vision-language models (LVLMs)는 자연 장면의 구체적인 이미지를 포함하는 다양한 작업에서 탁월. 그러나 기하학적 모양 및 과학적 플롯과 같은 추상적인 그림을 해석하는 능력은 과학 분야의 훈련 데이터 세트 부족으로 인해 제한적. 이러한 격차를 해소하기 위해 Multimodal ArXiv를 소개. Multimodal ArXiv는 LVLMs의 과학적 이해를 향상시키기 위해 ArXivCap 및 ArXivQA로 구성. ArXivCap은 다양한 과학 분야에 걸쳐 572K ArXiv 논문에서 가져온 6.4M개의 이미지와 3.9M개의 캡션으로 구성된 그림-캡션 데이터 세트. ArXivCap에서 가져온 ArXivQA는 과학적 그림을 기반으로 GPT-4V를 프롬프트하여 생성된 질문-답변 데이터 세트입니다. ArXivQA는 멀티모달 수학적 추론 벤치마크에서 10.4%의 절대 정확도 향상을 달성하여 오픈 소스 LVLMs의 수학적 추론 능력을 크게 향상시킴.또한 ArXivCap을 사용하여 LVLMs를 벤치마킹하기 위한 4가지 비전-텍스트 작업을 고안했습니다.1 최첨단 LVLMs를 사용한 평가 결과는 학술적 그림의 미묘한 의미론과 관련된 어려움을 강조하는 반면, 도메인별 훈련은 상당한 성능 향상을 가져옵니다.1 오류 분석에서는 현재 LVLMs에서 시각적 컨텍스트의 오해, 인식 오류 및 지나치게 단순화된 캡션 생성을 밝혀내어 향후 개선에 대한 방향을 제시합니다.1Multimodal ArXiv 데이터 세트는 LVLMs의 과학적 이해를 향상시키기 위해 특별히 설계되었습니다. 과학적 그림을 이해하는 데 있어 LVLMs의 어려움을 해결하기 위해 ArXivCap과 ArXivQA의 두 가지 데이터 세트를 만듭니다. ArXivCap은 과학 논문에서 가져온 그림-캡션 쌍으로 구성된 대규모 데이터 세트입니다. ArXivQA는 ArXivCap의 그림을 기반으로 GPT-4V가 생성한 질문-답변 쌍으로 구성.이전 대화에서 SCIENCEQA 데이터 세트에 대해 논의했습니다.1 SCIENCEQA는 과학적 추론 능력을 평가하기 위한 멀티모달 데이터 세트이기도 합니다. 그러나 SCIENCEQA는 주로 자연 과학, 사회 과학 및 언어 과학을 다루는 반면 Multimodal ArXiv는 다양한 과학 분야를 다룹니다. 또한 Multimodal ArXiv는 SCIENCEQA보다 훨씬 큰 규모입니다. 따라서 Multimodal ArXiv는 LVLMs를 훈련하고 평가하기 위한 보다 포괄적이고 까다로운 데이터 세트를 제공https://huggingface.co/datasets/MMInstruction/ArxivQA
MMInstruction/ArxivQA · Datasets at Hugging Face
[ "A) The ordering temperatures for all materials are above the normalized temperature \\( T/T_c \\) of 1.2.", "B) The magnetic ordering temperatures decrease for Dy, Tb, and Ho as the normalized temperature \\( T/T_c \\) approaches 1.", "C) The magnetic o
huggingface.co
더보기Li, Lei, et al. "Multimodal arxiv: A dataset for improving scientific comprehension of large vision-language models." arXiv preprint arXiv:2403.00231 (2024).
■ MMC 데이터셋 & 모델 & 벤치마크 MMC-Benchmark (Accepted to NAACL 2024)
대규모 명령어 튜닝을 통해 다중 모드 차트 이해를 발전시키는 것을 목표
MMC-Instruction: 다양한 작업과 차트 유형을 지원하는 600,000개의 인스턴스로 구성된 대규모 다중 모드 차트 명령어 데이터셋.MMCA(MultiModal Chart Assistant): MMC-Instruction 데이터를 활용하여 개발된 LMM(Large Multimodal Model)으로, 기존 차트 QA 벤치마크에서 최첨단 성능을 달성MMC-Instruction 데이터셋은 기존 공개 데이터셋보다 훨씬 크고 다양함. MMC-Instruction은 다양한 언어 스타일과 작업을 포함하도록 GPT-4를 사용하여 명령어를 생성하여 구성됨. 또한, 히스토그램, 산점도, 영역 차트, 더 복잡한 그래픽 표현을 포함한 다양한 차트 유형을 고려함.MMCA는 다양한 시각적 언어 이해 작업에 대해 공동으로 미세 조정된 모듈식 LMM. MMCA는 광범위한 시각적 언어 이해 작업에서 미세 조정되었으며, 기존 차트 질문 답변 벤치마크에서 최첨단 성능을 달성.MMC 연구팀은 LMM 차트 이해에 대한 포괄적인 평가의 필요성을 인식하여 MMC-Benchmark라는 새로운 포괄적인 평가 도구를 도입. MMC-Benchmark는 LMM의 차트 이해 능력을 평가하기 위해 9가지 개별 작업을 포함하는 포괄적인 인간 주석 벤치마크. MMC-Benchmark에서 수행된 광범위한 실험은 최신 GPT-4V 모델조차도 차트를 올바르게 해석하는 데 제한적임을 보여줌.결론적으로 MMC는 차트 이해를 위한 대규모 다중 모드 모델로, 대규모 명령어 튜닝과 포괄적인 벤치마크를 통해 다중 모드 차트 이해를 발전시키는 데 기여.https://github.com/fuxiaoliu/mmc
GitHub - FuxiaoLiu/MMC: [NAACL 2024] MMC: Advancing Multimodal Chart Understanding with LLM Instruction Tuning
[NAACL 2024] MMC: Advancing Multimodal Chart Understanding with LLM Instruction Tuning - FuxiaoLiu/MMC
github.com
더보기Liu, Fuxiao, et al. "Mmc: Advancing multimodal chart understanding with large-scale instruction tuning." arXiv preprint arXiv:2311.10774 (2023).
■ ChartLlama
ChartLlama: A Multimodal LLM for Chart Understanding and Generation
더보기Han, Yucheng, et al. "Chartllama: A multimodal llm for chart understanding and generation." arXiv preprint arXiv:2311.16483 (2023).
■ Deplot
차트나 플롯 이미지를 기반으로 시각적 언어 추론을 수행
첫 번째 단계는 DEPLOT라는 모듈을 사용하여 입력 플롯 이미지를 선형화된 테이블로 변환하는 것이고, 두 번째 단계는 선형화된 테이블을 LLM(Large Language Model)에 전달하여 one-shot 추론을 수행
- 플롯을 테이블로 변환하는 과정에서 색상과 같은 시각적 속성 정보가 손실되는 것도 성능 저하의 원인으로 지적
더보기Liu, Fangyu, et al. "Deplot: One-shot visual language reasoning by plot-to-table translation." arXiv preprint arXiv:2212.10505 (2022).
■ Matcha
MATCHA는 차트 이해 및 추론 지식을 이미지-텍스트 변환 모델에 주입하여 시각적 언어 작업을 수행하는 사전 훈련 방법
1. 차트 역렌더링: 차트를 이해하려면 이미지의 시각적 패턴을 찾고, 효과적으로 구문 분석 및 그룹화하여 핵심 정보를 추출해야 합니다. 차트 렌더링 프로세스를 역으로 수행하려면 이러한 모든 기능이 필요하므로 완벽한 사전 훈련 작업이 될 수 있습니다.2. 수학적 추론: 시각적 언어에 대한 추론에는 시각적 요소를 효과적으로 인식하고 그룹화하는 것뿐만 아니라 최소/최대, 정렬, 평균과 같은 수학적 연산을 적용하는 것이 필요합니다. 차트 역렌더링은 시각적 요소 인식 및 그룹화를 다루지만, 수학적 추론 능력은 현재 사전 훈련 프레임워크에서 부족합니다. 이를 해결하기 위해 텍스트 수학 데이터 세트에서 학습하여 이미지-텍스트 모델에 숫자 추론 지식을 명시적으로 주입합니다.MATCHA는 Pix2Struct라는 기존의 이미지-텍스트 시각 언어 모델을 기반으로 하며, 차트 역렌더링 및 수학적 추론 작업을 통해 사전 훈련됨.● 차트-코드 쌍: GitHub에서 크롤링한 IPython 노트북에서 추출한 그림과 해당 코드 블록
● 차트-테이블 쌍: Wikipedia 테이블을 차트로 변환하는 코드를 작성하여 생성한 합성 데이터, PlotQA 및 ChartQA의 훈련 세트에서 가져온 차트-테이블 쌍, Statista와 같은 웹사이트에서 크롤링한 차트-테이블 쌍● 수학적 추론 데이터 세트: MATH(Saxton et al., 2019) 및 DROP(Dua et al., 2019)과 같은 텍스트 수학적 추론 데이터 세트를 이미지로 렌더링더보기Liu, Fangyu, et al. "Matcha: Enhancing visual language pretraining with math reasoning and chart derendering." arXiv preprint arXiv:2212.09662 (2022).
■ ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules
ChartReader는 차트의 복잡한 데이터를 효과적으로 분석하고 이해하기 위해 설계된 통합 프레임워크로, 차트 디렌더링과 이해 작업을 원활하게 통합합니다. 아래는 ChartReader의 주요 내용 정리입니다.
1. 연구 배경 및 필요성
- 차트의 중요성: 차트는 복잡한 데이터를 시각적으로 전달하는 강력한 도구이지만, 다양한 차트 유형과 복잡한 구성 요소로 인해 이해가 어렵습니다.
- 기존 방법의 한계:
- 휴리스틱 규칙 의존: 수작업 규칙 작성은 시간이 많이 걸리고 정확도가 떨어집니다.
- OCR 시스템 과의존: OCR의 한계로 인해 차트 분석 성능이 최적화되지 못했습니다.
2. ChartReader의 주요 특징
- 통합된 프레임워크: 차트 디렌더링(Chart Derendering)과 차트 이해(Chart Comprehension)를 하나의 프레임워크에 통합.
- 트랜스포머 기반 차트 구성 요소 감지: 차트의 구성 요소(축, 레이블, 데이터 포인트 등)를 감지하는 트랜스포머 기반 모듈 포함.
- 확장된 비전-언어 모델: 기존 사전 학습된 비전-언어 모델을 확장하여 Chart-to-X 작업을 처리.
- 자동 학습: 주석 처리된 데이터셋에서 차트 규칙을 자동으로 학습하여 수작업 규칙 생성의 필요성을 제거.
- 데이터 변수 교체 기법: 데이터 가변성에 적응하기 위해 데이터 변수 교체 기법을 도입.
- 입력 및 위치 임베딩 확장: 모델의 입력 및 위치 임베딩을 확장하여 크로스 태스크 학습을 지원.
- 플러그앤플레이 가능성: T5, TaPas와 같은 주류 대형 언어 모델(LLMs)과의 통합 가능성을 제공, 이들의 차트 이해 능력을 확장.
3. 주요 작업 및 성능
ChartReader는 차트 이해와 관련된 주요 작업에서 기존 방법보다 뛰어난 성능을 보여줍니다.
- Chart-to-Table: 차트를 데이터 테이블로 변환하는 작업에서 우수한 성능.
- ChartQA: 차트와 관련된 질문 답변 태스크에서 정확도 향상.
- Chart-to-Text: 차트를 요약하여 텍스트로 생성하는 작업에서 높은 품질의 결과를 제공.
4. 기여 및 효과
- 효율성 개선: 차트 분석에 필요한 수작업 노력을 대폭 감소.
- 정확도 향상: 휴리스틱 규칙 및 OCR에 의존하지 않고, 데이터 학습을 통해 더 높은 정확도 달성.
- 범용 차트 이해 모델로의 진보: 차트 이해의 보편적 모델을 향한 중요한 단계 제공.
- 확장 가능성: 기존의 LLMs와 쉽게 통합되어, 차트 이해 태스크에 대한 새로운 가능성을 열어줌.
5. 결론
ChartReader는 차트의 디렌더링과 이해 작업을 통합하여, 기존 방법의 한계를 극복하고 차트 분석에서 새로운 표준을 제시합니다. 이를 통해 데이터 시각화와 자연어 처리의 융합 가능성을 확대하고, 차트 중심 데이터 분석의 효율성과 정확도를 크게 향상시킬 수 있습니다.
더보기Cheng, Zhi-Qi, Qi Dai, and Alexander G. Hauptmann. "Chartreader: A unified framework for chart derendering and comprehension without heuristic rules." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
■ UniChart: A Universal Vision-Language Pretrained Model for Chart Comprehension and Reasoning
UniChart는 차트 이해와 추론을 위한 비전-언어 사전 학습 모델로, 차트 데이터를 자연어 기반으로 분석하고 활용하는 데 도움을 주기 위해 설계되었습니다. 이 모델은 차트의 구조적 특징을 명시적으로 모델링하며, 기존의 비전-언어 기반 사전 학습 모델이 가진 한계를 보완합니다. 아래는 UniChart의 주요 내용 정리입니다:
1. 연구 배경 및 필요성
- 차트의 중요성: 차트는 복잡한 데이터를 시각적으로 표현하여 분석과 통찰을 제공하는 중요한 도구입니다.
- 기존 모델의 한계: 기존 차트 관련 작업(예: 차트 질문 답변, 차트 요약)은 비전 또는 비전-언어 기반 사전 학습에 의존하며, 차트 요소 간 관계를 명시적으로 모델링하지 못했습니다.
- 차트 특화 사전 학습 필요성: 차트의 텍스트, 데이터, 시각적 요소 간의 상호작용을 효과적으로 처리하는 특화된 모델이 요구됩니다.
2. UniChart의 특징
- 대규모 차트 코퍼스: 다양한 주제와 시각적 스타일을 포함한 대규모 차트 데이터를 구축하여 모델 학습에 활용.
- 차트 특화 사전 학습 목표:
- 저수준 작업: 차트에서 시각적 요소(막대, 선 등) 및 데이터를 추출.
- 고수준 작업: 차트 이해와 추론 능력을 학습.
- UniChart 아키텍처:
- 차트의 텍스트, 데이터, 시각적 요소를 인코딩.
- 차트를 기반으로 텍스트를 생성하는 디코더 사용.
- 효율성:
- 기존 모델(MatCha) 대비 11배 빠른 속도와 28% 적은 파라미터로 메모리와 시간 효율성을 개선.
3. 실험 결과
UniChart는 다양한 차트 특화 다운스트림 작업에서 우수한 성능을 보였습니다:
- 차트 질문 답변:
- ChartQA 및 OpenCQA 데이터셋에서 기존 최고 성능 모델을 능가.
- 차트 요약:
- BLEU 점수와 ChatGPT 평가에서 기존 모델 대비 뛰어난 성능.
- 차트-테이블 변환:
- Chart-to-Table 작업에서 최고 성능 달성.
- 일반화 성능:
- 새로운 차트 데이터에 대한 일반화 성능에서도 기존 모델을 능가.
4. 주요 기여
- 차트 이해를 위한 사전 학습 모델 및 차트 특화된 사전 학습 목표 제시.
- 다양한 시각적 스타일과 주제를 포함한 대규모 차트 코퍼스 구축.
- 다양한 자동 및 인간 평가를 통해 성능과 효율성 검증.
- 연구 결과 및 코드, 데이터 공개: GitHub Repository.
결론
UniChart는 차트의 시각적, 데이터적, 텍스트적 요소를 통합적으로 분석할 수 있는 강력한 도구로, 차트 질문 답변, 요약, 데이터 변환 등 다양한 작업에서 새로운 기준(SOTA, State-of-the-Art)을 수립했습니다. 이를 통해 데이터 시각화와 자연어 처리 간의 접점을 더욱 효과적으로 탐구할 수 있는 길을 열었습니다.
더보기Masry, Ahmed, et al. "Unichart: A universal vision-language pretrained model for chart comprehension and reasoning." arXiv preprint arXiv:2305.14761 (2023).
Pali (Pathway Language and Image Model)
100개 이상의 언어로 다양한 작업을 수행하도록 훈련한 언어 이미지 모델
Google의 연구팀이 개발한 PaLI-3 비전 언어 모델(VLM)은 50억 개의 파라미터를 사용하여 이미지와 언어 처리에서 뛰어난 성능을 보이며, 크기가 작음에도 불구하고 타사 제품을 10배 이상 능가하는 결과를 달성
PaLI-3는 이미지와 텍스트의 상관관계를 파악하기 위해 비전 트랜스포머와 인코더-디코더 트랜스포머 프레임워크를 통합한 구조를 가지며, 다양한 이미지-언어 작업에서 최첨단 모델들을 능가하는 성능을 보여줌
Google의 이전 모델들과 비교하여, PaLI-3는 훈련 및 배포의 용이성, 환경 영향 감소, 연구 주기 단축 등 다양한 이점을 제공하며, SigLIP 비전 트랜스포머를 사용하는 새로운 훈련 방식을 채택하여 더욱 간소화된 접근 방식을 보여줌
https://www.aitimes.com/news/articleView.html?idxno=146993
구글, 다국어 언어 이미지 모델 ‘PaLI’ 공개 - AI타임스
주어진 이미지에 대해 설명하거나 질문에 답변하는 새로운 인공지능(AI) 언어 이미지 모델이 나왔다.구글은 100개 이상의 언어로 다양한 작업을 수행하도록 훈련한 언어 이미지 모델 ‘팔리(PaLI)
www.aitimes.com
https://paperswithcode.com/sota/visual-question-answering-vqa-on
Papers with Code - InfographicVQA Benchmark (Visual Question Answering (VQA))
The current state-of-the-art on InfographicVQA is Gemini Ultra (pixel only). See a full comparison of 21 papers with code.
paperswithcode.com
■ ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning
- 개요
- 차트 특화 시각-언어 instruction-following 데이터셋
- 규모: 71K 차트로 생성된 191K 개의 instruction 데이터
- 개발 배경
- 기존 모델들은 특정 태스크에 특화되어 있어 범용성 부족
- 실제 활용에서 제약이 많은 문제 해결 필요
- 두 가지 instruction tuning 시스템 제시
A. 엔드투엔드 모델
- 차트 이해를 위한 비전 인코더와 LLM을 직접 연결
- 통합된 방식으로 처리
B. 파이프라인 모델
- 2단계 접근 방식
- 1단계: 차트에서 데이터 테이블 추출
- 2단계: 추출된 데이터를 LLM에 입력
- 성과
- 4개의 downstream 태스크에서 최고 성능 달성
- 실제 차트 이해 및 추론 시나리오에서 폭넓은 적용 가능성 입증
- 새로운 유형의 태스크에도 확장 가능한 모델 제시
더보기Masry, Ahmed, et al. "ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning." arXiv preprint arXiv:2403.09028 (2024).
■ TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- 개요
- 3B 파라미터만을 사용하는 효율적인 차트 이해 MLLM
- 자원 제약적인 환경에서도 사용 가능한 경량 모델
- 주요 기술적 해결책
A. Program-of-Thoughts (PoT) 학습 전략
- 수치 계산을 위한 Python 프로그램 생성 학습
- 수치 계산 부담 감소
B. Vision Token Merging 모듈
- 유사한 비전 토큰들을 점진적으로 병합
- 고해상도 이미지의 긴 비전 특징 시퀀스 축소
- 성능
- ChartQA, Chart-to-Text, Chart-to-Table, OpenCQA, ChartX 등 다양한 벤치마크에서 최고 성능 달성
- 13B 파라미터의 ChartLlama, ChartAst 등 더 큰 모델들보다 우수한 성능
- GPT-4V와 비교해도 ChartQA에서 경쟁력 있는 성능
- 장점
- 작은 모델 규모
- 효율적인 비전 인코딩
- 더 높은 추론 처리량
- 공개 여부
- 코드와 모델이 GitHub를 통해 공개됨
- https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/TinyChart
mPLUG-DocOwl/TinyChart at main · X-PLUG/mPLUG-DocOwl
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - X-PLUG/mPLUG-DocOwl
github.com
더보기Zhang, Liang, et al. "Tinychart: Efficient chart understanding with visual token merging and program-of-thoughts learning." arXiv preprint arXiv:2404.16635 (2024).
■ ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
- ChartGemma는 PaliGemma를 기반으로 개발된 새로운 차트 이해 및 추론 모델입니다.
- 기존 모델들의 한계점:
- 차트의 기초 데이터 테이블에만 의존하여 학습
- 시각적 트렌드와 패턴을 무시
- 약하게 정렬된 시각-언어 백본 모델 사용으로 일반화 능력 제한
- ChartGemma의 차별점:
- 차트 이미지에서 직접 생성된 instruction-tuning 데이터로 학습
- 차트의 고수준 트렌드와 저수준 시각 정보 모두 포착
- 성과:
- 차트 요약, 질의응답, 팩트체크 등 5개 벤치마크에서 최고 성능 달성
- 실제 차트에 대해 더 현실적이고 사실에 근거한 요약 생성
이 모델은 차트를 더 정확하게 이해하고 분석하는 능력을 보여주며, 기존 접근법의 한계를 극복했습니다.
- 합성 차트 (Synthetically generated charts)
- PlotQA 등의 소스에서 생성된 차트
- 전문 웹사이트의 큐레이션 차트
- Statista와 같은 전문 웹사이트에서 수집
- 제한된 시각적 다양성을 보이는 특징
- 실제 웹에서 수집한 차트
- WebCharts 등에서 수집
- 광범위한 스타일 다양성이 특징
총 데이터셋 규모: 122,857개의 차트 이미지
https://github.com/vis-nlp/ChartGemma
GitHub - vis-nlp/ChartGemma
Contribute to vis-nlp/ChartGemma development by creating an account on GitHub.
github.com
https://huggingface.co/datasets/ahmed-masry/ChartGemma
ahmed-masry/ChartGemma · Datasets at Hugging Face
huggingface.co
■ StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding
구조화된 삼중항 표현(STR)이라는 새로운 데이터 스키마를 사용하여 차트 인식과 추론 작업을 통합하고, **차트 지향 표현 측정법(SCRM)**으로 성능을 평가하며, LLM 기반의 합성 데이터셋 SimChart9K를 생성하여 모델 성능을 향상시킵니다. 실험 결과는 제안된 방법의 효과성을 보여주며, 특히 질의응답, 요약, 재작성 등 다양한 하위 작업에서 우수한 성능을 달성.
SimChart9K는 LLM 기반 텍스트-차트 레벨 데이터 생성 방식(PlotAgent)을 사용하여 생성된 9,536개의 차트와 해당 CSV 레이블로 구성된 시뮬레이션된 데이터 세트입니다. SimChart9K는 퓨샷 학습 차트 인식 성능과 추론 능력을 향상시키기 위해 개발되었습니다.SimChart9K는 ChartQA를 사용하여 PlotAgent를 통해 생성됩니다. SimChart9K의 특징 분포는 ChartQA, PlotQA, Chart2Text와 같은 실제 데이터의 특징 분포와 더 잘 일치하는 것으로 나타났습니다. 그 결과, 모의 차트는 실제 차트에 대한 모델의 CIE 성능을 향상시키는 데 도움이 됩니다.https://github.com/unimodal4reasoning/simchart9k
더보기Xia, Renqiu, et al. "Structchart: Perception, structuring, reasoning for visual chart understanding." arXiv preprint arXiv:2309.11268 (2023).
■ Honeybee
Honeybee: Locality-enhanced Projector for Multimodal LLM
- Kakao Brain에서 개발한 멀티모달 대규모 언어 모델(MLLM)로, 시각적 이해 능력과 효율성을 향상시키기 위해 특별히 설계된 Locality-enhanced Projector를 사용
- Honeybee는 기존 MLLM의 주요 구성 요소인 Vision Encoder, Projector, Large Language Model (LLM)을 기반으로 하지만, Projector 부분에서 획득한 시각적 토큰의 수를 조절하고 지역적 특징 정보를 효과적으로 보존하여 성능과 효율성을 동시에 향상시킴
- Resampler와 같은 기존의 추상화 기반 Projector는 특징을 추출하는 과정에서 지역적 정보 손실이 발생할 수 있는데, Honeybee는 Convolution과 Deformable Attention과 같은 지역적 모델링 기술을 활용하여 이러한 문제를 해결
- C-Abstractor와 D-Abstractor라는 두 가지 유형의 Locality-enhanced Projector를 제안
- C-Abstractor는 Convolution 연산을 사용하여 지역적 문맥을 효과적으로 모델링, ResNet 블록과 Adaptive Average Pooling을 활용하여 시각적 특징을 다양한 수의 시각적 토큰으로 추상화할 수 있음
- D-Abstractor는 Deformable Attention을 사용하여 Resampler의 지역적 인식 능력을 향상시킴. 학습 가능한 쿼리가 참조 점과 샘플링 오프셋을 사용하여 시각적 특징을 수집하여 지역적 정보를 보존
https://github.com/khanrc/honeybee
GitHub - khanrc/honeybee: Official implementation of project Honeybee (CVPR 2024)
Official implementation of project Honeybee (CVPR 2024) - khanrc/honeybee
github.com
더보기Cha, Junbum, et al. "Honeybee: Locality-enhanced projector for multimodal llm." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
■ Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- 개요
- 대규모 비전-언어 모델(LVLMs)의 비전 어휘를 확장하는 방법론
- 기존 CLIP 스타일 어휘의 한계(문서 OCR, 차트 이해 등에서의 비효율성) 극복
- 핵심 특징
- 밀집되고 세밀한 시각 인식이 필요한 특수 비전 태스크 지원
- 비영어 시나리오에서도 효과적
- 기존 CLIP 기반 어휘의 한계 극복
- 구현 프로세스 (2단계)
A. 새로운 비전 어휘 생성
- 어휘 네트워크 사용
- 작은 규모의 decoder-only 트랜스포머 활용
- 자동회귀 방식으로 원하는 어휘 생성
B. 어휘 통합
- 새로 생성된 어휘를 기존 CLIP 어휘와 병합
- LVLM의 새로운 특징 빠른 학습 지원
- 성능
- 기존 모델(BLIP-2, MiniGPT4, LLaVA)의 기본 성능 유지
- 세밀한 인식과 이해 능력 향상
- DocVQA에서 78.2% ANLS 달성
- MMVet에서 36.2% 달성
- 문서 파싱 기능(OCR, 마크다운 변환) 향상
- 문서 데이터 (각 1M 쌍)
- 영어 문서
- arXiv와 CC-MAIN-2021-31-PDF-UNTRUNCATED의 오픈 액세스 문서
- PyMuPDF와 pdf2image 사용하여 이미지-텍스트 쌍 생성
- 중국어 문서
- 인터넷 e-book에서 수집
- 동일한 방식으로 이미지-텍스트 쌍 생성
- 차트 데이터
- matplotlib 스타일: 중국어, 영어 각각 250k 쌍
- pyecharts 스타일: 중국어, 영어 각각 500k 쌍
- 특징:
- 차트 텍스트는 인터넷에서 다운로드한 NLP 코퍼스에서 무작위 선택
- 텍스트 정보는 Python 딕셔너리 형태로 변환
- 자연 이미지 네거티브 데이터 (120k 쌍)
- COCO 데이터셋에서 추출
- 목적: 새로운 어휘가 자연 이미지에서 노이즈를 발생시키지 않도록 보장
- 텍스트는 5가지 정해진 자연 이미지 관련 문장 중 무작위 선택
- 입력 형식
- 이미지-텍스트 쌍을 자동회귀 방식으로 학습
- 이미지 토큰은 "<img>"와 "</img>" 특수 토큰으로 위치 표시
- OPT-125M(4096 토큰)에 삽입되는 형태
- 출력은 텍스트만 포함, "</s>"를 종료 토큰으로 사용
더보기Wei, Haoran, et al. "Vary: Scaling up the vision vocabulary for large vision-language model." European Conference on Computer Vision. Springer, Cham, 2025.
■ VILA: Optimized Vision Language Models
https://github.com/NVlabs/VILA
유명하지 않은 아카이브 모델
■ AskChart: Universal Chart Understanding through Textual Enhancement
■ Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning
AskChart는 혼합 전문가(MoE) 아키텍처를 사용하여 텍스트 및 시각적 단서를 통합하고, 세 단계의 훈련 전략을 통해 다양한 차트 이해 작업에서 성능을 향상시킴. 약 750만 개의 데이터 샘플로 구성된 대규모 데이터셋 ChartBank도 함께 소개.
ChartBank
Visual Prompt Dataset: 차트의 특정 요소를 대상으로 하는 질문에 대한 모델의 영역 이해 능력과 수치적 시각적 추론을 강화하기 위해 만들어졌습니다.3 ChatQA의 차트를 기반으로 추론, 극값, 범위 결정, 데이터 검색과 같은 작업에 대한 질문 템플릿을 사용하여 질문을 생성하고 ViP-LLaVA를 사용하여 시각적 프롬프트를 겹쳐서 생성되었습니다.3OCR-aware Data Prompt Dataset: 차트에 포함된 풍부한 텍스트 정보를 활용하여 모델의 텍스트 캡처 및 활용 능력을 향상시키기 위해 만들어졌습니다.4 UniChart의 차트와 원본 테이블을 기반으로 단일 및 다중 턴 지침 따르기 데이터를 포함합니다.5 PaddleOCR을 사용하여 입력 차트에서 텍스트 정보를 추출하고, ChatGPT를 사용하여 구조적 이해, 데이터 검색, 수학적 추론과 같은 질문 유형에 대한 질문과 답변을 생성합니다.5Chart-to-Table Instruction Following Dataset: 차트에서 정보를 포괄적으로 추출하고 이해하는 AskChart의 능력을 향상시키기 위해 만들어졌습니다.6 Spider 및 BIRD와 같은 Text-to-SQL 데이터셋을 사용하여 테이블을 CoT 기반 주석이 달린 차트로 변환하여 생성되었습니다.6 DeepEye를 사용하여 테이블에 대한 적절한 차트를 추천하고 Matplotlib을 사용하여 렌더링합니다.6ChartBank는 AskChart 모델의 사전 훈련 및 미세 조정에 사용되며 모델이 다양한 차트 이해 작업에서 뛰어난 성능을 달성하는 데 중요한 역할을 합니다.78 750만 개의 샘플을 포함하는 ChartBank는 파이, 막대, 누적 막대, 그룹화된 막대, 라인, 그룹화된 라인 차트와 같은 6가지 대표적인 차트 유형을 다룹니다.2 모든 데이터셋은 지침 따르기 형식으로 변환되어 사전 훈련에 사용됩니다.8 AskChart는 ChartBank를 통해 훈련되어 차트 이해 벤치마크에서 최첨단 결과를 달성하고 텍스트 인식 및 생성이 모두 필요한 작업에서 상당한 이점을 보여줍니다더보기Yang, Xudong, et al. "AskChart: Universal Chart Understanding through Textual Enhancement." arXiv preprint arXiv:2412.19146 (2024).
▶ 데이터셋
■ WuKong
대규모 중국어 시각-언어 데이터셋
Wukong 데이터셋은 웹에서 수집된 1억 개의 중국어 이미지-텍스트 쌍으로 구성되어 있으며, 다양한 멀티모달 사전 훈련 방법을 벤치마킹하고 중국어 VLP 모델 개발과 다언어 응용 프로그램의 발전을 촉진하기 위해 만들어짐.
대규모 데이터셋: 1억 개의 이미지-텍스트 쌍으로 구성되어 기존 중국어 데이터셋보다 훨씬 큰 규모입니다.다양한 시각 및 텍스트 개념: 다양한 범위의 시각적 및 텍스트 개념을 포괄하여 모델의 일반화 능력을 향상시킵니다.고품질 데이터: 이미지 기반 및 텍스트 기반 필터링 전략을 통해 고품질 데이터를 보장합니다.인간 검증: Wukong-Test라는 테스트셋은 인간 전문가가 검증하여 이미지-텍스트 일관성을 보장합니다.더보기Gu, Jiaxi, et al. "Wukong: A 100 million large-scale chinese cross-modal pre-training benchmark." Advances in Neural Information Processing Systems 35 (2022): 26418-26431.
■ DVQA_dataset
- 데이터셋 특징
- 차트 유형: 주로 막대 그래프(bar chart)를 기반으로 설계.
- 질문 유형:
- 3가지 주요 질문 유형:
- 차트 레이블 관련 질문.
- 축 값과 데이터 값 관련 질문.
- 데이터 간 관계를 묻는 추론 기반 질문.
- 3가지 주요 질문 유형:
- 규모:
- 300,000개의 차트 이미지.
- 3,487,194개의 질문-답변 쌍 포함.
- 구성 요소:
- 차트 이미지.
- 차트 생성에 사용된 데이터의 메타데이터(위치, 텍스트 요소, 데이터 값 등).
- 데이터 생성 방식
- 합성 데이터셋:
- 모든 시각적 요소(텍스트, 데이터, 그래프 요소)의 위치와 모양을 정밀하게 제어 가능.
- 실제 데이터와 달리 차트 생성에 사용된 메타데이터를 완전히 활용 가능.
- 메타데이터 활용:
- 알고리즘이 적절한 차트 영역에 "집중(attend)"하는지 확인하거나, 추가적인 감독 신호로 사용.
- 합성 데이터셋:
- 목적
- 모델이 차트 내 텍스트와 수치 데이터를 이해하고 추론하는 능력을 평가.
- 기존 VQA 방법론이 차트에서 실패하는 여러 측면을 테스트.
- 특징적 다양성
- 다양한 스타일의 막대 그래프 포함.
- 차트 해석에 필요한 복합적인 추론 및 정보 연결 능력 요구.
- 기존 데이터셋과의 차이점
- 실제 데이터 대비 장점:
- 생성된 데이터로 차트 요소를 완벽히 제어 가능.
- 텍스트 요소 및 그래픽 요소의 정확한 위치와 데이터 접근 가능.
- FigureQA 대비:
- 더 복잡한 차트 구성과 질문 포함.
- 고정된 응답 집합 대신 유연한 데이터 기반 응답을 요구.
- 실제 데이터 대비 장점:
https://github.com/kushalkafle/DVQA_dataset
GitHub - kushalkafle/DVQA_dataset: DVQA Dataset: A Bar chart question answering dataset presented at CVPR 2018
DVQA Dataset: A Bar chart question answering dataset presented at CVPR 2018 - kushalkafle/DVQA_dataset
github.com
■ TTC-QuAli
텍스트, 테이블, 차트에서 수치 정보를 연결하는 멀티모달 태스크를 위한 데이터셋. 1,086개의 차트 이미지, 1,503개의 테이블, 4,498개의 텍스트 내 수치 정보가 정렬되어 있으며, 복합적(집계/계산된) 수치 연결 작업을 포함.
TTC-QuAli 데이터셋은 다음과 같은 유형의 데이터를 기반으로 생성되었습니다:
- 텍스트: 실제 통계 보고서에서 가져온 텍스트에 포함된 수치 정보.
- 테이블: 텍스트 설명 및 차트 시각화와 정렬된 구조화된 숫자 데이터.
- 차트: 바 차트, 선 그래프, 파이 차트 등 수치 데이터를 시각적으로 표현한 차트 이미지.
데이터 출처:
- 데이터 출처: 실제 통계 보고서에서 수집.
- 구성: 1,086개의 차트 이미지, 1,503개의 테이블, 그리고 텍스트에 포함된 4,498개의 수치 정보를 포함하며, 다중 모달 간 수치 정렬을 위한 고품질 주석 데이터를 제공.
이 데이터셋은 이질적인 모달리티(텍스트, 테이블, 차트) 간의 수치 데이터를 정렬하고 연결하는 과제를 해결하기 위해 설계되었습니다.
https://dl.acm.org/doi/10.1145/3616855.3635777
TTC-QuAli: A Text-Table-Chart Dataset for Multimodal Quantity Alignment | Proceedings of the 17th ACM International Conference o
Humor recognition in conversations is a challenging task that has recently gained popularity due to its importance in dialogue understanding, including in multimodal settings (i.e., text, acoustics, and visual). The few existing datasets for humor are ...
dl.acm.org
■ COYO-700M: Image-Text Pair Dataset
COYO-700M is a large-scale dataset that contains 747M image-text pairs as well as many other meta-attributes to increase the usability to train various models. Our dataset follows a similar strategy to previous vision-and-language datasets, collecting many informative pairs of alt-text and its associated image in HTML documents. We expect COYO to be used to train popular large-scale foundation models complementary to other similar datasets.
https://github.com/kakaobrain/coyo-dataset
GitHub - kakaobrain/coyo-dataset: COYO-700M: Large-scale Image-Text Pair Dataset
COYO-700M: Large-scale Image-Text Pair Dataset. Contribute to kakaobrain/coyo-dataset development by creating an account on GitHub.
github.com
■ LLaVA-CoT-100k
라마V-o1(LlamaV-o1)
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
VRC-Bench는 8개의 다양한 범주(시각적 추론, 수학 및 논리 추론, 사회 및 문화적 맥락, 의료 영상(기초 의학), 차트 및 다이어그램 이해, OCR 및 문서 이해, 복잡한 시각적 인지, 과학적 추론)에 걸쳐 1,000개 이상의 샘플과 4,000개 이상의 추론 단계를 포함하는 벤치마크
https://github.com/mbzuai-oryx/LlamaV-o1
GitHub - mbzuai-oryx/LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
Rethinking Step-by-step Visual Reasoning in LLMs. Contribute to mbzuai-oryx/LlamaV-o1 development by creating an account on GitHub.
github.com
https://mbzuai-oryx.github.io/LlamaV-o1/
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
The comprehensive comparison of category-wise and overall performance scores achieved by various models on diverse reasoning tasks. The evaluation spans multiple domains, including Math & Logic Reasoning, Scientific Reasoning, Complex Visual Perception, Ch
mbzuai-oryx.github.io
https://huggingface.co/omkarthawakar/LlamaV-o1
omkarthawakar/LlamaV-o1 · Hugging Face
LlamaV-o1 Overview LlamaV-o1 is an advanced multimodal large language model (LLM) designed for complex visual reasoning tasks. Built on a foundation of cutting-edge curriculum learning and optimized with techniques like Beam Search, LlamaV-o1 demonstrates
huggingface.co
https://www.aitimes.com/news/articleView.html?idxno=167151
UAE, 이미지까지 추론하는 멀티모달모델 ‘라마V-o1’ 출시 - AI타임스
아랍에미레이트(UAE) 연구진이 금융 차트 해석부터 의료 영상 진단에 이르기까지 복잡한 멀티모달 작업에서 시각적 데이터를 해석해 단계별 추론을 제공하는 인공지능(AI) 모델을 출시했다.벤처
www.aitimes.com
▶ 다양한 태스크에 대한 벤치마크
■ Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning
Instruction Using Language Model1. 현재 LMMs의 한계
- 대부분의 대형 멀티모달 모델(LMMs)은 자연 풍경 및 인물 사진을 이해할 수 있지만, **추상적 이미지(차트, 지도, 레이아웃 등)**를 이해하는 능력과 시각적 추론 능력은 여전히 미흡.
- 일상적인 간단한 작업에서도 어려움을 겪음:
- 시계에서 시간을 읽는 것.
- 플로우차트(flowchart) 이해.
- 도로 지도를 이용해 경로를 계획.
2. 멀티모달 벤치마크 설계
- 목적: LMMs의 추상적 이미지 이해와 시각적 추론 능력을 평가하기 위해 새로운 멀티모달 벤치마크를 설계.
- 방법: 대형 언어 모델(LLMs)과 코딩 능력을 활용한 멀티모달 셀프 인스트럭션 파이프라인 개발.
- 일상적인 시나리오를 반영한 추상적 이미지와 시각적 추론 지침을 대량 생성.
- 11,193개의 지침과 8가지 시각적 시나리오 포함:
- 차트, 테이블, 시뮬레이션 지도, 대시보드, 플로우차트, 관계 그래프, 평면도, 시각적 퍼즐.
3. 벤치마크의 주요 특징
- 단순한 선(line)과 기하학적 요소로 구성된 추상적 이미지를 기반으로 함.
- 평가 영역:
- 추상적 이미지 이해.
- 공간적 관계 추론.
- 시각적 요소 유도.
4. 모델 성능 검증
- **62,476개의 합성 데이터(차트, 테이블, 지도)**를 활용해 LMM을 미세 조정(fine-tuning).
- 결과:
- 차트 이해 및 지도 탐색 성능 향상.
- 기타 시각적 추론 작업에서도 잠재적 성능 향상 확인.
5. 한계점 노출
- 고급 LMMs(예: Claude-3.5-Sonnet, GPT-4o)도 여전히 추상적 이미지 이해와 공간적 관계 추론에서 한계 드러냄.
더보기Zhang, Wenqi, et al. "Multimodal self-instruct: Synthetic abstract image and visual reasoning instruction using language model." arXiv preprint arXiv:2407.07053 (2024).
읽어볼 논문:
■ MMC-Instruction -> LMM
■ Bunny
■ HallE-Switch: 프로세스 중 환각 교정(출력의 상상력 제어)
■ Woddpecker: 사후교정으로 훈련없이 전문가 모델 사용하여 이미지의 맥락정보 보완하고 단계별 확낙 교정 수행하는 프레임워크 제공
■ [141] 논문: ICL 논문
■ CHOPINLLM
■ visual program distillation VPD 논문에서 8개의 vqa 벤치마크가 뭔지
■ 멀티모달 언어모델 데이터 합성 기술 동향 무슨 소린지 확인 위해서 177 - 178 논문 읽어보기 179
반응형 - 데이터셋 특징