전체 글
-
mllm 모델과 벤치마크 조사 (0107 ~ )카테고리 없음 2025. 1. 7. 18:05
▶ OCR-related multimodal benchmarks더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv preprint arXiv:2412.10302 (2024).▶ medical QA 벤치마크Medical Visual Question Answering: A Survey▶ general QA 벤치마크더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv prepr..
-
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges논문 리뷰/Multimodal 2025. 1. 3. 16:24
논문 초록(Abstract)인간 인지의 핵심 요소인 수학적 추론은 교육적 문제 해결부터 과학적 발전에 이르기까지 다양한 영역에서 필수적인 요소입니다. 인공 일반 지능(AGI)이 발전함에 따라 대규모 언어 모델(LLM)을 수학적 추론 작업과 통합하는 것이 점점 더 중요해지고 있습니다. 이 설문조사는 다중 모드 대규모 언어 모델(MLLM) 시대의 수학적 추론에 대한 최초의 종합적인 분석을 제공합니다. 2021년 이후 발표된 200개 이상의 연구를 검토하고, 멀티모달 환경에 초점을 맞춰 수학-LLM의 최신 발전 상황을 살펴봅니다. 이 분야를 벤치마크, 방법론, 과제의 세 가지 차원으로 분류합니다. 특히, 멀티모달 수학적 추론 파이프라인과 (M)LLM의 역할 및 관련 방법론에 대해 살펴봅니다. 마지막으로, 이 ..
-
Beagle: Automated Extraction and Interpretation of Visualizations from the Web논문 리뷰/Multimodal 2025. 1. 3. 15:49
아래의 내용은 ChatGPT o1으로 요약한 것 요약“Beagle: Automated Extraction and Interpretation of Visualizations from the Web”은 웹사이트에 게시된 차트, 그래프, 기타 시각적 자료를 자동으로 탐지하고 해석하는 시스템을 제안한다. 이 연구에서는 컴퓨터 비전 기법과 자연어 처리, 그리고 휴리스틱 기반 분석을 결합하여, (1) 이미지 안에서 시각적 요소와 레이아웃 구조를 식별하고, (2) 축 레이블이나 범례와 같은 텍스트 주석을 해석하며, (3) 구조화된 형태로 데이터 값을 재구성한다. 이는 주로 정적 시각화로 인해 웹상에 방대한 데이터가 잠겨 있다는 문제를 해결하고, 데이터 재사용 및 대규모 정보 집계를 촉진하고자 하는 목표를 가진다.주요..
-
Llava tutorialNew 2024. 12. 3. 14:00
https://colab.research.google.com/github/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb#scrollTo=MjlIoxq3u8ef https://github.com/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb Building an LLM App with TinyLLaVAhttps://wandb.ai/vincenttu/building_llm_app/reports/Building-an-LLM-Ap..
-
A Survey on Multimodal Large Language Models논문 리뷰/Multimodal 2024. 11. 13. 09:53
MLLM 개요MLLM은 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 정보를 이해하고 처리할 수 있는 AI 모델입니다. 최근 GPT-4V와 같은 발전으로 MLLM은 빠르게 진화하고 있으며 일반 인공지능(AGI)을 향한 가능한 경로로 주목받고 있습니다.1. 기본 구조 및 교육 전략구조: MLLM에는 일반적으로 사전 학습된 모달리티 인코더, 사전 학습된 LLM(대형 언어 모델) 및 둘을 연결하는 모달리티 인터페이스가 포함됩니다.Modality Encoders: CLIP과 같은 사전 훈련된 인코더를 사용하여 원시 데이터(예: 이미지, 오디오)를 LLM이 해석할 수 있는 형식으로 변환합니다.사전 훈련된 LLM: 방대한 텍스트 데이터에 대해 훈련된 LLM(예: Flan-T5, LLaMA, Vicuna)은 지..
-
A Comprehensive Review of Multimodal LargeLanguage Models: Performance and ChallengesAcross Different Tasks논문 리뷰/Multimodal 2024. 11. 13. 09:43
이기종 데이터 입력 및 처리 방법 1. 텍스트 및 이미지 입력 처리텍스트: 텍스트는 이미 LLM이 이해할 수 있는 형식이므로 변환이 필요하지 않습니다.이미지: 이미지는 LLM이 처리할 수 있는 형식으로 변환되어야 합니다. 이미지 인코더는 이미지 특징을 추출하고 이를 벡터로 변환하는 데 사용됩니다.이미지 인코더: 일반적으로 사용되는 인코더에는 CLIP, ImageBind 및 CLAP가 포함됩니다. 2. 텍스트와 이미지 정보 결합인코더의 이미지 정보와 텍스트 정보를 결합하는 두 가지 기본 방법이 있습니다.● 토큰 수준 융합이미지 특징 벡터를 토큰으로 변환한 다음 이를 텍스트 토큰과 결합하여 LLM에 입력합니다.Q-Former: 쿼리 토큰을 사용하여 이미지 정보를 요약한 다음 입력을 위해 텍스트 토큰과 연..
-
Large Multimodal Agents: A Survey논문 리뷰/Agent 2024. 11. 13. 09:35
LLM 기반 Multimodal Agents (LMA) 연구 분류Planner의 특성과 장기 기억 (Long-term Memory) 유무에 따라 크게 4가지 유형으로 분류할 수 있음 Planner 는 LMA(Large Multimodal Agent)에서 인간의 뇌와 같은 역할을 수행하는 핵심 구성 요소입니다. 다양한 멀티모달 정보를 바탕으로 현재 작업에 대한 심층적인 추론을 수행하고, 그에 맞는 계획을 수립하는 역할을 담당플래너장기 기억주요 기능폐쇄형 LLM(예: GPT-3.5)없음추론을 위해 프롬프트를 사용합니다. 기본 작업; 복잡한 환경에서는 제한적입니다.미세 조정된 LLM(예: LLaMA, LLaVA)없음다중 모드 작업에 맞게 미세 조정되었습니다. 유형 I에 비해 향상된 계획 및 실행; 장기 기억력..
-
Selective Generation for Controllable Language Models논문 리뷰/NeurIPS 2024 2024. 11. 12. 14:43
NotebookLM 요약 이 논문은 생성 언어 모델(GLM)의 신뢰성을 높이기 위해 제안된 선택적 생성(selective generation) 방법에 대해 설명합니다. GLM은 종종 환각(hallucination) 문제, 즉 사실이 아닌 정보를 생성하는 문제를 겪는데, 선택적 생성은 이러한 문제를 해결하기 위해 모델이 확신하지 못하는 경우 답변을 거부하는 기능을 도입합니다. 논문에서는 텍스트적 의미 포함(textual entailment) 개념을 활용하여 생성된 답변의 정확성을 평가하고, 이를 통해 오류 발생률을 제어하는 두 가지 알고리즘 SGenSup과 SGenSemi를 제안합니다. SGenSup은 지도 학습 방식으로, 인간이 텍스트적 의미 포함을 라벨링한 데이터를 사용합니다. 반면에 SGenSemi는..