전체 글
-
The FACTS Grounding Leaderboard:Benchmarking LLMs’ Ability to GroundResponses to Long-Form Input카테고리 없음 2025. 1. 15. 10:28
LLM이 장문의 문서를 입력할 경우 얼마나 사실적으로 정확한 응답을 생성하는 능력을 평가테스트용 질문은 860개의 공개 및 859개의 비공개 샘플 등 모두 1719개 ▲제공된 맥락에 따라서만 대답하라는 일반 지침과 명령이 포함된 시스템 프롬프트 ▲답변할 구체적인 질문 ▲필요 정보가 포함된 긴 문서 등이 포함 https://arxiv.org/pdf/2501.03200https://www.kaggle.com/facts-leaderboard FACTS Leaderboard | KaggleA novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI modelswww.kaggle.com http..
-
mllm 모델과 벤치마크 조사 (0107 ~ )카테고리 없음 2025. 1. 7. 18:05
▶ OCR-related multimodal benchmarks더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv preprint arXiv:2412.10302 (2024).▶ medical QA 벤치마크Medical Visual Question Answering: A Survey▶ general QA 벤치마크더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv prepr..
-
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges논문 리뷰/Multimodal 2025. 1. 3. 16:24
논문 초록(Abstract)인간 인지의 핵심 요소인 수학적 추론은 교육적 문제 해결부터 과학적 발전에 이르기까지 다양한 영역에서 필수적인 요소입니다. 인공 일반 지능(AGI)이 발전함에 따라 대규모 언어 모델(LLM)을 수학적 추론 작업과 통합하는 것이 점점 더 중요해지고 있습니다. 이 설문조사는 다중 모드 대규모 언어 모델(MLLM) 시대의 수학적 추론에 대한 최초의 종합적인 분석을 제공합니다. 2021년 이후 발표된 200개 이상의 연구를 검토하고, 멀티모달 환경에 초점을 맞춰 수학-LLM의 최신 발전 상황을 살펴봅니다. 이 분야를 벤치마크, 방법론, 과제의 세 가지 차원으로 분류합니다. 특히, 멀티모달 수학적 추론 파이프라인과 (M)LLM의 역할 및 관련 방법론에 대해 살펴봅니다. 마지막으로, 이 ..
-
Beagle: Automated Extraction and Interpretation of Visualizations from the Web논문 리뷰/Multimodal 2025. 1. 3. 15:49
아래의 내용은 ChatGPT o1으로 요약한 것 요약“Beagle: Automated Extraction and Interpretation of Visualizations from the Web”은 웹사이트에 게시된 차트, 그래프, 기타 시각적 자료를 자동으로 탐지하고 해석하는 시스템을 제안한다. 이 연구에서는 컴퓨터 비전 기법과 자연어 처리, 그리고 휴리스틱 기반 분석을 결합하여, (1) 이미지 안에서 시각적 요소와 레이아웃 구조를 식별하고, (2) 축 레이블이나 범례와 같은 텍스트 주석을 해석하며, (3) 구조화된 형태로 데이터 값을 재구성한다. 이는 주로 정적 시각화로 인해 웹상에 방대한 데이터가 잠겨 있다는 문제를 해결하고, 데이터 재사용 및 대규모 정보 집계를 촉진하고자 하는 목표를 가진다.주요..
-
Llava tutorialNew 2024. 12. 3. 14:00
https://colab.research.google.com/github/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb#scrollTo=MjlIoxq3u8ef https://github.com/NielsRogge/Transformers-Tutorials/blob/master/LLaVa/Inference_with_LLaVa_for_multimodal_generation.ipynb Building an LLM App with TinyLLaVAhttps://wandb.ai/vincenttu/building_llm_app/reports/Building-an-LLM-Ap..
-
A Survey on Multimodal Large Language Models논문 리뷰/Multimodal 2024. 11. 13. 09:53
MLLM 개요MLLM은 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 정보를 이해하고 처리할 수 있는 AI 모델입니다. 최근 GPT-4V와 같은 발전으로 MLLM은 빠르게 진화하고 있으며 일반 인공지능(AGI)을 향한 가능한 경로로 주목받고 있습니다.1. 기본 구조 및 교육 전략구조: MLLM에는 일반적으로 사전 학습된 모달리티 인코더, 사전 학습된 LLM(대형 언어 모델) 및 둘을 연결하는 모달리티 인터페이스가 포함됩니다.Modality Encoders: CLIP과 같은 사전 훈련된 인코더를 사용하여 원시 데이터(예: 이미지, 오디오)를 LLM이 해석할 수 있는 형식으로 변환합니다.사전 훈련된 LLM: 방대한 텍스트 데이터에 대해 훈련된 LLM(예: Flan-T5, LLaMA, Vicuna)은 지..
-
A Comprehensive Review of Multimodal LargeLanguage Models: Performance and ChallengesAcross Different Tasks논문 리뷰/Multimodal 2024. 11. 13. 09:43
이기종 데이터 입력 및 처리 방법 1. 텍스트 및 이미지 입력 처리텍스트: 텍스트는 이미 LLM이 이해할 수 있는 형식이므로 변환이 필요하지 않습니다.이미지: 이미지는 LLM이 처리할 수 있는 형식으로 변환되어야 합니다. 이미지 인코더는 이미지 특징을 추출하고 이를 벡터로 변환하는 데 사용됩니다.이미지 인코더: 일반적으로 사용되는 인코더에는 CLIP, ImageBind 및 CLAP가 포함됩니다. 2. 텍스트와 이미지 정보 결합인코더의 이미지 정보와 텍스트 정보를 결합하는 두 가지 기본 방법이 있습니다.● 토큰 수준 융합이미지 특징 벡터를 토큰으로 변환한 다음 이를 텍스트 토큰과 결합하여 LLM에 입력합니다.Q-Former: 쿼리 토큰을 사용하여 이미지 정보를 요약한 다음 입력을 위해 텍스트 토큰과 연..