분류 전체보기
-
2025 Coling (1)카테고리 없음 2025. 3. 23. 15:45
Style Over Substance: Evaluation Biases for Large Language Models Style Over Substance: Evaluation Biases for Large Language ModelsMinghao Wu, Alham Fikri Aji. Proceedings of the 31st International Conference on Computational Linguistics. 2025.aclanthology.org더보기✅ 기여점:LLM 평가의 편향성 문제를 실증 분석이 논문은 LLM 평가의 객관성 결여를 지적하며, 특히 사람들이 짧거나 문법적으로 어색하지만 사실적인 답변보다 길고 스타일 좋은 허위 답변을 선호하는 경향을 실험적으로 보여줍니다. 이를 위해 G..
-
LLaVA / LLaVA-NeXT논문 리뷰/Multimodal 2025. 1. 15. 14:49
https://github.com/LLaVA-VL/LLaVA-NeXT GitHub - LLaVA-VL/LLaVA-NeXTContribute to LLaVA-VL/LLaVA-NeXT development by creating an account on GitHub.github.com 참고 블로그>https://fornewchallenge.tistory.com/entry/LLaVA-NeXT-%EC%A0%9C%EB%AF%B8%EB%82%98%EC%9D%B4-%ED%94%84%EB%A1%9C%EB%A5%BC-%EB%9B%B0%EC%96%B4%EB%84%98%EB%8A%94-%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-AI LL..
-
The FACTS Grounding Leaderboard:Benchmarking LLMs’ Ability to GroundResponses to Long-Form Input카테고리 없음 2025. 1. 15. 10:28
LLM이 장문의 문서를 입력할 경우 얼마나 사실적으로 정확한 응답을 생성하는 능력을 평가테스트용 질문은 860개의 공개 및 859개의 비공개 샘플 등 모두 1719개 ▲제공된 맥락에 따라서만 대답하라는 일반 지침과 명령이 포함된 시스템 프롬프트 ▲답변할 구체적인 질문 ▲필요 정보가 포함된 긴 문서 등이 포함 https://arxiv.org/pdf/2501.03200https://www.kaggle.com/facts-leaderboard FACTS Leaderboard | KaggleA novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI modelswww.kaggle.com http..
-
mllm 모델과 벤치마크 조사 (0107 ~ )카테고리 없음 2025. 1. 7. 18:05
▶ OCR-related multimodal benchmarks더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv preprint arXiv:2412.10302 (2024).▶ medical QA 벤치마크Medical Visual Question Answering: A Survey▶ general QA 벤치마크더보기Wu, Zhiyu, et al. "DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding." arXiv prepr..
-
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges논문 리뷰/Multimodal 2025. 1. 3. 16:24
논문 초록(Abstract)인간 인지의 핵심 요소인 수학적 추론은 교육적 문제 해결부터 과학적 발전에 이르기까지 다양한 영역에서 필수적인 요소입니다. 인공 일반 지능(AGI)이 발전함에 따라 대규모 언어 모델(LLM)을 수학적 추론 작업과 통합하는 것이 점점 더 중요해지고 있습니다. 이 설문조사는 다중 모드 대규모 언어 모델(MLLM) 시대의 수학적 추론에 대한 최초의 종합적인 분석을 제공합니다. 2021년 이후 발표된 200개 이상의 연구를 검토하고, 멀티모달 환경에 초점을 맞춰 수학-LLM의 최신 발전 상황을 살펴봅니다. 이 분야를 벤치마크, 방법론, 과제의 세 가지 차원으로 분류합니다. 특히, 멀티모달 수학적 추론 파이프라인과 (M)LLM의 역할 및 관련 방법론에 대해 살펴봅니다. 마지막으로, 이 ..