논문 리뷰
-
Beagle: Automated Extraction and Interpretation of Visualizations from the Web논문 리뷰/Multimodal 2025. 1. 3. 15:49
아래의 내용은 ChatGPT o1으로 요약한 것 요약“Beagle: Automated Extraction and Interpretation of Visualizations from the Web”은 웹사이트에 게시된 차트, 그래프, 기타 시각적 자료를 자동으로 탐지하고 해석하는 시스템을 제안한다. 이 연구에서는 컴퓨터 비전 기법과 자연어 처리, 그리고 휴리스틱 기반 분석을 결합하여, (1) 이미지 안에서 시각적 요소와 레이아웃 구조를 식별하고, (2) 축 레이블이나 범례와 같은 텍스트 주석을 해석하며, (3) 구조화된 형태로 데이터 값을 재구성한다. 이는 주로 정적 시각화로 인해 웹상에 방대한 데이터가 잠겨 있다는 문제를 해결하고, 데이터 재사용 및 대규모 정보 집계를 촉진하고자 하는 목표를 가진다.주요..
-
A Survey on Multimodal Large Language Models논문 리뷰/Multimodal 2024. 11. 13. 09:53
MLLM 개요MLLM은 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 정보를 이해하고 처리할 수 있는 AI 모델입니다. 최근 GPT-4V와 같은 발전으로 MLLM은 빠르게 진화하고 있으며 일반 인공지능(AGI)을 향한 가능한 경로로 주목받고 있습니다.1. 기본 구조 및 교육 전략구조: MLLM에는 일반적으로 사전 학습된 모달리티 인코더, 사전 학습된 LLM(대형 언어 모델) 및 둘을 연결하는 모달리티 인터페이스가 포함됩니다.Modality Encoders: CLIP과 같은 사전 훈련된 인코더를 사용하여 원시 데이터(예: 이미지, 오디오)를 LLM이 해석할 수 있는 형식으로 변환합니다.사전 훈련된 LLM: 방대한 텍스트 데이터에 대해 훈련된 LLM(예: Flan-T5, LLaMA, Vicuna)은 지..
-
A Comprehensive Review of Multimodal LargeLanguage Models: Performance and ChallengesAcross Different Tasks논문 리뷰/Multimodal 2024. 11. 13. 09:43
이기종 데이터 입력 및 처리 방법 1. 텍스트 및 이미지 입력 처리텍스트: 텍스트는 이미 LLM이 이해할 수 있는 형식이므로 변환이 필요하지 않습니다.이미지: 이미지는 LLM이 처리할 수 있는 형식으로 변환되어야 합니다. 이미지 인코더는 이미지 특징을 추출하고 이를 벡터로 변환하는 데 사용됩니다.이미지 인코더: 일반적으로 사용되는 인코더에는 CLIP, ImageBind 및 CLAP가 포함됩니다. 2. 텍스트와 이미지 정보 결합인코더의 이미지 정보와 텍스트 정보를 결합하는 두 가지 기본 방법이 있습니다.● 토큰 수준 융합이미지 특징 벡터를 토큰으로 변환한 다음 이를 텍스트 토큰과 결합하여 LLM에 입력합니다.Q-Former: 쿼리 토큰을 사용하여 이미지 정보를 요약한 다음 입력을 위해 텍스트 토큰과 연..
-
Large Multimodal Agents: A Survey논문 리뷰/Agent 2024. 11. 13. 09:35
LLM 기반 Multimodal Agents (LMA) 연구 분류Planner의 특성과 장기 기억 (Long-term Memory) 유무에 따라 크게 4가지 유형으로 분류할 수 있음 Planner 는 LMA(Large Multimodal Agent)에서 인간의 뇌와 같은 역할을 수행하는 핵심 구성 요소입니다. 다양한 멀티모달 정보를 바탕으로 현재 작업에 대한 심층적인 추론을 수행하고, 그에 맞는 계획을 수립하는 역할을 담당플래너장기 기억주요 기능폐쇄형 LLM(예: GPT-3.5)없음추론을 위해 프롬프트를 사용합니다. 기본 작업; 복잡한 환경에서는 제한적입니다.미세 조정된 LLM(예: LLaMA, LLaVA)없음다중 모드 작업에 맞게 미세 조정되었습니다. 유형 I에 비해 향상된 계획 및 실행; 장기 기억력..
-
Selective Generation for Controllable Language Models논문 리뷰/NeurIPS 2024 2024. 11. 12. 14:43
NotebookLM 요약 이 논문은 생성 언어 모델(GLM)의 신뢰성을 높이기 위해 제안된 선택적 생성(selective generation) 방법에 대해 설명합니다. GLM은 종종 환각(hallucination) 문제, 즉 사실이 아닌 정보를 생성하는 문제를 겪는데, 선택적 생성은 이러한 문제를 해결하기 위해 모델이 확신하지 못하는 경우 답변을 거부하는 기능을 도입합니다. 논문에서는 텍스트적 의미 포함(textual entailment) 개념을 활용하여 생성된 답변의 정확성을 평가하고, 이를 통해 오류 발생률을 제어하는 두 가지 알고리즘 SGenSup과 SGenSemi를 제안합니다. SGenSup은 지도 학습 방식으로, 인간이 텍스트적 의미 포함을 라벨링한 데이터를 사용합니다. 반면에 SGenSemi는..
-
Siren’s Song in the AI Ocean:A Survey on Hallucination in Large Language Models논문 리뷰 2024. 7. 2. 17:47
2024.07.02 - [논문 리뷰] - llm-hallucination-surveyAbstract대형 언어 모델(LLMs)은 다양한 다운스트림 작업에서 놀라운 능력을 입증했지만, 이 모델들이 환각을 나타내는 경향이 있다는 중요한 문제가 제기되고 있다. LLMs는 때때로 사용자 입력과 일치하지 않거나, 이전에 생성된 컨텍스트와 모순되거나, 확립된 세계 지식과 일치하지 않는 내용을 생성한다. 이러한 현상은 실제 시나리오에서 LLMs의 신뢰성에 상당한 도전을 제기한다. 이 논문에서는 LLM의 환각을 탐지, 설명 및 완화하는 최근의 노력을 조사하고, LLM이 직면하는 독특한 문제에 중점을 둔다. 우리는 LLM 환각 현상의 분류와 평가 벤치마크를 제시하고, LLM 환각을 완화하기 위한 기존 접근법을 분석하며, ..
-
Do Language Models Know When They’re Hallucinating References?논문 리뷰 2024. 5. 27. 16:46
https://aclanthology.org/2024.findings-eacl.62.pdf ChatGPT 논문 요약:배경 및 문제 제기:최신 언어 모델(LM)은 종종 사실에 기반하지 않은 정보를 생성하는 '환각' 현상을 보입니다. 이는 특히 중요한 도메인(예: 의료, 금융, 법률)에서 모델의 신뢰성을 저하시켜 오용 및 허위 정보의 위험을 증가시킵니다. 본 연구는 언어 모델이 생성하는 참고 문헌의 환각 문제를 집중적으로 조사합니다.연구 목표:언어 모델이 참조를 생성할 때 저자 및 내용과 같은 충분한 정보를 가지고 있어야 한다는 가정 하에 환각된 참조를 식별하는 방법을 제안합니다.언어 모델이 생성한 참조에 대해 직접적 또는 간접적인 질문을 통해 일관성 검사를 수행하여 환각된 참조를 식별합니다.주요 기여:환..