-
A Survey on Multimodal Large Language Models논문 리뷰/Multimodal 2024. 11. 13. 09:53반응형
MLLM 개요
MLLM은 텍스트, 이미지, 비디오, 오디오 등 다양한 유형의 정보를 이해하고 처리할 수 있는 AI 모델입니다. 최근 GPT-4V와 같은 발전으로 MLLM은 빠르게 진화하고 있으며 일반 인공지능(AGI)을 향한 가능한 경로로 주목받고 있습니다.
1. 기본 구조 및 교육 전략
구조: MLLM에는 일반적으로 사전 학습된 모달리티 인코더, 사전 학습된 LLM(대형 언어 모델) 및 둘을 연결하는 모달리티 인터페이스가 포함됩니다.
Modality Encoders: CLIP과 같은 사전 훈련된 인코더를 사용하여 원시 데이터(예: 이미지, 오디오)를 LLM이 해석할 수 있는 형식으로 변환합니다.
사전 훈련된 LLM: 방대한 텍스트 데이터에 대해 훈련된 LLM(예: Flan-T5, LLaMA, Vicuna)은 지식과 추론을 제공합니다.
Modality Interface: 토큰 수준 융합(Q-Former, MLP) 및 기능 수준 융합(Flamingo, CogVLM)과 같은 방법을 사용하여 LLM과 인코더를 연결합니다.
교육 전략: MLLM 교육은 일반적으로 세 단계로 구성됩니다.
사전 훈련: 텍스트-이미지 쌍이 포함된 대규모 데이터 세트를 사용하여 양식을 정렬하고 다중 모드 지식을 학습합니다.
Instruction Tuning: ChatGPT, InstructGPT와 같은 모델에서 사용되는 사용자 명령 이해를 향상시킵니다.
Alignment Tuning: RLHF(Reinforcement Learning with Human Feedback) 및 DPO(Direct Preference Optimization)와 같은 기술을 사용하여 인간 선호도에 대한 응답을 조정합니다.
2. 주요 연구 방향
세밀한 제어: 프롬프트를 정밀하게 제어하여 특정 이미지 영역이나 개체를 대상으로 하는 정보를 지원합니다.
확장된 양식: 연구 목표는 비디오, 오디오, 3D 포인트 클라우드 등 다양한 입력 및 출력을 지원하는 것입니다.
다국어 지원: 중국어 등 영어 이외의 언어도 지원하기 위한 노력이 진행 중입니다.
도메인 확장: MLLM 애플리케이션을 의료 이미지 분석, 문서 이해 및 실제 상호 작용 에이전트와 같은 영역으로 확장합니다.3. 다중 모드 환각 문제
정의: 환각은 MLLM의 반응이 이미지 콘텐츠와 일치하지 않을 때 발생합니다.
유형: 실존 환각, 속성 환각, 관계 환각, 수치 환각.
완화 기법: 수정 전, 진행 중 조정, 수정 후 전략을 포함합니다.4. 확장 기술
다중 모드 상황 내 학습(M-ICL): LLM의 몇 번의 학습 능력을 다중 모드 작업으로 확장합니다.
M-CoT(Multimodal Chain of Thinking): LLM에게 단계별 추론을 안내하여 복잡한 작업의 추론을 개선합니다.
LLM 지원 시각적 추론: 시각적 작업에 LLM 지식과 추론을 사용합니다.5. 과제와 향후 방향
장기 컨텍스트 다중 모드 처리: 장기 비디오 콘텐츠 및 광범위한 텍스트-이미지 문서를 처리하기 위한 기술을 개발합니다.
복잡한 명령 이해: 복잡한 명령을 처리하는 MLLM의 기능을 향상합니다.
안전 문제: 악의적인 공격에 대한 편견과 취약성을 해결하는 것이 여전히 중요합니다.반응형'논문 리뷰 > Multimodal' 카테고리의 다른 글