논문 리뷰/Agent
-
Large Multimodal Agents: A Survey논문 리뷰/Agent 2024. 11. 13. 09:35
LLM 기반 Multimodal Agents (LMA) 연구 분류Planner의 특성과 장기 기억 (Long-term Memory) 유무에 따라 크게 4가지 유형으로 분류할 수 있음 Planner 는 LMA(Large Multimodal Agent)에서 인간의 뇌와 같은 역할을 수행하는 핵심 구성 요소입니다. 다양한 멀티모달 정보를 바탕으로 현재 작업에 대한 심층적인 추론을 수행하고, 그에 맞는 계획을 수립하는 역할을 담당플래너장기 기억주요 기능폐쇄형 LLM(예: GPT-3.5)없음추론을 위해 프롬프트를 사용합니다. 기본 작업; 복잡한 환경에서는 제한적입니다.미세 조정된 LLM(예: LLaMA, LLaVA)없음다중 모드 작업에 맞게 미세 조정되었습니다. 유형 I에 비해 향상된 계획 및 실행; 장기 기억력..