논문 리뷰
GLaMM: Pixel Grounding Large Multimodal Model
minty_y
2025. 5. 21. 16:24
반응형

Background and Motivation
- Large Multimodal Models (LMMs) extend Large Language Models into the vision domain
- Early LMMs generated ungrounded textual responses based on holistic images
- Recent region-level LMMs allow visually grounded responses
- Limitations include single-object references, need for manual region input, and lack of dense pixel-wise grounding

Proposed Model: GLaMM
- GLaMM is the first model to generate natural language responses with corresponding segmentation masks
- Grounds objects mentioned in conversation at the pixel level
- Accepts both textual input and optional visual prompts (regions of interest)
- Enables flexible interaction across both text and visual domains at various levels of granularity
- i) Global Image Encoder, ii) Region Encoder, iii) LLM, iv) Grounding Image Encoder, and v) Pixel Decoder
Task Definition: Visually Grounded Conversation Generation (GCG)
- GLaMM targets the new task of Visually Grounded Conversation Generation
- No existing benchmarks for this setting
- Introduces a comprehensive evaluation protocol using curated grounded conversations
- GCG requires dense grounding of concepts in large-scale natural scenes
Dataset: GranD (Grounding-anything Dataset)
- GranD is a densely annotated dataset for GCG
- Constructed using an automated annotation pipeline
- Contains 7.5M unique concepts grounded in 810M regions
- Provides segmentation masks for all grounded regions
Performance and Applications
- GLaMM performs well across multiple downstream tasks:
- Referring expression segmentation
- Image-level and region-level captioning
- Vision-language conversations
Background and Motivation
- Large Multimodal Models (LMMs)은 Large Language Models를 시각 영역으로 확장한 구조
- 초기 LMM은 전체 이미지를 기반으로 비정확한 텍스트 응답 생성
- 최근에는 특정 영역에 기반한 시각적 응답 생성 모델 등장
- 하지만 단일 객체 참조, 수동 영역 지정, 정밀한 픽셀 단위 연결 불가능 등의 한계 존재
Proposed Model: GLaMM
- GLaMM은 텍스트 응답과 객체 분할 마스크를 자연스럽게 결합할 수 있는 최초의 모델
- 대화 중 등장하는 객체를 정확히 grounding 가능
- 텍스트 입력뿐 아니라 선택적으로 시각적 입력(관심 영역)도 수용
- 텍스트-비전 양쪽에서 다양한 수준의 상호작용 가능
Visually Grounded Conversation Generation (GCG)
- GLaMM은 새로운 과제인 Visually Grounded Conversation Generation(GCG)에 최적화
- 기존 GCG 평가 기준 부재 문제 해결을 위해 새로운 평가 프로토콜 제안
- GCG는 복잡한 자연 장면에서 개념을 밀도 높게 grounding하는 것이 핵심
GranD: New Dataset for GCG
- GranD: 자동 주석 파이프라인을 통해 구축된 대규모 Grounding-anything Dataset
- 총 810M 영역에서 7.5M 고유 개념에 대한 segmentation 마스크 포함
- 대규모 밀집 주석 데이터 제공
Performance and Applications
- GLaMM은 GCG 외에도 다음과 같은 다양한 태스크에서 효과 확인
- 지시 표현 분할 (Referring Expression Segmentation)
- 이미지 및 영역 기반 캡셔닝
- 비전-언어 대화
반응형