논문 리뷰

GLaMM: Pixel Grounding Large Multimodal Model

minty_y 2025. 5. 21. 16:24
반응형

Background and Motivation

  • Large Multimodal Models (LMMs) extend Large Language Models into the vision domain
  • Early LMMs generated ungrounded textual responses based on holistic images
  • Recent region-level LMMs allow visually grounded responses
  • Limitations include single-object references, need for manual region input, and lack of dense pixel-wise grounding

Proposed Model: GLaMM

  • GLaMM is the first model to generate natural language responses with corresponding segmentation masks
  • Grounds objects mentioned in conversation at the pixel level
  • Accepts both textual input and optional visual prompts (regions of interest)
  • Enables flexible interaction across both text and visual domains at various levels of granularity
  •  i) Global Image Encoder, ii) Region Encoder, iii) LLM, iv) Grounding Image Encoder, and v) Pixel Decoder

Task Definition: Visually Grounded Conversation Generation (GCG)

  • GLaMM targets the new task of Visually Grounded Conversation Generation
  • No existing benchmarks for this setting
  • Introduces a comprehensive evaluation protocol using curated grounded conversations
  • GCG requires dense grounding of concepts in large-scale natural scenes

Dataset: GranD (Grounding-anything Dataset)

  • GranD is a densely annotated dataset for GCG
  • Constructed using an automated annotation pipeline
  • Contains 7.5M unique concepts grounded in 810M regions
  • Provides segmentation masks for all grounded regions

Performance and Applications

  • GLaMM performs well across multiple downstream tasks:
    • Referring expression segmentation
    • Image-level and region-level captioning
    • Vision-language conversations

Background and Motivation

  • Large Multimodal Models (LMMs)은 Large Language Models를 시각 영역으로 확장한 구조
  • 초기 LMM은 전체 이미지를 기반으로 비정확한 텍스트 응답 생성
  • 최근에는 특정 영역에 기반한 시각적 응답 생성 모델 등장
  • 하지만 단일 객체 참조, 수동 영역 지정, 정밀한 픽셀 단위 연결 불가능 등의 한계 존재

Proposed Model: GLaMM

  • GLaMM은 텍스트 응답과 객체 분할 마스크를 자연스럽게 결합할 수 있는 최초의 모델
  • 대화 중 등장하는 객체를 정확히 grounding 가능
  • 텍스트 입력뿐 아니라 선택적으로 시각적 입력(관심 영역)도 수용
  • 텍스트-비전 양쪽에서 다양한 수준의 상호작용 가능

Visually Grounded Conversation Generation (GCG)

  • GLaMM은 새로운 과제인 Visually Grounded Conversation Generation(GCG)에 최적화
  • 기존 GCG 평가 기준 부재 문제 해결을 위해 새로운 평가 프로토콜 제안
  • GCG는 복잡한 자연 장면에서 개념을 밀도 높게 grounding하는 것이 핵심

GranD: New Dataset for GCG

  • GranD: 자동 주석 파이프라인을 통해 구축된 대규모 Grounding-anything Dataset
  • 총 810M 영역에서 7.5M 고유 개념에 대한 segmentation 마스크 포함
  • 대규모 밀집 주석 데이터 제공

Performance and Applications

  • GLaMM은 GCG 외에도 다음과 같은 다양한 태스크에서 효과 확인
    • 지시 표현 분할 (Referring Expression Segmentation)
    • 이미지 및 영역 기반 캡셔닝
    • 비전-언어 대화

 

 

 

반응형