InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

published: Jan 2025

fig1

Abstract

  • Long and Rich Context (LRC)를 통한 video MLLM 제안
  • InternVL2.5보다 6배 긴 video input

 

 

Method

fig2

Video Length Adaptive Token Representation For Long Multimodal Context

  • length-adaptive token representation approach를 제안함.

    • dynamic frame sampling
    • Hierarchical token Compressions (HiCo)
      • spatiotemporal-aware compression
      • adaptive multimodal context consolidation
  • Adaptive Temporal Sampling

    • 이름은 거창한데, short video는 15fps, long video는 1fps로 sampling한 것이다.
  • Hierarchical Token Compression

    • video를 $T$개 temporal segment로 나누고
    • 각 segment를 M개의 token으로 만든다.
    • 이걸 다시 adaptive compression으로 N개로 줄인다. (N<M)
    • 여러 pooling method 중 semantic similarity-based token merging (ToMe) 1이 가장 좋았음.
  • Multimodal Token Dropout

    • two-phase token reduction함.
      • uniform token pruning in early layers
      • attention-guided token selection in deeper layers
    • 각 token에 대해 token preservation probability를 정해두고 Bernoulli sampling해서 keep, discard를 결정한다.

→ Discussion 1 참조

 

Enhancing Visual Precision in Multimodal Context through Task Preference Optimization

  • head를 달아서 여러 task를 통해 학습시킴.
  • Visual Perception Perference: 2개로 구성됨
    • Temporal Understanding
      • visual seq와 text query를 받아 temporal boundaries와 relevance score를 측정
      • 뭐한다는 건지 정확히 모르겠다.
    • Instance Segmentation
      • image encoder, mask decoder로 구성하여 segmentation model 학습

 

Training Video Corpus for Multimodal Context Modeling

  • General하게 img-txt, vid-txt, txt, long-vid 데이터를 이용하여 train했다.
  • Task Specific하게는 다음 task에 train했다:
    • referring segmentation: MeViS, SAMv2
      • SAMv2는 referring segmentation set이 아님
      • 헷갈리게 써놨지만 SAM2를 mask decoder로 썼다는 뜻인듯
    • Spatial Grounding: AS-V2, Visual Genome, RefCOCo, RefCOCOg, RefCOCO+
    • Temporal Grounding: DiDeMo, QuerYD, HiRest, ActivityNet, TACoS, NLQ

 

Progressive Multi-stage Training

  1. Foundation Learning
  2. Fine-grained Perception Training
  3. Integrated Accurate and Long-form Context Training

 

 

Discussion

  1. compressed video token을 random dropping하는거 흥미롭다.
    • 일종의 VideoMAE처럼 masking & training으로 봐도 될 듯
  2. RVOS를 너무 못함.

  1. Daniel et al. Token merging: Your vit but faster. arXiv, 2022. ↩︎