DAM4SAM

A Distractor-Aware Memory for Visual Object Tracking with SAM2

Motivation

dam4samfig1

  • distractor는 tracking failure를 유발하는 major source를 의미함.
    • external distractor: target object와 유사한 external object
    • internal distractor: object의 한 part를 tracking할 때, object에서 그 part와 유사한 region.
  • RMem1에서는 cross-attention의 nature 때문에, frame을 길게 보는 것은 tracking에 좋지 않다고 봄.
    • 따라서 recent frame만 보는 작은 메모리 도입.
  • 이 paper에서는 추가적으로 Distractor-Aware Memory (DAM)이 필요하다고 설명함. 이는 두 메모리로 구성됨:
    • Recent Appearances Memory (RAM)
    • Distractor-Resolving Memory (DRM)
      • DRM은 anchor frame을 가지고 critical distractor와 target을 구별함.
  • 이를 검증하기 위해 Distractor-Distrilled tracking dataset (DiDi)를 제작.

→ anchor frame을 기준으로 object identity를 확인한다는 아이디어는 plausible하게 들린다.

 

 

Method

Distractor-Aware Memory (DAM)

dam4samfig2

  • memory는 Recent Appearance Memory (RAM)과 Distractor Resolving Memory (DAM)로 구성됨.
  • RAM은 frame에서 segmentation accuracy를 높이는 역할임.
    • SAM22의 구조를 따름.
    • $\frac{1}{2}N_{DAM}=3$ slot을 가진 FIFO buffer로 구성됨.
  • DRM은 tracking robustness와 re-detection을 ensure하는 역할임.
    • accurately segmented frame와 distractor 포함.
    • initialization frame 포함.
    • FIFO buffer와 $\frac{1}{2}N_{DAM}=3$ anchor frame으로 구성.
    • temporal encoding하지 않음.

RAM Management Protocol.

  • 매 frame마다 update하지 않음.
    • RMem1에 따르면, visual redundancy는 attention-based localization에서 제거되어야 함.
    • $\Delta=5$ frame마다 update되고, most recent frame은 포함함.
    • SAM2에서는 매 frame마다 memory를 update함.
      • occlusion이 발생한 경우 memory를 잃어버림.
      • 따라서 DRM에서는 predicted mask가 empty인 경우 update하지 않음.

DRM Management Protocol.

  • 기본적으로는 RAM의 rule을 따름.
  • 추가적으로, critical distractor를 찾기 위한 anchor frame을 찾음.
  • SAM2는 기본적으로 3개의 mask를 predict함.
  • failure하기 직전에 2개의 alternative mask 중 하나로 distractor를 predict하는 경향이 있음.
  • 따라서 anchor frame을 찾기 위해 output과 alternative mask 사이의 hypothesis divergence를 사용함.
  • output mask의 bbox와 alternative mask의 bbox가 $\theta_{anc}=0.7$ 아래로 떨어지면, 해당 frame을 potential candidate으로 봄.
    • 이 경우에는 memory update가 memory corruption을 초래할 수 있음.
    • distractor가 사라졌음을 의미하는 특정 threshold를 다시 넘을 때까지 DRM을 update하지 않음.

→ 아주 흥미롭고 똑똑한 방법이다.

 

A Distractor-Distilled dataset

Discussion

  • point 1. 잠깐의 occlusion을 막는 방법으로 제안한 방법들이 긴 occlusion에서도 효과가 있을 것으로 보임.
  • point 2. 다만 distractor가

 

 

References


  1. Junbao et al. Rmem: Restricted memory banks improve video object segmentation. CVPR 2024. ↩︎ ↩︎

  2. Nikhila et al. SAM 2: Segment Anything in Images and Videos. ICLR 2025. ↩︎