DAM4SAM
A Distractor-Aware Memory for Visual Object Tracking with SAM2
Motivation
- distractor는 tracking failure를 유발하는 major source를 의미함.
- external distractor: target object와 유사한 external object
- internal distractor: object의 한 part를 tracking할 때, object에서 그 part와 유사한 region.
- RMem1에서는 cross-attention의 nature 때문에, frame을 길게 보는 것은 tracking에 좋지 않다고 봄.
- 따라서 recent frame만 보는 작은 메모리 도입.
- 이 paper에서는 추가적으로 Distractor-Aware Memory (DAM)이 필요하다고 설명함. 이는 두 메모리로 구성됨:
- Recent Appearances Memory (RAM)
- Distractor-Resolving Memory (DRM)
- DRM은 anchor frame을 가지고 critical distractor와 target을 구별함.
- 이를 검증하기 위해 Distractor-Distrilled tracking dataset (DiDi)를 제작.
→ anchor frame을 기준으로 object identity를 확인한다는 아이디어는 plausible하게 들린다.
Method
Distractor-Aware Memory (DAM)
- memory는 Recent Appearance Memory (RAM)과 Distractor Resolving Memory (DAM)로 구성됨.
- RAM은 frame에서 segmentation accuracy를 높이는 역할임.
- SAM22의 구조를 따름.
- $\frac{1}{2}N_{DAM}=3$ slot을 가진 FIFO buffer로 구성됨.
- DRM은 tracking robustness와 re-detection을 ensure하는 역할임.
- accurately segmented frame와 distractor 포함.
- initialization frame 포함.
- FIFO buffer와 $\frac{1}{2}N_{DAM}=3$ anchor frame으로 구성.
- temporal encoding하지 않음.
RAM Management Protocol.
- 매 frame마다 update하지 않음.
- RMem1에 따르면, visual redundancy는 attention-based localization에서 제거되어야 함.
- $\Delta=5$ frame마다 update되고, most recent frame은 포함함.
- SAM2에서는 매 frame마다 memory를 update함.
- occlusion이 발생한 경우 memory를 잃어버림.
- 따라서 DRM에서는 predicted mask가 empty인 경우 update하지 않음.
DRM Management Protocol.
- 기본적으로는 RAM의 rule을 따름.
- 추가적으로, critical distractor를 찾기 위한 anchor frame을 찾음.
- SAM2는 기본적으로 3개의 mask를 predict함.
- failure하기 직전에 2개의 alternative mask 중 하나로 distractor를 predict하는 경향이 있음.
- 따라서 anchor frame을 찾기 위해 output과 alternative mask 사이의 hypothesis divergence를 사용함.
- output mask의 bbox와 alternative mask의 bbox가 $\theta_{anc}=0.7$ 아래로 떨어지면, 해당 frame을 potential candidate으로 봄.
- 이 경우에는 memory update가 memory corruption을 초래할 수 있음.
- distractor가 사라졌음을 의미하는 특정 threshold를 다시 넘을 때까지 DRM을 update하지 않음.
→ 아주 흥미롭고 똑똑한 방법이다.
A Distractor-Distilled dataset
Discussion
- point 1. 잠깐의 occlusion을 막는 방법으로 제안한 방법들이 긴 occlusion에서도 효과가 있을 것으로 보임.
- point 2. 다만 distractor가