TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	mask AP	17.3	# 36
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	AP50	35.4	# 34
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	AP75	15.2	# 34
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	AR1	8.4	# 28
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	AR10	23.1	# 28
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	APso	11.1	# 7
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	APmo	14.7	# 8
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	APho	23.7	# 3
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	mask AP	34.6	# 24
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	AP50	54.0	# 24
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	AP75	38.0	# 24
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	AR10	39.1	# 24
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	AR1	29.4	# 24
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	mask AP	36.8	# 35
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	AP50	56.8	# 36
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	AP75	38.0	# 38
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	AR1	34.8	# 34
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	AR10	41.8	# 32

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/spatial-feature-calibration-and-temporal/video-instance-segmentation-on-youtube-vis-2)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-2?p=spatial-feature-calibration-and-temporal)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/spatial-feature-calibration-and-temporal/video-instance-segmentation-on-youtube-vis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-1?p=spatial-feature-calibration-and-temporal)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/spatial-feature-calibration-and-temporal/video-instance-segmentation-on-ovis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-ovis-1?p=spatial-feature-calibration-and-temporal)`

Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation

CVPR 2021 · Minghan Li, Shuai Li, Lida Li, Lei Zhang ·

Modern one-stage video instance segmentation networks suffer from two limitations. First, convolutional features are neither aligned with anchor boxes nor with ground-truth bounding boxes, reducing the mask sensitivity to spatial location. Second, a video is directly divided into individual frames for frame-level instance segmentation, ignoring the temporal correlation between adjacent frames. To address these issues, we propose a simple yet effective one-stage video instance segmentation framework by spatial calibration and temporal fusion, namely STMask. To ensure spatial feature calibration with ground-truth bounding boxes, we first predict regressed bounding boxes around ground-truth bounding boxes, and extract features from them for frame-level instance segmentation. To further explore temporal correlation among video frames, we aggregate a temporal fusion module to infer instance masks from each frame to its adjacent frames, which helps our framework to handle challenging videos such as motion blur, partial occlusion and unusual object-to-camera poses. Experiments on the YouTube-VIS valid set show that the proposed STMask with ResNet-50/-101 backbone obtains 33.5 % / 36.8 % mask AP, while achieving 28.6 / 23.4 FPS on video instance segmentation. The code is released online https://github.com/MinghanLi/STMask.

PDF Abstract CVPR 2021 PDF CVPR 2021 Abstract

Code

Add Remove Mark official

MinghanLi/STMask official

Tasks

Add Remove

Instance Segmentation

Segmentation

Semantic Segmentation

valid

Video Instance Segmentation

Datasets

MS COCO

YouTube-VIS 2019

OVIS YouTube-VIS 2021

Results from the Paper

Add Remove

Ranked #24 on Video Instance Segmentation on YouTube-VIS 2021

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Instance Segmentation	OVIS validation	STMask(R101-DCN-FPN)	mask AP	17.3	# 36	Compare
			AP50	35.4	# 34	Compare
			AP75	15.2	# 34	Compare
			AR1	8.4	# 28	Compare
			AR10	23.1	# 28	Compare
			APso	11.1	# 7	Compare
			APmo	14.7	# 8	Compare
			APho	23.7	# 3	Compare
Video Instance Segmentation	YouTube-VIS 2021	STMask(R101-DCN-FPN)	mask AP	34.6	# 24	Compare
			AP50	54.0	# 24	Compare
			AP75	38.0	# 24	Compare
			AR10	39.1	# 24	Compare
			AR1	29.4	# 24	Compare
Video Instance Segmentation	YouTube-VIS validation	STMask(R101-DCN-FPN)	mask AP	36.8	# 35	Compare
			AP50	56.8	# 36	Compare
			AP75	38.0	# 38	Compare
			AR1	34.8	# 34	Compare
			AR10	41.8	# 32	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove