TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Tagging	AudioSet	PSLA	mean average precision	0.474	# 7
Audio Classification	AudioSet	PSLA (Ensemble)	Test mAP	0.474	# 19
Audio Classification	AudioSet	PSLA (Ensemble)	AUC	0.981	# 1
Audio Classification	AudioSet	PSLA (Ensemble)	d-prime	2.936	# 1
Audio Classification	AudioSet	PSLA (Single)	Test mAP	0.443	# 30
Audio Classification	AudioSet	PSLA (Single)	AUC	0.975	# 3
Audio Classification	AudioSet	PSLA (Single)	d-prime	2.778	# 4
Audio Classification	FSD50K	PSLA	mAP	56.71	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/psla-improving-audio-event-classification/audio-classification-on-fsd50k)](https://paperswithcode.com/sota/audio-classification-on-fsd50k?p=psla-improving-audio-event-classification)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/psla-improving-audio-event-classification/audio-tagging-on-audioset)](https://paperswithcode.com/sota/audio-tagging-on-audioset?p=psla-improving-audio-event-classification)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/psla-improving-audio-event-classification/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=psla-improving-audio-event-classification)`

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

2 Feb 2021 · Yuan Gong, Yu-An Chung, James Glass ·

Audio tagging is an active research area and has a wide range of applications. Since the release of AudioSet, great progress has been made in advancing model performance, which mostly comes from the development of novel model architectures and attention modules. However, we find that appropriate training techniques are equally important for building audio tagging models with AudioSet, but have not received the attention they deserve. To fill the gap, in this work, we present PSLA, a collection of training techniques that can noticeably boost the model accuracy including ImageNet pretraining, balanced sampling, data augmentation, label enhancement, model aggregation and their design choices. By training an EfficientNet with these techniques, we obtain a single model (with 13.6M parameters) and an ensemble model that achieve mean average precision (mAP) scores of 0.444 and 0.474 on AudioSet, respectively, outperforming the previous best system of 0.439 with 81M parameters. In addition, our model also achieves a new state-of-the-art mAP of 0.567 on FSD50K.

PDF Abstract

Code

Add Remove Mark official

YuanGongND/psla official

↳ Quickstart in

Colab

124

Tasks

Add Remove

Audio Classification

Audio Tagging

Data Augmentation

General Classification

Datasets

AudioSet

FSD50K

Results from the Paper

Edit

Ranked #6 on Audio Classification on FSD50K (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Tagging	AudioSet	PSLA	mean average precision	0.474	# 7	Compare
Audio Classification	AudioSet	PSLA (Ensemble)	Test mAP	0.474	# 19	Compare
			AUC	0.981	# 1	Compare
			d-prime	2.936	# 1	Compare
Audio Classification	AudioSet	PSLA (Single)	Test mAP	0.443	# 30	Compare
			AUC	0.975	# 3	Compare
			d-prime	2.778	# 4	Compare
Audio Classification	FSD50K	PSLA	mAP	56.71	# 6	Compare

Methods

Add Remove

1x1 Convolution • Average Pooling • Batch Normalization • Convolution • Dense Connections • Depthwise Convolution • Depthwise Separable Convolution • Dropout • EfficientNet • Inverted Residual Block • Pointwise Convolution • ReLU • RMSProp • Sigmoid Activation • Squeeze-and-Excitation Block • Swish

Edit Social Preview

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove