TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Retrieval-augmented Few-shot In-context Audio Captioning	AudioCaps	Audio Flamingo (4-shot)	CIDEr	0.518	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	BLEU-4	14.3	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	METEOR	20.5	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	ROUGE-L	40.8	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	CIDEr	50.2	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	SPICE	15.1	# 1
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	SPIDEr	32.6	# 1
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	CIDEr	0.489	# 2
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	SPIDEr	0.312	# 2
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	SPICE	0.134	# 3
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	BLEU-4	17.4	# 2
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	METEOR	18.7	# 2
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	ROUGE-L	39.4	# 2
Acoustic Scene Classification	CochlScene	Audio Flamingo	1:1 Accuracy	0.830	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-flamingo-a-novel-audio-language-model/retrieval-augmented-few-shot-in-context-audio)](https://paperswithcode.com/sota/retrieval-augmented-few-shot-in-context-audio?p=audio-flamingo-a-novel-audio-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-flamingo-a-novel-audio-language-model/zero-shot-audio-captioning-on-audiocaps)](https://paperswithcode.com/sota/zero-shot-audio-captioning-on-audiocaps?p=audio-flamingo-a-novel-audio-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-flamingo-a-novel-audio-language-model/acoustic-scene-classification-on-cochlscene)](https://paperswithcode.com/sota/acoustic-scene-classification-on-cochlscene?p=audio-flamingo-a-novel-audio-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audio-flamingo-a-novel-audio-language-model/audio-captioning-on-clotho)](https://paperswithcode.com/sota/audio-captioning-on-clotho?p=audio-flamingo-a-novel-audio-language-model)`

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

2 Feb 2024 · Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro ·

Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. Our demo website is https://audioflamingo.github.io/ and the code is open-sourced at https://github.com/NVIDIA/audio-flamingo.

PDF Abstract

Code

Add Remove Mark official

NVIDIA/audio-flamingo official

Tasks

Add Remove

Acoustic Scene Classification

Audio captioning

Few-Shot Learning

In-Context Learning

Language Modelling

Retrieval

Retrieval-augmented Few-shot In-context Audio Captioning

Zero-shot Audio Captioning

Datasets

AudioSet

AudioCaps

Clotho

NSynth

FSD50K MusicCaps

CochlScene

Results from the Paper

Add Remove

Ranked #1 on Retrieval-augmented Few-shot In-context Audio Captioning on AudioCaps (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Retrieval-augmented Few-shot In-context Audio Captioning	AudioCaps	Audio Flamingo (4-shot)	CIDEr	0.518	# 1	Compare
Zero-shot Audio Captioning	AudioCaps	Audio Flamingo	BLEU-4	14.3	# 1	Compare
			METEOR	20.5	# 1	Compare
			ROUGE-L	40.8	# 1	Compare
			CIDEr	50.2	# 1	Compare
			SPICE	15.1	# 1	Compare
			SPIDEr	32.6	# 1	Compare
Audio captioning	Clotho	Audio Flamingo (Pengi trainset)	CIDEr	0.489	# 2	Compare
			SPIDEr	0.312	# 2	Compare
			SPICE	0.134	# 3	Compare
			BLEU-4	17.4	# 2	Compare
			METEOR	18.7	# 2	Compare
			ROUGE-L	39.4	# 2	Compare
Acoustic Scene Classification	CochlScene	Audio Flamingo	1:1 Accuracy	0.830	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove