What are Visual Question Answering datasets used for?

Visual Question Answering datasets are collections of labelled or raw data used to train, fine-tune, and evaluate models on the visual question answering task. This page lists 21 such datasets, each linking to its source and paper.

Which Visual Question Answering dataset is best for benchmarking?

None of the listed Visual Question Answering datasets are currently tracked as standard LLM benchmarks, but many are widely used for evaluation.

How many Visual Question Answering datasets are there?

We catalog 21 Visual Question Answering datasets in one searchable directory.

Visual Question Answering Datasets

There are 21 visual question answering datasets in our directory. Each links to its source, paper, and download — browse the full list below or filter by language.

Visual Question Answering is the task of answering natural-language questions about the contents of an image. We catalog 21 datasets for it.

Updated June 2026

Visual GenomeVisual Question Answering, Knowkedge BaseEnglish
Visual Commonsense GraphsVisual Question Answering, CommonsenseEnglish
mvp-lab/LLaVA-OneVision-2-DataVideo Text To Text, Visual Question Answering, Image Text To TextEN
OpenGVLab/ShareGPT-4oVisual Question Answering, Question AnsweringEN
Visual QA (VQA)Visual Question AnsweringEnglish
tomg-group-umd/pixelproseImage To Text, Text To Image, Visual Question AnsweringEN
nvidia/Llama-Nemotron-VLM-Dataset-v1Visual Question Answering, Image Text To Text, Image To TextEnglish
Xkev/LLaVA-CoT-100kVisual Question Answering, Image Text To TextEN
HuggingFaceFV/finevideoVisual Question Answering, Video Text To TextEN
HuggingFaceM4/DocmatixVisual Question AnsweringEN
nvidia/Nemotron-VLM-Dataset-v2Visual Question Answering, Image Text To Text, Video Text To TextEnglish
raidium/RadImageNet-VQAVisual Question AnsweringEN
neulab/PangeaInstructVisual Question Answering, Question AnsweringAM, AR, BG
OpenDataArena/MMFineReason-SFT-123K-Qwen3-VL-235B-ThinkingVisual Question Answering, Question Answering, Text GenerationEN
ranjaykrishna/visual_genomeImage To Text, Object Detection, Visual Question AnsweringEN
lmms-lab/M4-Instruct-DataVisual Question Answering, Question AnsweringEN
nvidia/Nemotron-Image-Training-v3Visual Question Answering, Image Text To TextEnglish
ScienceOne-AI/S1-MMAlignImage To Text, Visual Question Answering, Feature ExtractionEN
VLR-CVC/DocVQA-2026Visual Question Answering, Document Question Answering, Image Text To Text, Question AnsweringEN
multimodal-reasoning-lab/Zebra-CoTAny To Any, Image Text To Text, Visual Question AnsweringEnglish
openbmb/RLHF-V-DatasetText Generation, Visual Question AnsweringEN

What languages do visual question answering datasets cover?

EN datasets (13)English datasets (7)AM datasets (1)AR datasets (1)BG datasets (1)

Explore other dataset tasks

General NLP(297)Text Corpora(154)Text Generation(137)Question Answering(130)Classification(45)Reading Comprehension(43)Text Classification(33)Machine Translation(25)Sentiment Analysis(21)Dialogue(21)Text To Image(20)Image To Text(18)

What languages do visual question answering datasets cover?

Explore other dataset tasks

Frequently asked questions

What are Visual Question Answering datasets used for?

Which Visual Question Answering dataset is best for benchmarking?

How many Visual Question Answering datasets are there?