Question 1

What is the pixparse/cc12m-wds dataset?

Accepted Answer

Dataset Card for Conceptual Captions 12M (CC12M)

Dataset Summary

Conceptual 12M (CC12M) is a dataset with 12 million image-text pairs specifically meant to be used for visionand-language pre-training.
Its data collection pipeline is ...

Question 2

Is pixparse/cc12m-wds a benchmark?

Accepted Answer

pixparse/cc12m-wds is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download pixparse/cc12m-wds?

Accepted Answer

pixparse/cc12m-wds is available at its source: https://huggingface.co/datasets/pixparse/cc12m-wds.

pixparse/cc12m-wds

About pixparse/cc12m-wds

Details

Related Image To Text datasets

FAQ