Question 1

What is the PleIAs/common_corpus dataset?

Accepted Answer

Common Corpus

Full paper - ICLR 2026 oral

Common Corpus is the largest open licensed text dataset, comprising 2.27 trillion tokens (2,267,302,720,836 tokens). It is a diverse dataset, consisting of books, newspapers, scientific articles, g...

Question 2

Is PleIAs/common_corpus a benchmark?

Accepted Answer

PleIAs/common_corpus is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download PleIAs/common_corpus?

Accepted Answer

PleIAs/common_corpus is available at its source: https://huggingface.co/datasets/PleIAs/common_corpus.

PleIAs/common_corpus

About PleIAs/common_corpus

Details

Related General NLP datasets

FAQ