Question 1

What is the HuggingFaceFW/fineweb_edu_100BT-shuffled dataset?

Accepted Answer

FineWeb-Edu 100BT (Shuffled)

A globally shuffled version of HuggingFaceFW/fineweb_edu_100BT.
Part of the Smol-Data collection — tried and tested mixes for strong pretraining.

Dataset Description

This dataset contains the same ~100B t...

Question 2

Is HuggingFaceFW/fineweb_edu_100BT-shuffled a benchmark?

Accepted Answer

HuggingFaceFW/fineweb_edu_100BT-shuffled is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download HuggingFaceFW/fineweb_edu_100BT-shuffled?

Accepted Answer

HuggingFaceFW/fineweb_edu_100BT-shuffled is available at its source: https://huggingface.co/datasets/HuggingFaceFW/fineweb_edu_100BT-shuffled.

Question 4

What license is HuggingFaceFW/fineweb_edu_100BT-shuffled released under?

Accepted Answer

HuggingFaceFW/fineweb_edu_100BT-shuffled is distributed under the odc-by license.

HuggingFaceFW/fineweb_edu_100BT-shuffled

About HuggingFaceFW/fineweb_edu_100BT-shuffled