Question 1

What is the wenge-research/yayi2_pretrain_data dataset?

Accepted Answer

介绍/Introduction

本数据集源自雅意训练语料，我们精选了约100B数据，数据大小约为500GB。我们期望通过雅意预训练数据的开源推动中文预训练大模型开源社区的发展，并积极为此贡献力量。通过开源，我们与每一位合作伙伴共同构建雅意大模型生态。
We opensource the pre-trained dataset in this release, it should contain more than 100B tokens depending on the tokeni...

Question 2

Is wenge-research/yayi2_pretrain_data a benchmark?

Accepted Answer

Yes — wenge-research/yayi2_pretrain_data is used as an LLM benchmark. See model leaderboards in the Benchmarks section.

Question 3

Where can I download wenge-research/yayi2_pretrain_data?

Accepted Answer

wenge-research/yayi2_pretrain_data is available at its source: https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data.

wenge-research/yayi2_pretrain_data

About wenge-research/yayi2_pretrain_data

Details

Related General NLP datasets

FAQ