Question 1

What is the jingyaogong/minimind_dataset dataset?

Accepted Answer

📌 数据介绍

Ⅰ Tokenizer

分词器可以粗略理解成 LLM 使用的一本“词典”，负责把自然语言映射成 token id，再把 token id 解码回文本；项目中也提供了train_tokenizer.py作为词表训练示例。不建议重新训练 tokenizer，因为词表和切分规则一旦变化，模型权重、数据格式、推理接口与社区生态的兼容性都会下降，也会削弱模型的传播性。同时，tokenizer 还会影响 PPL 这类按 token 统计的指标，因此跨 ...

Question 2

Is jingyaogong/minimind_dataset a benchmark?

Accepted Answer

jingyaogong/minimind_dataset is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download jingyaogong/minimind_dataset?

Accepted Answer

jingyaogong/minimind_dataset is available at its source: https://huggingface.co/datasets/jingyaogong/minimind_dataset.

Question 4

What license is jingyaogong/minimind_dataset released under?

Accepted Answer

jingyaogong/minimind_dataset is distributed under the apache-2.0 license.

jingyaogong/minimind_dataset

About jingyaogong/minimind_dataset

Details

Related Text Generation datasets

FAQ