Question 1

What is the TigerResearch/pretrain_zh dataset?

Accepted Answer

Dataset Card for "pretrain_zh"

Tigerbot pretrain数据的中文部分。
包含(未压缩前) 中文书籍zh-books 12G, 中文互联网zh-webtext 25G, 中文百科zh-wiki 19G
更多语料请关注开源模型及持续更新 https://github.com/TigerResearch/TigerBot

Usage

import datasets

ds_sft = datasets.load_dat...

Question 2

Is TigerResearch/pretrain_zh a benchmark?

Accepted Answer

Yes — TigerResearch/pretrain_zh is used as an LLM benchmark. See model leaderboards in the Benchmarks section.

Question 3

Where can I download TigerResearch/pretrain_zh?

Accepted Answer

TigerResearch/pretrain_zh is available at its source: https://huggingface.co/datasets/TigerResearch/pretrain_zh.

TigerResearch/pretrain_zh

About TigerResearch/pretrain_zh