Skip to content

YeungNLP/firefly-pretrain-dataset

General NLPEnglish

Created by YeungNLP at 2023, the YeungNLP/firefly-pretrain-dataset is a General NLP dataset in English in Parquet format.

About YeungNLP/firefly-pretrain-dataset

Firefly中文Llama2增量预训练数据 欢迎加入Firefly大模型技术交流群,关注我们的公众号。 数据简介 技术文章:QLoRA增量预训练与指令微调,及汉化Llama2的实践 该数据应为Firefly-LLaMA2-Chinese项目的增量预训练数据,一共约22GB文本,主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集,以及我们收集的古诗词、散文、文言文等,数据分布如下图。 模型列表 & 数据列...

Details

Task
General NLP
Language
English
Format
Parquet
Rows / instances
N/A
Creator
YeungNLP
Year
2023
Download

Related General NLP datasets

FAQ