YeungNLP/firefly-pretrain-dataset
General NLPEnglish
Created by YeungNLP at 2023, the YeungNLP/firefly-pretrain-dataset is a General NLP dataset in English in Parquet format.
About YeungNLP/firefly-pretrain-dataset
Firefly中文Llama2增量预训练数据
欢迎加入Firefly大模型技术交流群,关注我们的公众号。
数据简介
技术文章:QLoRA增量预训练与指令微调,及汉化Llama2的实践
该数据应为Firefly-LLaMA2-Chinese项目的增量预训练数据,一共约22GB文本,主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集,以及我们收集的古诗词、散文、文言文等,数据分布如下图。
模型列表 & 数据列...
Details
- Task
- General NLP
- Language
- English
- Format
- Parquet
- Rows / instances
- N/A
- Creator
- YeungNLP
- Year
- 2023