yuyijiong/Multi-Doc-QA-Chinese
Text GenerationZH
The yuyijiong/Multi-Doc-QA-Chinese dataset is a ZH text generation resource from yuyijiong at 2023.
About yuyijiong/Multi-Doc-QA-Chinese
2023.12.4更新:改进答案的格式,强制所有答案在回答时必须先给出原文。旧版本的问答已经移至old文件夹。
中文多文档问答数据集
参考文档源数据均来自悟道开源200G数据
问题和回答是通过大语言模型(gpt-3.5)自动生成的,但质量很高。
raw数据集中,每个样本包含 一个参考文档、99个无关文档、一个问题、一个基于参考文档的回答。可以训练模型从大量文档中抽取关键信息的能力。不同领域的文档保存在不同json文件中。
原始数据经过筛选、整合转化为chatml...
Details
- Task
- Text Generation
- Language
- ZH
- Format
- Parquet
- Rows / instances
- N/A
- Creator
- yuyijiong
- Year
- 2023