Seikaijyu/Sex-novel-filtered
General NLPZH
Seikaijyu/Sex-novel-filtered is a General NLP-focused dataset in ZH distributed in Parquet format.
About Seikaijyu/Sex-novel-filtered
色情小说数据集
本数据集包含了3392条单条数据最大长度2500token的数据集
这是一个被人工精细化清洗过的色情小说数据集,此数据来源于Pixiv小说板块
原数据集有3w条,我花了一个通宵的时间配合正则人工清洗了它,最终得到了3000条语料
虽然精细处理过,但不能保证百分百干净
虽然这么说.....但此数据已经可以直接训练了,至少不会有什么大问题
另外提一嘴,现代网络小说真难练啊,ctx特长,质量特低,风格逻辑混乱,收敛特慢,感觉根本就是一无是处嘛
Details
- Task
- General NLP
- Language
- ZH
- Format
- Parquet
- Rows / instances
- N/A
- Creator
- Seikaijyu
- Year
- 2024