0xDing/wikipedia-cn-20230720-filtered
Text GenerationZHcc-by-sa-3.0
The 0xDing/wikipedia-cn-20230720-filtered dataset is a ZH text generation resource from 0xDing at 2023. With 2.3K downloads and 170 likes, it is actively used by the community. It is released under the cc-by-sa-3.0 license and is a 100K<n<1M-scale dataset.
About 0xDing/wikipedia-cn-20230720-filtered
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 254,547条 质量较高的词条内容。具体而言:
过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条
使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条
过滤了一部分内容较为敏感或存在争议性的词条。
进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词...
Details
- Task
- Text Generation
- Language
- ZH
- Format
- Parquet
- Rows / instances
- N/A
- Size
- 100K<n<1M
- Creator
- 0xDing
- Year
- 2023
- License
- cc-by-sa-3.0
- Downloads
- 2283
- Likes
- 170