Tele-AI/TeleChat-PTD
General NLPEnglish
The Tele-AI/TeleChat-PTD dataset is a English General NLP resource from Tele-AI at 2024.
About Tele-AI/TeleChat-PTD
TeleChat预训练数据集(TeleChat-PTD)
🤗 Hugging Face • 🏔 MindSpore️ • 🦉 github️ • 🐾 gitee️ • 💬 WeChat
Tech Report
数据介绍
TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重...
Details
- Task
- General NLP
- Language
- English
- Format
- Parquet
- Rows / instances
- N/A
- Creator
- Tele-AI
- Year
- 2024