panlr/teochew_wild
Text To SpeechAutomatic Speech RecognitionZH
Panlr/teochew_wild is a text to speech-focused dataset in ZH distributed in Parquet format.
About panlr/teochew_wild
Teochew-Wild:首个正字标注的野外潮州话数据集
本数据集(Teochew-Wild)是从网络上发音清晰、噪声较少的音视频内容中获取的,原始音视频的数据来源为:民生新闻、潮汕讲古、地方电视节目、故事书、抖音自媒体口播等,我借鉴了Emilla提出的数据集自动处理流水线,对原始数据进行归一化、降噪和剪切(部分自动剪切效果差的使用手工修正);
Teochew-Wild总共包括20个发音标准、念错率低的潮汕母语说话人、共12500条音频片段,包含潮州市区、汕头市区、澄海、榕江音、潮...
Details
- Task
- Text To Speech, Automatic Speech Recognition
- Language
- ZH
- Format
- Parquet
- Rows / instances
- N/A
- Creator
- panlr
- Year
- 2025