你好热情的软件开发人员,
我是语音识别(语音到文本)领域的新手,目前,我正在研究一个项目,我正在使用Mozilla通用语音数据集(德语语音数据集)-
https://voice.mozilla.org/en
. 我从Mozilla中得到了未经分段的序列数据(mp3文件)和一组tsv文件,它们由声音文件的文本语句组成现在我计划实现CTC标记,使声音文件与相应的文本句子相匹配(这意味着每个字符(而不是每个单词!)需要与其在音频文件中的位置对齐)如何使用python实现CTC标签或者在我的项目中有没有类似的场景可以让我学习和实现?
提前谢谢!!