我们正在进行一场多人会议,音频输入是线性的,但在Google这个模型中,会按照不同音色进行不同标注。
黄色代表一个发言者,红色又是另一个,然后黄色嘉宾发言者又接着发言了。
之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。
另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。
之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。
另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。
新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。