Py学习  »  Git

Google开源AI闹市辨音92%创新高?别急!论文+GitHub助你一臂之力!

语音杂谈 • 5 年前 • 373 次点击  

      Google人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中介绍了一套新的 AI 系统,称它“能以一种更有效的方式识别声音”,具体效果是什么?其实它的作用就是能够帮你在嘈杂的环境中分辨声音,并且其识别准确率高达 92%。这无疑是在语音识别方向有了新的突破。


       想象这样一幅画面,一个男人在拥挤的地铁,有急事想打电话给张丽却发现伸展不开,这时他只用对着耳机麦克唤醒siri说请帮我打电话给张丽,Siri在嘈杂的环境中精准的识别到主人的声音然后接通了张丽的电话,这在来看着不可思议的场景,现实却已实现。

对!没错!



RNN模型

      这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。


我们正在进行一场多人会议,音频输入是线性的,但在Google这个模型中,会按照不同音色进行不同标注。

黄色代表一个发言者,红色又是另一个,然后黄色嘉宾发言者又接着发言了。

之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。

另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。

之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。

另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。



新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的 RNN 实例开始,该实例不断更新给定新嵌入的 RNN 状态,使系统能够学习发言者共享的高级知识。



效果

论文中称,他们把核心算法放在数据集NIST SRE 2000 CALLHOME上验证,最后得出的在线分类错误率(DER)低至7.6%。

更早之前,他们旧方法的错误率还是8.8%.

那92.4%的准确率意味着什么呢?

对实时应用程序而言,已足够高了。


意义

或许你会问了,有啥用嘞?

智能音箱自不必说了,如果你家音箱能认得你家每一个人,自然个性化的AI体验会好很多很多。

另外在很多会议速记、影视作品配字幕配音的过程中,也能应用。

你可能也会用过一些所谓的“AI速记”产品,但一到多人会议就惨不忍睹了。

所以Google这次开源,可能会帮到他们。

 

至于更多实现或应用,这就需要善于发现的朋友们自己来探索~


传送门

论文地址:

https://arxiv.org/abs/1810.04719

开源地址:

https://github.com/google/uis-rnn


       结尾福利放送,整理的2018/2019/校招/春招/秋招/自然语言处理/深度学习/机器学习知识要点及面试笔记,送给急需提升的朋友,希望在明年春招来临的时候能助你一臂之力。(关注公众号并回复GH就能获得所有资料



       该仓库整理了“花书”《深度学习》中的一些常见问题,其中部分偏理论的问题没有收录,如有需要可以浏览原仓库。此外,还包括作者看到的所有机器学习/深度学习面经中的问题。除了其中 DL/ML 相关的,其他与算法岗相关的计算机知识也会记录。但是不会包括如前端/测试/JAVA/Android等岗位中有关的问题。

永久福利 直投简历

(简历投递)yuyinzatan@163.com

如有问题可以私信或留言


想了解关于更多行业新闻讯息,请千万不要忘记关注了哦!



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/GyElCRqxsM
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/27001
 
373 次点击