爱数智慧亮相Interspeech2018,为AI提供精准专业的训练数据

2018-10-16来源: 爱数智慧 关键字:爱数智慧 训练数据

相关文章

      偷偷告诉你们,文末有彩蛋,小伙伴们千万不要错过哦!



      Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,是世界上规模最大,最全面的语言处理科学与技术会议。本次会议旨在用跨学科方法解决语音科学和技术的问题:基础理论,高级应用,包括计算建模和技术开发。


(上图为interspeech会场)


      Interspeech2018于2018年9月2日至9月6日(当地时间)在印度海得拉巴举办。本次Interspeech汇聚来自全球语音领域的研究人员、人工智能从业者、相关知名企业等,本届参会人员将近2000名。会议以“Speech Research for Emerging Markets in Multilingual Societies”为主题,深入研究包括语音方面(信号处理和语音识别),语言方面(包括NLP、翻译等)等的相关问题。

      此次的参展商中,不乏世界知名企业,如苹果、Microsoft、Facebook、Google、IBM、Adobe、NVIDIA、Amazon、QUALCOMM等。国内布局AI的企业也有不少,如百度、京东、小米、搜狗......云集印度海德拉巴。

      作为国内外知名的数据服务商,爱数智慧自然不能缺席此次盛会。这不,小伙伴们已经从前线发来了参会的照片。


(上图分别为爱数智慧的展台及团队与专家们合影)


      好学的小伙伴们不要着急,跟着爱数智慧的技术大神一起看看interspeech的那些干货吧!

端到端语音识别

      本次会议有多篇关于端到端识别研究最新进展的论文,主要是基于CTC的训练准则和基于sequence to sequence和attention的模型。

      对于传统的语音识别,通常会分为3个部分:声学模型,字典,语言模型。识别时候,在声学模型层,输入为语音特征,输出为音素;由字典做中介,将音素和语言模型关联起来,组成一个大的解码网络。在该网络中,由于声学模型和语言模型是分开独立训练的,优化这两个模型的损失函数是不相同的。而整个语音识别训练的目标(WERword error rate)与这两个模型的损失函数不是一致的。

      对于端到端的语音识别,模型的输入就为语音特征(输入端),而输出为识别出的文本(输出端),整个模型就只有一个神经网络的模型,而模型的损失采用的CTC Loss。这样模型就只用以一个损失函数作为训练的优化目标,不用再去优化一些无用的目标了。


(上图为interspeech报告现场)


      端到端的语音识别框架在一定程度上减少了传统方法不合实际的假设,但是为了取得比较好的效果,需要比传统DNN-HMM系统更多的训练语料。Baidu SiliconValley AI Lab研发了端到端的能够识别英文的语音识别系统Deep Speech,之后在此基础上研发了能识别中英文的Deep Speech 2Deep Speech 2通过使用一个单一的学习算法就能准确识别英语和汉语。Deep Speech 2这个大规模的深度学习系统需要丰富的标记训练数据。说到这里,就不得不毛遂自荐下,爱数智慧就是专门为企业客户提供精准专业的标记训练数据的服务商,有数据需求,请记得找我们哦!

远场识别

      语音交互正在被视为用户在未来很多场景下的主要流量入口之一。因此,提高远场识别效率变成了当下工业界和学术界的迫切需求。但是由于背景噪声、混响以及人声干扰等因素,远场语音识别任务一直充满挑战性。



(上图为interspeech报告现场)


      想要提高远场识别率,首先需要用相应的硬件设备(麦克风阵列)采集数据,然后根据实际采集的数据进行算法的研发和调优。算法的优化不仅包含声学模型,同时还有麦克风阵列。由于使用场景会有各种噪音、混响、人声干扰等问题,麦克风阵列在前期拾音时,对音频做一些降噪算法处理,对远场识别率的提升非常重要。最后,后端语音识别与前端信号处理算法的匹配。为了提升远场语音识别,就需要用远场的语音数据训练声学模型,而远场语音数据又太复杂(混响、噪声),这就需要信号处理的手段让数据尽量变的单一一些,最佳的方法就是利用麦克风阵列采集的信号经过前端降噪算法后的数据去训练语音识别引擎,效果应该会有大幅提升。

      总之一句话,提高远场识别效率行之有效的方法就是,在改进算法的同时,用大量的数据来支撑研究工作、提高模型性能。爱数智慧又一次认真脸地毛遂自荐。

CHiME结果揭晓

      CHiME(Computational Hearing in Multisource Environments)属于国际语音识别评测中的高难度比赛,始办于2011年,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所发起。比赛的目的是希望学术界和工业届针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案,以进一步提升语音识别的实用性和普适性,目前CHiME比赛已经举办五届,成为业界影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。第五届CHiME赛事由微软承办,是Interspeech 2018的卫星会议。本次赛事科大讯飞再次夺冠,约翰霍普金斯大学团队获得第二名,撒花庆祝!!!

      本届比赛在原有比赛的基础上增加了挑战,将场景定位为日常家居环境中远讲对话语音识别。所有数据全部在真实派对环境中录制,除了传统意义上的环境噪声和混响,多个说话人之间的互相重叠会极大地干扰语音识别的性能,高于80%字错误率(Word Error Rate)的基线系统充分佐证了该比赛的难度。本届挑战赛共有两个项目,分别是四元单麦克风阵列,以及6个四元麦克风分布式阵列语音分离和英文识别任务。

      约翰霍普金斯大学联合日本日立公司语音团队通过深入的合作与讨论,参与了所有项目的排名,并全部获得了第二名的佳绩,并是所有参赛科研单位中的第一。


(上图为CHiME比赛结果)

     

      除了以上几点,这次会议还着重报告了说话人识别、混合语言识别系统、关键词监测等。无一例外的是,这些都需要丰富的标记训练数据支撑。

      而我们爱数智慧就是一家专门为AI大神们提供精准、专业的标记训练数据的企业。成立至今,合作过的企业均与我们保持紧密的合作关系,这就是大神们对我们数据的肯定。

      还是那句话,要ai数据,找爱数智慧!


彩蛋

      让我们热烈祝贺昆山杜克大学电子与计算机工程系教授李明获得“best paper in interspeech 2018”!!!




上一篇:实体融合新动能 数字经济新发展 ——2018中国国际大数据大会在京盛大开幕 下一篇:爱数智慧亮相InsurTech Plus 2018,为保险科技数字化助力
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

imagicdatatech.com Beijing MAGIC DATA Co., Ltd.