ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

入得谷来,祸福自求。
Post Reply
德彪西
Posts: 214
Joined: 2014-12-15 0:16

ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by 德彪西 » 2014-12-20 5:56

http://www.36kr.com/p/217966.html

Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。

Skype 的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分。

图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在 2012 年,Google 让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。

微软研究员 John Platt 在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而 Skype 实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。
这一突破发生在 2009 年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾 Geoff Hinton 介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔 巨款,让 Hinton 的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了 25%。

Skype 的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献 出的语音对话也是一个非常重要的训练集数据来源。同时,Skype 的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。

在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似 的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性, 让实时翻译能够有更大的应用范围。

至于不同语言的文本翻译,Skype利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而 Skype 翻译系统不仅包括 Bing 翻译的引擎技术,还额外增加了一层口语化的语言业务。

此外,Skype 还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。

Skype 的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。微软研究院总监 Vikram Dendi 说,截止到星期一,总共已经有 5 万个用户注册了预览版 Skype 翻译,而一天后,这个数字变成了两倍。对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人为之感到激动。

[本文参考以下来源:blogs.skype.com, wired.com]
牛以后就是共产主义了!

德彪西
Posts: 214
Joined: 2014-12-15 0:16

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by 德彪西 » 2014-12-20 6:02

Sky啤真厉害,语音识别亦是我当年毕业设计的主攻方向,当时取巧打了中国牌,做的中文语音识别。音调用的过零率建模,元音辅音做边界截取后,让它们各自通过两个傅立叶频域滤波器(语音识别的常规做法),最后的模式匹配则用动态时轴翘曲和隐马可夫模型两种算法(那时候人工神经网络还不流行)。马可夫是计算量相当巨大的豪华算法,对软件布局要求极高,那时真的做到金睛火眼,完了还得写本书儿,再做一场千人演讲。这篇文让我既兴奋又疲惫,这里说的东西感觉都很亲切,只是临近毕业那年求生不得求生不能的痛是通通都回来了 :BloodyK:
Last edited by 德彪西 on 2014-12-20 8:22, edited 1 time in total.
牛以后就是共产主义了!

Knowing
Posts: 34487
Joined: 2003-11-22 20:37

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by Knowing » 2014-12-20 6:43

同声传译真是个难题,首先语音识别就难,翻译看是那两个语种之间,技术成熟度也不一样。google translate 在几个西语系之间的翻译挺靠谱的,基本能读,中日英之前就差点。
我的大学同学有些在做语音识别。百度近几年在这上面砸了不少钱,andrew ng 的组据说最近有应用deep machine learning的大突破。

http://www.forbes.com/sites/roberthof/2 ... and-apple/
有事找我请发站内消息

德彪西
Posts: 214
Joined: 2014-12-15 0:16

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by 德彪西 » 2014-12-20 8:08

所以现在是安祖吴了是吗,当时的微软亚洲研究院是做中文语音识别的龙头老大,当年的领军人物是李开复,某还战战兢兢地给李大神写过信,居然神奇地收到了回信。 :lol: 起因是要做语音库的话,有效的语音库没有价值数万美元的音频样本根本就达不到代表典型人群的有效样本数,作为一名本科生,数万美元我是没有的,但是我知道李大神那边有,也不知道当时是怎么想的,直接就写信去讨,结果李大神回信了,随信运到的是一套完整的语音库,并且一式两份,还有一套隐式马克夫的软件开发包,即俗称的SDK,里头有所有马克夫的动态库和头文件,拿来就可以用,这应该都是亚洲研究院的内部成果了。李大神并且慈祥地勉励我,要好好学习,长大要为人民立功劳,可惜现在全部都没做到 :f21:
牛以后就是共产主义了!

dropby
Posts: 10921
Joined: 2003-11-24 12:23

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by dropby » 2014-12-20 10:18

本科就做这么高深的课题,牛人。

德彪西
Posts: 214
Joined: 2014-12-15 0:16

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by 德彪西 » 2014-12-20 14:20

当年这场毕设真真切切几乎没要了我的小命,做完论文简直身心俱疲,直接后果是我一毕业便逃得校园远远的,从此没在本科程度以上在学术界有过任何建树,也没为壮丽的人类事业做出过任何贡献 :spamafote:
牛以后就是共产主义了!

Knowing
Posts: 34487
Joined: 2003-11-22 20:37

Re: ZT: 在同声传译这件事上,Skype是如何击败99.9%的地球人的?

Post by Knowing » 2014-12-21 7:48

李大神自己也跑去当风投了,你不用自责 :mrgreen:
有事找我请发站内消息

Post Reply