在网易有道做语音算法工程师是一种怎样的体验?

鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI

一个成立不到两年的团队,两个初入职场的新人,杀入顶会挑战赛能拿下怎样的成绩?

时限是,10天。

近日,全球语音顶会INTERSPEECH 2020「口音英语语音识别挑战赛」结果公布,一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名。

参赛选手是这位:

在网易有道做语音算法工程师是一种怎样的体验?

△大耳朵图图本喵

啊不,其实来自他们当中。

在网易有道做语音算法工程师是一种怎样的体验?

说起网易有道与AI语音技术相关的产品,大家或许都不陌生,比如丁磊多次安利、上市都带着的有道词典笔……

相比在市场上取得的认可,许多人可能不会想到,有道AI语音背后的团队非常年轻:成立不到两年,大部分都是应届生,来自知名语音实验室,或者海外高校深造项目。

「参赛其实是验证技术方案」

此次拿奖的时来和Harry Wu(均为花名),就是今年7月刚刚加入网易有道的应届生。

在网易有道做语音算法工程师是一种怎样的体验?

事实上,打这场比赛,对于他们而言更像是一次对工作成果的「突击测验」:被通知要参赛时,距离提交测试结果的截至日期只剩下10天了。

时间紧迫,两人临时组队,又是代表团队第一次出征算法赛事,但在心态上他们倒还真一点也不慌。

用有道之前积累的技术去参赛,10天也足够了。

攻坚克难了这么久,是时候拿出来检验一下了。

INTERSPEECH 2020「口音英语语音识别挑战赛」由中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家重量级机构联合举办,共分为两个赛道:

Track1是口音种类识别,参赛者需要使用官方提供的各种口音英语训练数据,训练语种分类模型。

Track2则是口音英语语音识别,参赛者需要使用规则限定的训练数据,训练语音识别模型。

在网易有道做语音算法工程师是一种怎样的体验?

简单来说,一方面是要做英语口音的分类,另一方面是要做语音识别,把带口音的英语语音转成文字。

时来和Harry的工位就挨在一起,两人当即一合计,觉得在语音识别方面,基本可以原封不动地用上现成的技术——有道词典、精品课、云笔记等一系列产品里都有ASR技术的身影,平时的研发工作中,早已经考虑到了复杂口音的情况,识别准确率和响应速度都是经过实战检验的。

而在口音分类这个比较新颖的任务上,他们正在研究中的多语种技术方案正好能够派上用场:

原来会觉得相关的技术方案还处在实验室阶段,要实际应用起来还需要学术界进一步验证。但既然比赛有这个机会,正好可以拿这个方法试验一下。

程序员打比赛,就是直接开干,效率拉满——就在工位上随时讨论。而事后两人回想起来,印象最深的不是时间有多紧、加了多少班,恰恰是设计算法、测试结果的这个过程:

一开始,在口音分类这个全新的任务上,两人想到这会跟说话人的特征有比较强的相关性。而在引入这一信息之后,他们的方案还真在开发集上取得了令人惊喜的效果。

但在测试集开放之后,进一步的验证结果却差强人意。直到比赛结束,测试集公布,他们才发现测试集里说话人的数目,是训练集和开发集加起来的差不多10倍,即一个说话人非常复杂的场景。

虽说碰上了这样那样的小波折,但其实对于两位语音算法工程师而言,这反而更加坚定了他们攻关AI语音技术的决心:语音领域技术相对成熟,但远没有到「做完了」的程度,现实的复杂场景、各种各样的噪音、方言口音,都仍有值得钻研之处。

至于最后的结果,其实可以说是「两全其美」。

在网易有道做语音算法工程师是一种怎样的体验?

虽然准备还是有些仓促,没能拿下冠军,但对初出茅庐的网易有道语音团队而言,面对强劲的业内对手,首次「出击」能拿到顶会挑战赛的二等奖,还是证明了现有技术方案可行、新的设想值得进一步推动。

另一方面,团队组长孙艳庆也坦承,参与比赛对整个语音团队来说,学习到了行业中新的想法和技术,打开了后续开发的新思路。

「秘诀」:技术以落地为导向

其实比起单纯去打比赛、发论文,如果和一线的开发者们多聊聊,就能明显地感觉到,网易有道的这支语音团队是非常务实的——以技术落地为导向,以用户反馈为指标。

孙艳庆谈到,在内部,技术方案的推动一般有两种途径。

一种是来自业务端的需求。技术团队要做的,是去评估现有的技术是否能够解决问题,并真正落地到产品中,给用户带来优质的体验。

另一种则来自于工程师们对新技术、新用户需求的敏感度。如果判断一种新技术会被大规模地应用,技术团队也会提前进行相应的布局。

而评价成果的指标则更为直接:用户体验

这种脚踏实地的作风,也给时来、Harry这样的职场新人留下了深刻的印象。

我们大部分的技术,最终都会聚焦到非常具体的产品上面。不会去做在将来一段时间看来,意义不是很大的一些事情。

技术如果只是停留在学术层面上,就没办法真正流行、发展起来。落地对于技术而言是一个非常非常核心的点。

解决用户切实的问题,解决产品中的痛点,或许正是在这样的导向之下,虽然团队仅成立了不到两年的时间,但在产品层面,网易有道在语音方面的许多技术点已经跻身行业前列。

比如语音识别(ASR)。以网易有道词典为例,对话翻译、发音指导,各种功能的实现都离不开精准的语音识别。而经过测试,有道语音识别技术在一些场景上识别准确率超过98%,并且,不止支持中文、英文,还支持日、韩、法、德等多种语言。

在网易有道做语音算法工程师是一种怎样的体验?

在语音合成(TTS)方面,有道语音合成引擎音色逼近真人,同样支持中、英、日、韩、葡等多种语言。在过硬的技术基础之上,今年9月,有道词典还用TTS技术实现了王源明星语音的上线,效果受到了用户的广泛好评。

并且,为了更好地服务于产品,这支规模并不算大的团队,覆盖的技术点却很全面:从录音、拾音环节开始,到中间的语义理解,再到语音识别合成,都有涉及。可以说,在技术上已经形成了比较完整的链条。

把「脚踏实地」写进价值观的团队

事实上,能以一支小而精的团队支撑起复杂业务背后的核心算法,团队内部的氛围是技术实力之外的另一个重要影响因素。

如果你问有道语音团队的工程师们这支团队的特点是什么,就能获得这样几个关键词:年轻、活泼、脚踏实地。

因为年轻、活泼,即使是新人融入起来也完全没有压力,不管是技术的交流还是平时的相处,都可以畅所欲言。

另一方面,虽然团队成员们普遍年纪不大,却个个「身怀绝技」。作为组长,孙艳庆认为,一个脚踏实地的团队,应该给每个人充分的才华施展空间,而在这个空间之下,大家潜心钻研技术,在专注于自己侧重点的情况下,去突破个人的局限。

在网易有道做语音算法工程师是一种怎样的体验?

脚踏实地的价值观延续在整个有道AI团队。不仅是在语音方面,有道的AI能力还覆盖神经网络翻译(NMT)、图像识别(OCR)和自适应教育等等。

并且,其发力深耕的这些AI技术,都切切实实落在了产品上,让C端用户有了最直观的体验:

NMT翻译准确率行业领先,支持12种语言的中文互译,9种语言的英文互译。

OCR可以帮助实现线下学习资料在线化。对中文文本的识别准确度达到97.5%,对英语文字的识别准确度为95.3%,对中英文混合文本的识别准确度为96.2%,已经支持102种主流语言文字识别。

AI行业已经过了风口飞猪的时代,愈加务实的市场更加看重技术的落地。当泡沫散去,唯有脚踏实地的团队才能在一代代产品的稳定推出中,扎实生根。

也正是因为这样的氛围,在毕业之际,时来、Harry等人毫不犹豫地拒绝了其他offer,选择加入网易有道。

嗯,一定不是因为这里经常聚众吸猫。

— 完 —

量子位 QbitAI · 头条号签约

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/20602.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月11日 09:16
下一篇 2022年6月11日 09:17

相关推荐

  • 中国移动(600941.SH)发布6G网络架构技术白皮书我国2030年左右有望实现6G商用下一个东方通信会是谁?

    5G到了,6G还会远吗? 6月21日,智通财经APP获悉,国内三大通信巨头之一的中国移动(600941.SH)(00941)发布《中国移动6G网络架构技术白皮书》(简称白皮书),提出三体四层五面6G总体架构设计。据了解,架构是移动通信系统的骨骼和中枢,具有至关重要的作用。这也是业界首次系统化的6G网络架构设计。 《白皮书》通过对驱动力、研判、理念的系统性分析…

    智能科技 2022年6月27日
    2300
  • 深圳市同洲电子股份有限公司关于股票可能被实施退市风险警示的第三次风险提示公告

    股票代码:002052 股票简称:ST同洲 公告编号:2022-013 本公司及董事会全体成员保证信息披露的内容真实、准确、完整,没有虚假记载、误导性陈述或重大遗漏。 特别提示: 一、股票可能被实施退市风险警示的情况说明 根据《深圳证券交易所股票上市规则(2022年修订)》第9.3.1条第一款的规定,上市公司出现(一)最近一个会计年度经审计的净利润为负值且营…

    智能科技 2022年6月28日
    2700
  • 动力更强售价下降!特斯拉新ModelY来了:等等党惊喜

    4月13日,据Drive Tesla Canada报道,日前特斯拉向其员工发了一封邮件,内容显示美国得克萨斯州奥斯汀工厂生产的标准续航版Model Y起售价为5.999万美元(约合人民币38.1万元)。虽然这封邮件的内容并未对外公布,但Drive Tesla表示看到过这封邮件,可以确认其真实性。 目前首批在得州工厂生产的Model Y仅向内部员工交付,5.9…

    2022年6月21日
    3500
  • 北京银行加速数字化转型普惠金融“贷”动小微企业驶入高速路

    北京银行大厦。 目前,中国市场主体已超过1.5亿户,其中小微企业和个体工商户就超过1.2亿户,他们是我国经济活动的主要参与者、就业机会的主要提供者、技术进步的主要推动者,也是国家发展的宝贵财富和人民幸福的重要依托。 而普惠金融则似一泓清泉,成为小微企业发展的源头活水。在当前背景下,如何更好为广大小微企业纾困解难,已经成为中国经济实现稳中求进的关键所在。 北京…

    2022年6月18日
    3200
  • 张一鸣退出字节跳动董事会,梁汝波与八名核心高管走向前台

    新的环境,新的架构,新的董事长与 CEO。 文 | 高洪浩 时娴 贺乾明 陈晶 编辑 | 黄俊杰 宋玮 成立九年多,字节跳动和它的创始人张一鸣终于等来了延迟的满足。 教育线裁员 5000 多人、负责广告的商业化部门裁撤多地销售中心,字节多个业务或缩减规模或减少招聘。各业务不再以无尽投入追求无尽增长,它的员工理论上也可以在每天晚上 7 点下班。 张一鸣也有了久…

    2022年6月10日
    3300

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信