AD
首页 > 头条 > 正文

智能语音的“200万像素时代”:群狼环伺在争什么?-科技频道-金鱼财经网

[2021-02-28 03:32:49] 来源: 编辑:wangjia 点击量:
评论 点击收藏
导读:本报记者骆轶琪深圳报道当用语音转换文字取代手动打字输入成为一种趋势,在家中对着智能音箱或者手机喊一声“嗨,xxx”成为日常,智能语音助手已经更大范围地进入到我们生活中。从起初的热闹到今天,语音交互不再

本报记者骆轶琪深圳报道

当用语音转换文字取代手动打字输入成为一种趋势,在家中对着智能音箱或者手机喊一声“嗨,xxx”成为日常,智能语音助手已经更大范围地进入到我们生活中。

从起初的热闹到今天,语音交互不再神秘。相反随着实践的深入,一些bug也相继出现,比如需要重复唤醒,难以形成连贯逻辑,容易被“误唤醒”等。

“语音交互有一个过程,现在是到了100-200万像素的时代,但我们的手机摄像头实际上已经达到4000万像素左右,所以这个过程还是很难的。”近日,云知声董事长兼CTO梁家恩这样告诉记者。

一位业内人士则向记者表示,如何让芯片准确捕捉到声音并收纳运算,撇除周围环境音的干扰,这是基本功,也是智能语音行业最难的关键点。

从能够识别短语句到逐步识别长语句、远场语音,智能语音仍处在早期摸索的阶段。但竞争者却越来越多,除了百度、阿里等互联网巨头,OPPO、vivo等手机巨头也在成立的研究院中加入对AI的探索,智能语音助手是必不可少的研究范畴;更别说专注于AI研究的各类创业公司。

IDC中国新兴技术研究部高级研究经理卢言霞就向记者指出,相比之下,创业类公司会面临较大的经营压力,在研发投资、生态打造方面这类公司都不如大型平台。这是智能语音创业公司需要从战略层面考虑的要点。

“200万像素时代”

你是否经历过这样的情形:在跟人打着电话,突然旁边插着电的智能音箱突然跟你对话起来。

这就是典型的“误唤醒”情形,也是智能语音应用场景中常用来举例“准确率不高、不太智能”的一个代表。

AI在智能语音层面的发展时间不长却也不短。2006年,DBN(深度置信网络)被应用到神经网络中,成为深度学习网络元年,也造就了这项今天论及AI必谈的一大核心基础技术。在此基础上,应用分支之一的语音识别在随后率先发展起来。

2001年,苹果发布的iPhone4S中搭载了语音助手Siri,让这项技术开始初步走进大众视野;2014年,亚马逊推出智能音箱Echo,使语音交互从近场推向了远场,也即把交互距离推到了五米范围内。这一年也成为前端处理技术与后端语音识别结合的元年。

随着近年来的加速推进,在学术上,这类技术的识别准确率已经达到接近99%甚至更高,但应用过程中仍存在一定差别。

梁家恩就指出,语音识别产业的应用没有那么乐观,准确率约在95%左右。在他的定义中,语音交互目前仅处在100-200万像素时代。

他向记者解释道,AI应用的落地情况与活跃数据的量级息息相关,“作为学术研究已经很充分了,但对于产业来说,必须要有上亿规模的标注量。因此研究方法也更复杂,要更针对性解决问题。最早收集的数据量是有限的。”

随着产业化需求的深入,近年来相关厂商也在多模态融合、自研芯片层面不断推进,其根本还是在完善收音准确度层面。

“语音最核心就在准确收音部分。这里难度太大了,还没有人能做得很好。因为你要更好的性能,必然要在功耗、成本和芯片大小方面平衡。”前述业内人士向21世纪经济报道记者如是分析,这是智能语音公司也要投入芯片的原因所在,否则传统的CPU根本无法带动运算。而在一定距离的远场环境下,早期应用刚开始探索时,如果不加任何前端处理技术,识别和唤醒将几乎不可用。

卢言霞也告诉记者,语义理解有很大的技术门槛,这在全球都一样。“早期是发展短语音识别,或者家居场景的唤醒、查询。但现在的技术并不足以支撑完整句子的语义理解。”她认为,真正实现对话还有很长一段路要走。

从这个层面来看,学界正热烈探讨的深度学习模型面临“瓶颈”这一问题,对于AI应用来说还远远触不到。

梁家恩也表示,人脑存在复杂的认知机制,但深度学习最擅长解决的是从序列到序列的映射,“比如输入一个内容,我提供很多样本,AI可以把关联关系建立起来,这是它擅长的。但语义不是简单的一对一映射问题,还得有背景知识,否则就不能准确理解。”到目前科学家也没有解决这些问题,所以未来的研究还有很长的路要走。

群雄对战“语音”校场

应用诉求的爆发,催生了诸多不同背景的厂商相继进场搏杀。

不止互联网巨头在智能音箱的投入,各类智能硬件公司也在铺设自己的AI团队,智能语音技术是其中必不可少的一部分。比如OPPO近期正式运用到新系列手机中的breeno,vivo去年搭载的Jovi,都是刚推出商用不久的智能语音助手。

前述业内人士向记者分析,“语音和图像识别本质都属于对结构化数据的分析。深度神经网络最主要的特点,就是标注结构化数据。至于为什么突然觉得大家都开始做语音识别,是因为Arm(半导体知识产权提供商)开源了最新的相关算法,降低了语音识别的门槛。”

参与者越来越多,会让这个市场变得更拥挤吗?卢言霞认为,从纯语音技术角度看,AI创业公司的压力不言而喻。因此包括思必驰和云知声在内的厂商,分别从各自原本擅长的智能家居和汽车后装、医疗和教育,延伸到企业级服务和芯片业务开展等方面。相比之下,如百度、阿里等平台类厂商,在研发投资、市场资源和生态建设方面都更具备优势,这些平台之间比拼的则是接入设备数量和相关生态的打造。

不过梁家恩有自己的评估。他向21世纪经济报道记者表示,类似情况曾在2000年左右发生过一次,即大部分手机厂商都组建了自己的语音团队,但后来发现并没有解决太多实际问题,“自己养一个团队还不如引入市场上标准化的产品”。

“语音交互技术还在演进阶段,出现这种现象很正常。等技术落地验证通了,巨头肯定会围绕主营业务中的关键环节自己进行投入。”梁家恩分析道。

技术层面的改变也将到来。比如5G时代,对于边缘计算有了更大诉求之后,IT架构设计、运算方式也将随之改变。

为此,梁家恩向记者分析道,“我们的判断是,必须要考虑边缘计算或者边缘智能是很重要的因素所在,这也是芯片业务重要的原因。边缘会要有一些处理能力,真正需要云端服务的时候再联网上云。这种模式我觉得是未来的必然趋势。”(编辑:张伟贤)


董明珠:自己开网店不到一个月就卖了200多万元 阿里云代码泄露:涉万科等40余家企业,200余项目重要信息
查看更多:

为您推荐