AD
首页 > 头条 > 正文

2017年你错过了哪些AI圈大事?最全盘点,值得收藏! -科技频道-金鱼财经网

[2021-02-26 23:16:09] 来源: 编辑:wangjia 点击量:
评论 点击收藏
导读:大数据文摘作品编译:彭湘伟、吕征达、小明同学、林海、Yawei Xia假设你在2017年昏睡了一年,忽然惊醒的时候,想要了解这个世界在今年有哪些最值得骄傲的成就,这篇文章值得你花几十分钟读一读。这一年
大数据文摘作品 大数据文摘作品

编译:彭湘伟、吕征达、小明同学、林海、Yawei Xia

假设你在2017年昏睡了一年,忽然惊醒的时候,想要了解这个世界在今年有哪些最值得骄傲的成就,这篇文章值得你花几十分钟读一读。

这一年,谷歌发布了Google Translate的新模型,并详细描述了网络结构——循环神经网络。Facebook的聊天机器人,因为失控创造了自己的语言被关闭。DeepMind 的研究员在他们的文章中展示了如何生成语音。一个已经成功超越人类的深度学习成就叫做唇语识别。

本文将带你浏览2017年几乎所有最有意义的AI研究,从文本、语音、计算机视觉到强化学习和最重要的新闻。

其中的大部分事件,文摘菌都在其发生之时做过相关报道,回忆起来,感慨万分,我们也在相应部分附上了报道链接,方便查看细节。

1:文本

1.1谷歌神经机器翻译

大约一年前,谷歌发布了Google Translate的新模型,并详细描述了网络结构——循环神经网络。

链接:

http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

关键成果:与人类翻译的准确率之差缩小了55%-85% (研究者使用6分制打分标准评估得到)。如果不依赖谷歌庞大的数据库进行训练,这一结果很难复现。

你可能听过这个谣言:Facebook的聊天机器人,因失控创造自己的语言而被关闭。

点击查看大数据文摘相关报道《Facebook谋杀“失控”机器人?一个常见bug引发的恐慌闹剧》

该聊天机器人原本被设计用来谈判,其目的是与其他机器人(代理)进行文本谈判并达成协议:

如何在两个人之间分配物品(书籍和帽子等)。每一个机器人(代理)有对方不掌握的交易信息。同时,谈判的设定是不达成交易就不终止。

他们收集了一个人类谈判的数据库,并训练出了一个监督式的循环网络。随后,他们让强化训练后的机器人,通过自我对话的方式继续训练,直到与人类语言近似到一定程度为止。

该机器人已经学会了一种真正的谈判技巧——对交易中的某些因素假装表现出兴趣,随后仅仅通过牺牲它们来达成真正目的。

新闻里声称机器人发明了一种新语言,这种说法有点过于夸张。当用同一个机器人来训练的时候,它没有被限制必须用与人类语言,所以算法进行了一些变异,这很正常。


2017年你错过了哪些AI圈大事?最全盘点,值得收藏! 文章链接:

http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

在过去的一年里,循环网络得到了很大的改进,并被应用于诸多领域。RNN的结构也越来越复杂,但是在某些领域,简约前向网络(DSSM)都取得了相似的结果。例如,在邮件智能回复方面,谷歌取得了与LSTM之前一样的效果。另外,Yandex基于这套网络,发布了新的搜索引擎。

2:语音

2.1:WaveNet,一种针对音源的生成模型

DeepMind 的研究员在他们的文章中展示了如何生成语音。简单的说,他们基于之前生成图像的方法,PixelRNN 和PixelCNN,创造了一个自回归全卷积的WaveNet模型。


2017年你错过了哪些AI圈大事?最全盘点,值得收藏!该网络被以点到点的方式训练:文本作为输入,语音作为输出。最终研究人员取得了极好的结果。在语音生成方面,机器人与人类的差距缩小了50%。
该网络的主要缺陷在于效率低下。因为使用了自回归技术,音频是按顺序生成,并且每1-2分钟,才能生成一秒语音。 该网络的主要缺陷在于效率低下。因为使用了自回归技术,音频是按顺序生成,并且每1-2分钟,才能生成一秒语音。

如果去掉对文字输入的依赖,仅仅基于前期产生的语音,该网络会产生出类似人类的语言。但这样并没有实际意义。

这一模型不仅仅可以用于语音生成,也可以用于音乐创作。设想,在不依赖输入数据的情况下,仅仅被钢琴游戏的数据库训练,该模型便可生成音频。

2.2:唇语识别

唇语识别是另外一个已经成功超越人类的深度学习成就。

点击查看大数据文摘相关报道《谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)》

《Lip ReadingSentences in the Wild》。Google Deepmind 在这篇于牛津大学合作发表的论文中,公布了他们给予电视数据训练的模型。该模型性能超越了BBC频道专业的唇语阅读员。


该数据集包括10万条配有音频和视频的语句。LSTM训练音频,CNN+LSTM训练视频。最后将两者的状态向量作为最终LSTM模型的输入,以产生文字输出。 该数据集包括10万条配有音频和视频的语句。LSTM训练音频,CNN+LSTM训练视频。最后将两者的状态向量作为最终LSTM模型的输入,以产生文字输出。


训练中,使用不同的数据类型,包括音频,视频以及音频+视频。换句话说,这是个多渠道模型。 训练中,使用不同的数据类型,包括音频,视频以及音频+视频。换句话说,这是个多渠道模型。


2.3:合成奥巴马——从音频中同步嘴唇动作 2.3:合成奥巴马——从音频中同步嘴唇动作

华盛顿大学进行了一项研究,以合成美国前总统奥巴马的嘴唇动作。选择他为对象的原因在于,在网络上有大量他的视频(17小时的高清视频)。

点击查看大数据文摘相关报道《你看到的可能是假的奥巴马?没错,还真是假的!》


他们不能过多地直接使用网络模型输出的合成画面。因此,论文的作者使用了一些技巧来改善纹理的时间方面的问题。 他们不能过多地直接使用网络模型输出的合成画面。因此,论文的作者使用了一些技巧来改善纹理的时间方面的问题。


效果如此令人震惊。 效果如此令人震惊。

也许不久的将来,即使是总统演讲视频都有可能是合成的。

3.计算机视觉

3.1:OCR——谷歌地图和街景

谷歌大脑团队在他们公布的文章中,介绍了他们如何将新一代OCR(光学字符识别)引擎引入谷歌地图中,以实现街道标志和店铺标志的自动识别。

点击查看大数据文摘相关报道《超级实习生Ian Goodfellow留给谷歌地图的算法被完善,识别800亿街景图文字(附论文)》


2017年你错过了哪些AI圈大事?最全盘点,值得收藏! 在开发过程中,谷歌解码了新的FSNS(法语街道名标示),有很多复杂的场景。

为了识别出每一个标志,网络模型最多使用了标志的四张图片。特征通过CNN提取后,经过空间变化(考虑像素坐标)再输入到LSTM模型中。


相似的方法被用于识别布告牌中店铺名称的的项目。但是该项目的图像数据有很多无关信息,网络模型必须对焦正确的信息进行读取。这一算法已经被应用于800亿张图片上。 相似的方法被用于识别布告牌中店铺名称的的项目。但是该项目的图像数据有很多无关信息,网络模型必须对焦正确的信息进行读取。这一算法已经被应用于800亿张图片上。

3.2:视觉推理

另一种称做视觉推理的任务,是要让神经网络利用图片中信息来回答问题。例如:图片中有于黄色金属圆柱体一般大的橡胶物品么?这种问题对算法来讲很难,到目前为止,准确率只有68.5%。

  本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。

查看更多:

为您推荐