2017年你错过了哪些AI圈大事？最全盘点，值得收藏！ -科技频道-金鱼财经网

[2021-02-26 23:16:09] 来源：编辑：wangjia 点击量：

评论 点击收藏

导读：大数据文摘作品编译：彭湘伟、吕征达、小明同学、林海、Yawei Xia假设你在2017年昏睡了一年，忽然惊醒的时候，想要了解这个世界在今年有哪些最值得骄傲的成就，这篇文章值得你花几十分钟读一读。这一年

大数据文摘作品

编译：彭湘伟、吕征达、小明同学、林海、Yawei Xia

假设你在2017年昏睡了一年，忽然惊醒的时候，想要了解这个世界在今年有哪些最值得骄傲的成就，这篇文章值得你花几十分钟读一读。

这一年，谷歌发布了Google Translate的新模型，并详细描述了网络结构——循环神经网络。Facebook的聊天机器人，因为失控创造了自己的语言被关闭。DeepMind 的研究员在他们的文章中展示了如何生成语音。一个已经成功超越人类的深度学习成就叫做唇语识别。

本文将带你浏览2017年几乎所有最有意义的AI研究，从文本、语音、计算机视觉到强化学习和最重要的新闻。

其中的大部分事件，文摘菌都在其发生之时做过相关报道，回忆起来，感慨万分，我们也在相应部分附上了报道链接，方便查看细节。

1：文本

1.1谷歌神经机器翻译

大约一年前，谷歌发布了Google Translate的新模型，并详细描述了网络结构——循环神经网络。

链接：

http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

关键成果：与人类翻译的准确率之差缩小了55%-85% （研究者使用6分制打分标准评估得到）。如果不依赖谷歌庞大的数据库进行训练，这一结果很难复现。

你可能听过这个谣言：Facebook的聊天机器人，因失控创造自己的语言而被关闭。

点击查看大数据文摘相关报道《Facebook谋杀“失控”机器人？一个常见bug引发的恐慌闹剧》

该聊天机器人原本被设计用来谈判，其目的是与其他机器人（代理）进行文本谈判并达成协议：

如何在两个人之间分配物品（书籍和帽子等）。每一个机器人（代理）有对方不掌握的交易信息。同时，谈判的设定是不达成交易就不终止。

他们收集了一个人类谈判的数据库，并训练出了一个监督式的循环网络。随后，他们让强化训练后的机器人，通过自我对话的方式继续训练，直到与人类语言近似到一定程度为止。

该机器人已经学会了一种真正的谈判技巧——对交易中的某些因素假装表现出兴趣，随后仅仅通过牺牲它们来达成真正目的。

新闻里声称机器人发明了一种新语言，这种说法有点过于夸张。当用同一个机器人来训练的时候，它没有被限制必须用与人类语言，所以算法进行了一些变异，这很正常。

文章链接：

http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

在过去的一年里，循环网络得到了很大的改进，并被应用于诸多领域。RNN的结构也越来越复杂，但是在某些领域，简约前向网络（DSSM）都取得了相似的结果。例如，在邮件智能回复方面，谷歌取得了与LSTM之前一样的效果。另外，Yandex基于这套网络，发布了新的搜索引擎。

2：语音

2.1：WaveNet，一种针对音源的生成模型

DeepMind 的研究员在他们的文章中展示了如何生成语音。简单的说，他们基于之前生成图像的方法，PixelRNN 和PixelCNN，创造了一个自回归全卷积的WaveNet模型。

该网络被以点到点的方式训练：文本作为输入，语音作为输出。最终研究人员取得了极好的结果。在语音生成方面，机器人与人类的差距缩小了50%。

该网络的主要缺陷在于效率低下。因为使用了自回归技术，音频是按顺序生成，并且每1-2分钟，才能生成一秒语音。

如果去掉对文字输入的依赖，仅仅基于前期产生的语音，该网络会产生出类似人类的语言。但这样并没有实际意义。

这一模型不仅仅可以用于语音生成，也可以用于音乐创作。设想，在不依赖输入数据的情况下，仅仅被钢琴游戏的数据库训练，该模型便可生成音频。

2.2：唇语识别

唇语识别是另外一个已经成功超越人类的深度学习成就。

点击查看大数据文摘相关报道《谷歌DeepMind AI再次完爆人类读唇语正确率胜专家（附论文下载）》

《Lip ReadingSentences in the Wild》。Google Deepmind 在这篇于牛津大学合作发表的论文中，公布了他们给予电视数据训练的模型。该模型性能超越了BBC频道专业的唇语阅读员。

该数据集包括10万条配有音频和视频的语句。LSTM训练音频，CNN+LSTM训练视频。最后将两者的状态向量作为最终LSTM模型的输入，以产生文字输出。

训练中，使用不同的数据类型，包括音频，视频以及音频+视频。换句话说，这是个多渠道模型。

2.3：合成奥巴马——从音频中同步嘴唇动作

华盛顿大学进行了一项研究，以合成美国前总统奥巴马的嘴唇动作。选择他为对象的原因在于，在网络上有大量他的视频（17小时的高清视频）。

点击查看大数据文摘相关报道《你看到的可能是假的奥巴马？没错，还真是假的！》

他们不能过多地直接使用网络模型输出的合成画面。因此，论文的作者使用了一些技巧来改善纹理的时间方面的问题。

效果如此令人震惊。

也许不久的将来，即使是总统演讲视频都有可能是合成的。

3.计算机视觉

3.1：OCR——谷歌地图和街景

谷歌大脑团队在他们公布的文章中，介绍了他们如何将新一代OCR（光学字符识别）引擎引入谷歌地图中，以实现街道标志和店铺标志的自动识别。

点击查看大数据文摘相关报道《超级实习生Ian Goodfellow留给谷歌地图的算法被完善，识别800亿街景图文字（附论文）》

在开发过程中，谷歌解码了新的FSNS（法语街道名标示），有很多复杂的场景。

为了识别出每一个标志，网络模型最多使用了标志的四张图片。特征通过CNN提取后，经过空间变化（考虑像素坐标）再输入到LSTM模型中。

相似的方法被用于识别布告牌中店铺名称的的项目。但是该项目的图像数据有很多无关信息，网络模型必须对焦正确的信息进行读取。这一算法已经被应用于800亿张图片上。

3.2：视觉推理

另一种称做视觉推理的任务，是要让神经网络利用图片中信息来回答问题。例如：图片中有于黄色金属圆柱体一般大的橡胶物品么？这种问题对算法来讲很难，到目前为止，准确率只有68.5%。

本文首发于微信公众号：大数据文摘。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

查看更多:

分享到微信

更多

热点专题

更多

2017年你错过了哪些AI圈大事？最全盘点，值得收藏！ -科技频道-金鱼财经网

相关文章

热点专题

为您推荐