编译:彭湘伟、吕征达、小明同学、林海、Yawei Xia
假设你在2017年昏睡了一年,忽然惊醒的时候,想要了解这个世界在今年有哪些最值得骄傲的成就,这篇文章值得你花几十分钟读一读。
这一年,谷歌发布了Google Translate的新模型,并详细描述了网络结构——循环神经网络。Facebook的聊天机器人,因为失控创造了自己的语言被关闭。DeepMind 的研究员在他们的文章中展示了如何生成语音。一个已经成功超越人类的深度学习成就叫做唇语识别。
本文将带你浏览2017年几乎所有最有意义的AI研究,从文本、语音、计算机视觉到强化学习和最重要的新闻。
其中的大部分事件,文摘菌都在其发生之时做过相关报道,回忆起来,感慨万分,我们也在相应部分附上了报道链接,方便查看细节。
1:文本
1.1谷歌神经机器翻译
大约一年前,谷歌发布了Google Translate的新模型,并详细描述了网络结构——循环神经网络。
链接:
http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4
关键成果:与人类翻译的准确率之差缩小了55%-85% (研究者使用6分制打分标准评估得到)。如果不依赖谷歌庞大的数据库进行训练,这一结果很难复现。
你可能听过这个谣言:Facebook的聊天机器人,因失控创造自己的语言而被关闭。
点击查看大数据文摘相关报道《Facebook谋杀“失控”机器人?一个常见bug引发的恐慌闹剧》
该聊天机器人原本被设计用来谈判,其目的是与其他机器人(代理)进行文本谈判并达成协议:
如何在两个人之间分配物品(书籍和帽子等)。每一个机器人(代理)有对方不掌握的交易信息。同时,谈判的设定是不达成交易就不终止。
他们收集了一个人类谈判的数据库,并训练出了一个监督式的循环网络。随后,他们让强化训练后的机器人,通过自我对话的方式继续训练,直到与人类语言近似到一定程度为止。
该机器人已经学会了一种真正的谈判技巧——对交易中的某些因素假装表现出兴趣,随后仅仅通过牺牲它们来达成真正目的。
新闻里声称机器人发明了一种新语言,这种说法有点过于夸张。当用同一个机器人来训练的时候,它没有被限制必须用与人类语言,所以算法进行了一些变异,这很正常。
http://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4
在过去的一年里,循环网络得到了很大的改进,并被应用于诸多领域。RNN的结构也越来越复杂,但是在某些领域,简约前向网络(DSSM)都取得了相似的结果。例如,在邮件智能回复方面,谷歌取得了与LSTM之前一样的效果。另外,Yandex基于这套网络,发布了新的搜索引擎。
2:语音
2.1:WaveNet,一种针对音源的生成模型
DeepMind 的研究员在他们的文章中展示了如何生成语音。简单的说,他们基于之前生成图像的方法,PixelRNN 和PixelCNN,创造了一个自回归全卷积的WaveNet模型。
如果去掉对文字输入的依赖,仅仅基于前期产生的语音,该网络会产生出类似人类的语言。但这样并没有实际意义。
这一模型不仅仅可以用于语音生成,也可以用于音乐创作。设想,在不依赖输入数据的情况下,仅仅被钢琴游戏的数据库训练,该模型便可生成音频。
2.2:唇语识别
唇语识别是另外一个已经成功超越人类的深度学习成就。
点击查看大数据文摘相关报道《谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)》
《Lip ReadingSentences in the Wild》。Google Deepmind 在这篇于牛津大学合作发表的论文中,公布了他们给予电视数据训练的模型。该模型性能超越了BBC频道专业的唇语阅读员。
华盛顿大学进行了一项研究,以合成美国前总统奥巴马的嘴唇动作。选择他为对象的原因在于,在网络上有大量他的视频(17小时的高清视频)。
点击查看大数据文摘相关报道《你看到的可能是假的奥巴马?没错,还真是假的!》
也许不久的将来,即使是总统演讲视频都有可能是合成的。
3.计算机视觉
3.1:OCR——谷歌地图和街景
谷歌大脑团队在他们公布的文章中,介绍了他们如何将新一代OCR(光学字符识别)引擎引入谷歌地图中,以实现街道标志和店铺标志的自动识别。
点击查看大数据文摘相关报道《超级实习生Ian Goodfellow留给谷歌地图的算法被完善,识别800亿街景图文字(附论文)》
为了识别出每一个标志,网络模型最多使用了标志的四张图片。特征通过CNN提取后,经过空间变化(考虑像素坐标)再输入到LSTM模型中。
3.2:视觉推理
另一种称做视觉推理的任务,是要让神经网络利用图片中信息来回答问题。例如:图片中有于黄色金属圆柱体一般大的橡胶物品么?这种问题对算法来讲很难,到目前为止,准确率只有68.5%。
本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。