马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
唇读是人类一项独特的技艺,也是非常困难的一件事,它对于语言语境和知识理解的要求并不亚于视觉上的线索,然而AI又一次超越人类,成功征服了这个超高技艺。本文海云君要向大家介绍谷歌的AI 唇语识别系统究竟有多神奇。 真的不敢相信人类这么牛逼,现在连AI读唇系统都搞出来了。也就是说给出某个特定的视频素材,这个系统可以根据画面里人物的唇形动变来判断这个人说了什么话。 先来看以下几张图 图中字幕是由谷歌AI通过唇读实时同步输出,电视节目中的语速是相当快的,难度可想而知。 据外媒(Gadgets)报道,人工智能技术近年来突飞猛进,现在谷歌的AI在语言理解能力更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译(Multilingual Neural Machine Translation)也将显著提高翻译质量。 谷歌DeepMind部门和牛津大学的研究者这次使用总长超过5000小时,使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各类节目,包括 Newsnight、BBC Breakfast、Question Time 等,总语句超过118,000的新闻视频对 AI 系统进行训练,然后使用 2016 年 3 月 - 9 月间播出的节目进行 AI 性能测试。 测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率,而AI系统识别正确率是46.8%,高出了大概整整3倍的准确率。 而且 AI 所犯错误中有很多其实无关紧要,比如在复数后面漏掉一个“s”之类。不过哪怕是这样,AI 还是完虐了人类唇读专家。 人工智能业内专家称,“这绝对是建构全自动唇读系统的第一步!现有的各类庞大数据库完全可以支持深度学习技术的发展。” 两周前,牛津大学曾开发了一个类似的深度学习系统LipNet,这套系统当时就以93.4%对52.3%大比分击败了人类唇读专家,但还不太说明问题,毕竟,LipNet和人类的竞赛是基于GRID语料库,这个数据库只包含51个特殊词汇。 而DeepMind这次选取的BBC节目数据库却包含了惊人的17500个特殊词汇,对人工智能来说,这无疑是艰巨的挑战。 一起来看看谷歌AI的读唇术: 来自牛津大学 LipNet 研究团队的Yannis Assael对此技术的评价是:“我们相信AI唇读技术是一种非常实用的辅助性技术,比如更智能的助听器、不便出声的公共场合(Siri再也不用听见你的声音了),以及在嘈杂环境下精准的语音识别等。
|