最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

不听声音也知道你要说什么,唇语识别就是这么神奇

[复制链接]
跳转到指定楼层
楼主
发表于 2017-3-29 11:53:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
唇读是人类一项独特的技艺,也是非常困难的一件事,它对于语言语境和知识理解的要求并不亚于视觉上的线索,然而AI又一次超越人类,成功征服了这个超高技艺。本文海云君要向大家介绍谷歌的AI 唇语识别系统究竟有多神奇。
  真的不敢相信人类这么牛逼,现在连AI读唇系统都搞出来了。也就是说给出某个特定的视频素材,这个系统可以根据画面里人物的唇形动变来判断这个人说了什么话。
  先来看以下几张图
  图中字幕是由谷歌AI通过唇读实时同步输出,电视节目中的语速是相当快的,难度可想而知。
  据外媒(Gadgets)报道,人工智能技术近年来突飞猛进,现在谷歌的AI在语言理解能力更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译(Multilingual Neural Machine Translation)也将显著提高翻译质量。
  谷歌DeepMind部门和牛津大学的研究者这次使用总长超过5000小时,使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各类节目,包括 Newsnight、BBC Breakfast、Question Time 等,总语句超过118,000的新闻视频对 AI 系统进行训练,然后使用 2016 年 3 月 - 9 月间播出的节目进行 AI 性能测试。
  测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率,而AI系统识别正确率是46.8%,高出了大概整整3倍的准确率。
  而且 AI 所犯错误中有很多其实无关紧要,比如在复数后面漏掉一个“s”之类。不过哪怕是这样,AI 还是完虐了人类唇读专家。
  人工智能业内专家称,“这绝对是建构全自动唇读系统的第一步!现有的各类庞大数据库完全可以支持深度学习技术的发展。”
  两周前,牛津大学曾开发了一个类似的深度学习系统LipNet,这套系统当时就以93.4%对52.3%大比分击败了人类唇读专家,但还不太说明问题,毕竟,LipNet和人类的竞赛是基于GRID语料库,这个数据库只包含51个特殊词汇。
  而DeepMind这次选取的BBC节目数据库却包含了惊人的17500个特殊词汇,对人工智能来说,这无疑是艰巨的挑战。
  一起来看看谷歌AI的读唇术:
  来自牛津大学 LipNet 研究团队的Yannis Assael对此技术的评价是:“我们相信AI唇读技术是一种非常实用的辅助性技术,比如更智能的助听器、不便出声的公共场合(Siri再也不用听见你的声音了),以及在嘈杂环境下精准的语音识别等。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-15 13:07

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表