最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Facebook 科学家,别给算法模型喂垃圾数据了!

[复制链接]
跳转到指定楼层
楼主
发表于 2018-12-10 13:22:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
原文作者 | SAMCHARRINGTON
在最近的一次谈话中,Facebook人工智能研究科学家Moustapha Cissé告诉我,“你吃什么你就是什么,而我们正在给算法模型喂垃圾食品。”
如果你不知道食物中有什么,你就很难合理饮食。同理,如果你不理解训练数据的原理,就不能训练出偏差更小的模型。
这就是为什么最近的论文“给数据集创建数据手册” https://arxiv.org/abs/1803.09010 如此有趣的原因。在这篇论文中,来自微软研究的Timnit Gebru及其同事与来自其他学术研究机构的合著者们为数据集提出了相当于食物营养标签的标准。
很多机器学习和深度学习模型,大多倾向于使用像ImageNet或COCO 这样的公共数据集,或是私人创造的数据集,这些数据集能够将训练数据集的内容、偏差和其他相关素材传输给有兴趣的用户是非常重要的。
“数据手册”这篇论文探讨了使用标准化数据手册,将这些信息传递给数据集、商业化API和预构建模型用户的方案。除了能协助用户交流数据偏差外,作者还指出这种数据手册能够提升信息的透明度,并为数据的可靠性背书。
除了潜在的伦理问题外,当使用第三方数据进行训练的模型不能充分归纳到不同语境时,隐藏的数据偏差会造成部署系统的不可预测性,甚至失败。当然,最好的选择是收集第一方数据,并使用由该领域里具有专业知识和深刻见解的专家们构建和训练的模型。
广泛可用的公共数据集、更易上手的机器学习工具,能便捷访问的人工智能API和预购建模型促进AI民主化,使得越来越多的开发人员将AI技术运用到他们的应用中。作者建议,为AI数据集和工具创建数据手册可以为那些没有专长领域的工程师提供基础的信息,有助于减少由数据集误用引发的问题。
信息安全公司Terbium实验室的CTO Clare Gollnick,在与我们讨论科学和人工智能中的再现性危机时,提出了类似观点。她担心开发人员往往把重心放在用更深层、更复杂的模型解决问题,而当这些模型被应用到生产中时,通常会遇到泛化的问题。相反地,她发现,当研究人员利用该领域里现有的专业知识和深刻见解去解决AI问题时,成果将更为稳健。
Gebru和合作者在论文中指出,AI尚未经受以往伴随着新兴行业(如汽车、医药和电气行业)发展而逐步完善的安全法规的检验。文中提到:
当汽车首次在美国出现时,没有车速限制、停车标志、交通信号灯、驾驶员教育,与安全带或醉酒驾驶有关的规定。因此,1900年代早期,碰撞、超速和鲁莽驾驶造成了许多人员伤亡。
几十年来,汽车及其它行业都在不断地修改完善旨在保护公共利益的法规,同时其自身的技术革新也没有停滞。论文认为,是时候开始考虑为AI制定相关的法律法规了,特别是当我们开始将其用于健康和公共部门等高风险实践中时。欧洲即将出台的通用数据保护条例(GDPR)就将处理这些问题。
论文提出的“数据手册”来源于电气组件相关的概念。每一个售出的电子组件都附带相应的“数据手册”,上面列出了组件的功能、特性、运行电压、物理细节等。当用户需要在购买前了解某个零件的性能,以及误操作情况下可能出现的反应时,这些数据手册就能提供用户所需的支持。
作者建议,数据集或API的提供方应该附带一份“数据手册”来解决一系列标准化问题,这份“数据手册”应该包含以下主题:
数据集创建的动机
数据集的组成
数据收集过程
数据预处理
数据的分布
数据的维护
法律和伦理方面的考虑
对于上面所列主题的具体详解,可以参照该论文;它还包含了一系列补充细节,并为Wild数据集中的UMAS Labeled Faces 提供示例“数据手册”。这是一个完整全面、易于使用,并将具有影响力的模型。
这样的“数据手册”允许用户了解他们使用的数据的优点和局限性,并防止出现诸如偏差和过度拟合之类的问题。同时,“数据手册”还能全方位的促使数据集的创作者和用户对数据源进行不同角度的思考,并理解数据其实并非‘事实上’的存在,而是需要谨慎对待和维护的具有生命力的资源。
虽然我不是个电气工程师,但是我非常欣赏这个有趣的想法。
【友盟+】翻译
原作者| SAMCHARRINGTON

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-2 06:35

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表