最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据统一的七原则

[复制链接]
跳转到指定楼层
楼主
发表于 2017-7-10 15:30:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据统一的七原则
原文:Breaking Down the Seven Tenets of Data Unification
来源: https://www.datanami.com/2017/06/15/breaking-seven-tenets-data-unification/
  • “所有的可规模化系统,都必须自动进行绝大多数的操作。”
  • “‘模式为先’(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。”
  • “需要进行具体的域操作时,只有协作性的系统才可实现规模化。”
  • “为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。”
  • “尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。”
  • “规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。”
  • “必须支持实时增量统一。”

原文翻译:
数据统一可以说是数据分析领域的一个长期挑战。虽然联合式的方法获得了一些青睐,但绝大部分的数据分析从业者希望在分析之前,所有数据都能在同一个地方呈现出来。这意味着,来自不同实体的数据必须统一起来,而问题就出在这个地方。
在新白皮书《可规模化数据统一的七原则》中,著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)以其独特和直白的方式,探讨了上述挑战。
说到斯通布雷克这个人,他同时也是图灵奖得主、麻省理工学院教授,以及大数据分析公司Vertica(这家公司已经被惠普收购)的创始人。在那份白皮书的开头,他对数据统一进行了一番阐述。他说,数据统一由七步组成,包括获取、清洗、转换、模式集成、重复数据删除、分类和导出(但不要把这七步和七条原则搞混了)。
一般来说,企业主要使用两种方法来实现数据统一,包括提取转换加载(ETL)和主数据管理(MDM)。
斯通布雷克说,这两种方法各有利弊。
ETL非常灵活,适合不同的数据来源,使程序员可以手动编写转换程序,确保源数据的模式与集中式数据仓库项目采用的全局模式匹配。斯通布雷克说,由于自动化程度低,没有多少公司的ETL带宽能超过20个数据源。
至于MDM,它与ETL类似的地方在于,也预设了一个“主记录”,每一个专门类别(比如客户、部件和供应商)的所有文件都应该符合主记录的格式。但和ETL不同,MDM不是使用手动定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。
但斯通布雷克说,不管是ETL还是MDM,都无法解决所有的数据统一难题,尤其是在数据量很大的情况下。针对这些限制,他提出了数据统一的七条原则。
由于当今大数据集的庞大规模及其对程序员的苛刻要求,任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。这催生了斯通布雷克的第一条原则:
“所有的可规模化系统,都必须自动进行绝大多数的操作。”
当今数据的多样性也催生出一个问题。比如,诺华制药公司(Novartis)想把1万名从事“湿性实验”工作的科学家的实验记录统一起来,但遇到了全局模式问题。总之,灵活的“模式读取”(Schema-On-Read)方法是解决数据多样性问题的唯一方法。这催生了斯通布雷克的第二条原则:
“‘模式为先’(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。”
虽然自动化是数据统一的关键因素,但人类专家的地位是肯定取代不了的。就诺华的那个例子而言,只有科学家本人才能证实特定的一个数据(比如新化合物的名字)是否准确,有没有拼写错误。这催生了第三条原则:
“需要进行具体的域操作时,只有协作性的系统才可实现规模化。”
对大规模数据统一来说,可扩展性必不可少。当数据集超过1000万个文件时,单个计算核心根本处理不了,更别说单个芯片或者单个电脑。这催生了第四条原则:
“为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。”
聚类算法是数据统一和数据清洗工具的核心。虽然这些算法是并行的,但如果太复杂的话,就会耗费太多时间。这催生了第五条原则:
“尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。”
很多MDM产品采用基于规则的方法来确定转换。但考虑到当今企业试图统一的数据体量和多样性,这些方法行不通。这催生了第六条原则:
“规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。”
最后,数据统一系统必须适应客户的工作方式。从技术上来说,虽然理论上可以靠“蛮力”更新每一条变化的记录,但如果数据太多、变动频繁,就会造成混乱。这催生了第七条也是最后一条原则:
“必须支持实时增量统一。”
斯通布雷克说,ETL方法不符合第一、第二和第三条原则,而MDM方法不符合第一、第二和第六条原则。在大数据领域非常流行的自助式数据准备方法“至少”不符合第一和第三条原则。他还说,目前所有产品(ETL、MDM和自助式数据准备)可能都不符合第五和第七条原则。
车品觉简介
畅销书《决战大数据》作者
红杉资本中国基金专家合伙人
国信优易数据研究院院长
滨海泰达物流(HK:08348)非執行董事
全国信标委大数据标准工作组副组长
香港特区创新科技及再工业化委员会委员
贵阳市大数据委顾问
上海市司法局大数据实验室专家
CCF大数据委副主任
乌镇智厍理事
浙江大学管理学院兼职教授
清华大学(大数据项目)教育指导委员
Advisory Committee of Big Data institute - HKUST
原阿里巴巴集团副总裁
原阿里健康(HK:00241)独立董事
原阿里数据委员会会长
2014年领导阿里数据团队获得Top CIO评选为中国最佳信息化团队
2017年被国家信息中心选为中国十大最具影响力大数据企业家
拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到见解;亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-14 09:13

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表