数据建模简史

发表于 2019-7-3 11:40:12

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

数据建模是创建数据模型（物理，逻辑，概念等）的“行为”，包括定义和确定组织的数据需求及其目标。数据建模的行为不仅定义了数据元素，还定义了它们形成的结构以及它们之间的关系。开发数据模型需要架构师（Data Modelers）与企业其他部门密切合作，建立目标，并与信息系统的最终用户建立流程。

数据模型包含标准化和组织成模式的 “数据元素” （例如，客户的姓名或地址），使得它们彼此相关。使用具体编程语言和数据库对模型有影响。该模型定义了数据如何连接以及数据如何在计算机系统内进行处理和存储。（例如，代表房屋的数据元素可以与其他元素相关联，其他元素又代表房屋的颜色，大小，地址和所有者的名字。）信息的组织方式因情况而异。

数据建模、数据库和编程语言是相互依赖的，并且一起发展。数据库基本上已经发展了四个阶段，这些阶段往往是重叠的：

第一阶段：从大约20世纪60年代到1999年，随着数据库管理系统（DBMS）的发展，出现层级列表，倒排列表等，并在20世纪90年代，出现面向对象的数据库管理系统。
第二阶段：关系型数据库，从1990年开始引入SQL和SQL产品（加上一些非SQL产品）。
第三阶段：支持在线分析处理（OLAP），这是在1990年左右开发的（连同专门的数据库管理系统），并在今天继续使用。
第四阶段：在2008年推出了NoSQL，支持使用大数据，非关系数据，图表等等。

比尔·肯特在其著作 “数据与现实（1978）” 中将数据模型与地图进行了比较，强调了现实世界与符号世界之间的差异。他写道：“高速公路没有被涂成红色，河流没有中间的县线，而且在山上也看不到等高线”。这个观察结果与许多试图创造完美模型的研究者形成对比。肯特更愿意强调现实的基本混乱，并建议数据建模架构师注重创造秩序，避免混淆基本事实。（随着NoSQL和非关系数据的普及，肯特从1978年的建议已被证明是一个好主意，但由于技术原因，我们花了一段时间才到达这里。）

一、数据建模在20世纪60年代

随着管理信息系统（MIS）的普及，数据建模的概念在20世纪60年代开始变得非常重要。（在1960年之前，数据或数据存储非常少，这次的计算机本质上是庞大的计算器）。60年代提出了多种理论数据模型，其中包括三个成为现实。前两个是“ 层级数据模型 ” 和 “ 网络数据模型 ”。第三个理论模型，“关系模型” 是Edgar F. Codd在20世纪60年代末提出的。

第一个真正的商业数据库系统于1964年问世，被称为综合数据存储（IDS），由Charles Bachman开发，通用电气支持他的研究。IDS使用网络模型，描述为以图形形式表示对象及其关系的灵活方式。IBM选择专注于为其信息管理系统（IMS）设计的分层模型。在这个模型中，记录的关系呈现一种树状的形状。虽然结构简单，但由于 “一对多” 关系格式的限制，它也不灵活。

随着数据建模和数据库管理系统的发展，编程语言也发生了变化。Simula是在1967年开发的，是第一个面向对象的编程语言。（其他语言来自Simula，如Java、Eifel、C++和Smalltalk）。编程语言的发展对使用这些语言的模型形成具有强大的影响。

二、数据建模在20世纪70年代

1970年，Edgar F.Codd的想法出版了。他的想法提供了一种截然不同的数据处理方式，表明数据库中的所有数据可以使用列和行显示，这就是所谓的 “关系” 。这些“关系”可以使用非程序、声明和语言。（请记住，语言影响模型的形状，反之亦然）。这种方法不需要编写一个访问数据的算法，而只需要输入一个文件名来标识所需的信息。这个聪明的想法带来了更高的生产力。它更快，更高效，并促使IBM创建SQL。（最初称为SEQUEL或结构化查询语言）。另外，在这十年间，通用奈森创建了 “自然语言信息分析法” （NIAM）。

三、数据建模在20世纪80年代

在20世纪80年代，NIAM在Terry Halpin的帮助下进一步发展。其名称已更改为对象角色建模（Object Role Modeling，ORM）。ORM在数据被感知的方式以及如何处理数据方面带来了巨大的变化。传统的思维模式需要将数据和程序分开存储。（应该指出，一些技术人员不喜欢ORM，因为它违反了所有的规则）。

到20世纪80年代末，层级模型逐渐过时，Codd的关系模型成为流行的替代模型。查询优化器已经变得足够便宜，并且足够复杂，因为关系模型被并入大多数行业的数据库系统中。（银行和类似机构仍然倾向于处理货币和统计信息的层级数据模型）。

四、1998年和NoSQL

NoSQL的原始版本是由Carlo Strozzi在1998年开发的一个数据库。

他创建了一个关系型开源数据库，“不开放” SQL连接，但仍然是关系型的。后来的NoSQL版本删除了关系模型。

五、2008年至今 - 非关系模型的发展

NoSQL的优势之一是它的使用无模式（schema less）或者非关系。另一个是它的巨大的数据存储能力和横向扩展能力。这使得它非常适合处理非结构化数据，而且非常适合处理大数据。

独立分析师兼顾问Rick van der Lans表示：

“数据建模过程相同。你可以用简单的方式来看待这个过程，把它看作一个设计过程。在创建图表的过程中，您试图了解数据的含义以及数据元素如何相互关联。因此，理解是数据建模的一个关键方面。”

由于数据是无模式的（schema less）因此可以使用数据模型来实现数据的翻译和映射。人们通常理解数据模型，为与之相关的不同语言提供了相同的范式来查看问题和解决方案。在NoSQL中，通常将数据存储在不同的位置（水平可伸缩性），从而提供各种潜在的数据模型翻译。这种存储技术被称为分布式持久性。那么问题就变成了 “什么是最好的数据模型？”

根据van der Lans的说法：

“这就是为什么有些人称这些数据是多层次的，这意味着你可以从不同的角度看相同的数据。就好像您在查看同一个对象时使用不同的过滤器一样。”

由于其灵活性和大数据存储容量，NoSQL风格的数据存储已经变得流行。然而，就进化而言，NoSQL数据库还有很长的路要走。据NoSQL建模研究报告显示，许多公司没有将数据模型纳入其NoSQL系统，因为使用这种数据存储的数据建模主要存在于实际代码中。

不出所料，他们也发现这些相同的组织希望建立和使用数据模型，并增加具有数据建模技能的人员。这种差异是基于缺乏NoSQL数据库经验丰富的建模人员，再加上几乎没有NoSQL数据建模工具。对经验丰富的NoSQL Data Modeler以及合适的工具的需求仍然是一个永远的需求。

Datablau专注于解决这些问题。他们开发了一个可下载的、用户友好的数据模型，为NoSQL提供强大的可视化工具。 他们的软件将图形数据模型的简单性与NoSQL文档数据库相结合。这种组合缩短了开发时间，提高了应用程序质量，降低了执行风险。该软件目前与Hive, MongoDB模式兼容，公司计划为其他几个NoSQL数据库引入软件。

可以肯定的是，随着越来越多的组织寻求利用非关系设计的多样性，同时仍然利用他们的数据建模实践对新数据库模型中数据建模的渴望将继续推动行业向前发展。

作者：王铮

Datablau创始人&CEO，曾任CA ERwin全球研发负责人，2006年加入CA，十几年经验在数据建模领域，客户多来自世界500强，美国银行（BOA），SunTrust，AT&T，壳牌等。深度参与建设银行新一代系统数据模型设计。多项专利和论文关于统一（关系型与非关系型）数据建模。IEEE member, OMG member, DAMA member，复旦大学、北京航空航天大学客座讲师。

来源：Datablau

帐号		自动登录	找回密码
密码			立即注册

数据建模简史

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1