MySQL数据库原理及应用(第2版)(微课版)
上QQ阅读APP看书,第一时间看更新

任务1-6 了解数据管理技术的发展历程

【任务分析】

应用计算机进行数据处理之前,首先要把大量的信息以数据的形式存放在存储器中。存储器的容量、存储速率直接影响到数据管理技术的发展。数据管理技术的发展与计算机硬件(主要是外部存储器)、系统软件及计算机应用的范围有着密切的联系。设计人员要了解数据管理技术的发展历程,加强对数据库相关概念的理解。

【课堂任务】

了解数据管理技术的发展历程,加强对数据库相关概念的理解。

● 人工管理

● 文件系统

● 数据库系统

● 分布式数据库系统

● 面向对象数据库系统

● 数据仓库

● 数据挖掘

● 云计算与大数据

(一)人工管理阶段

20世纪50年代前期,计算机主要用于科学计算,数据处理都是通过手工方式进行的。当时的计算机上没有专门管理数据的软件,也没有像磁盘这样可以随机存取的外部存储设备。数据由计算或处理它的程序自行携带,数据和应用程序一一对应。因此,这一时期计算机数据管理的特点是,数据的独立性差,数据不能被长期保存,数据的冗余度大等。

人工管理阶段应用程序与数据之间的关系如图1.9所示。

图1.9 人工管理阶段应用程序与数据之间的关系

(二)文件系统阶段

20世纪50年代后期至20世纪60年代中后期,磁盘成为计算机的主要外存储器。在软件方面,出现了高级语言和操作系统。在此阶段,数据以文件的形式组织,并能长期保留在外存储器上,用户能对数据文件进行查询、修改、插入和删除等操作。程序与数据有了一定的独立性,程序和数据分开存储,然而依旧存在数据的冗余度大及数据不一致性等缺点。

文件系统阶段应用程序与数据之间的关系如图1.10所示。

图1.10 文件系统阶段应用程序与数据之间的关系

(三)数据库系统阶段

20世纪60年代后期,计算机的硬件和软件都有了进一步的发展,信息量的爆炸式膨胀带来了数据量的急剧增长,为了解决日益增长的数据量带来的数据管理上的严重问题,数据库技术逐渐发展和成熟起来。

数据库技术使数据有了统一的结构,对所有的数据进行统一、集中、独立的管理,以实现数据共享,保证数据的完整和安全,提高了数据管理效率。在应用程序和数据库之间有数据库管理系统(Data Base Management System,DBMS)。数据库管理系统对数据的处理方式与文件系统不同,它把所有应用程序中使用的数据汇集在一起,并以记录为单位存储起来,便于应用程序使用。

数据库系统阶段应用程序与数据之间的关系如图1.11所示。

图1.11 数据库系统阶段应用程序与数据之间的关系

目前世界上已有数百万个数据库系统在运行,其应用已经深入人类社会生活的各个领域,从企业管理、银行业务、资源分配、经济预测到信息检索、档案管理、普查统计等。此外在通信网络基础上,建立了许多国际性的联机检索系统。

(四)分布式数据库系统

随着地理上分散的用户对数据共享的要求日益增强,以及计算机网络技术的发展,在传统的集中式数据库系统基础上产生和发展了分布式数据库系统。

分布式数据库系统(Distributed DataBase System,DDBS)并不是简单地把集中式数据库安装在不同场地,用网络连接起来以便实现(这是分散的数据库系统),而是具有自己的性质和特征。集中式数据库系统中的许多概念和技术,如数据独立性的概念、数据共享和减少冗余的控制策略、并发控制和事务恢复的概念及实现技术等,在分布式数据库中有了不同的、更加丰富的内容。

分布式数据库系统包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。在分布式数据库系统中,一个应用程序可以对数据库进行透明操作,数据库中的数据分别在不同的局部数据库中存储,由不同的DBMS进行管理,在不同的机器上运行,由不同的操作系统支持,被不同的通信网络连接在一起。

分布式数据库应具有以下特点。

(1)数据的物理分布性。数据库中的数据不是集中存储在一个场地的一台计算机上,而是分布在不同场地的多台计算机上,它不同于通过计算机网络共享的集中式数据库系统。

(2)数据的逻辑整体性。数据库虽然在物理上是分布的,但其中的数据并不是不相关的,它们在逻辑上是相互联系的整体,它不同于通过计算机网络互连的多个独立的数据库系统。

(3)数据的分布独立性(也称分布透明性)。分布式数据库中除了数据库的物理独立性和数据的逻辑独立性外,还有数据的分布独立性。即在用户看来,整个数据库仍然是一个集中的数据库,用户不必关心数据的分片,不必关心数据物理位置分布的细节,也不必关心数据副本的一致性,分布的实现完全由分布式数据库管理系统来完成。

(4)场地自治和协调。系统中的每个节点都具有独立性,能执行局部的应用请求;每个节点又是整个系统的一部分,可通过网络处理全局的应用请求。

(5)数据的冗余及冗余透明性。与集中式数据库不同,分布式数据库中应存在适当冗余,以适合分布处理的特点,提高系统的处理效率和可靠性。因此,数据复制技术是分布式数据库的重要技术。但分布式数据库中的这种数据冗余对用户是透明的,即用户不必知道冗余数据的存在,维护各副本的一致性也由系统来负责。

(五)面向对象数据库系统

面向对象数据库系统(Object Oriented Data Base System,OODBS)是面向对象的程序设计技术与数据库技术相结合的产物。面向对象数据库系统的主要特点是具有面向对象技术的封装性和继承性,提高了软件的可重用性。

因为面向对象程序语言操纵的是对象,所以面向对象数据库(Object Oriented Data Base,OODB)的一个优势是面向对象语言程序员在编写程序时,可直接以对象的形式存储数据。对象数据模型有以下特点。

(1)使用对象数据模型将客观世界按语义组织成由各个相互关联的对象单元组成的复杂系统。对象可以定义为对象的属性和对象的行为描述,对象间的关系分为直接关系和间接关系。

(2)语义上相似的对象被组织成类,类是对象的集合,对象只是类的一个实例,通过创建类的实例实现对对象的访问和操作。

(3)对象数据模型具有“封装”“继承”“多态”等基本概念。

(4)方法实现类似于关系数据库中的存储过程,但存储过程并不和特定对象相关联,方法实现是类的一部分。

(5)在实际应用中,面向对象数据库可以实现一些带有复杂数据描述的应用系统,如时态和空间事务、多媒体数据管理等。

(六)数据仓库

数据库技术经过几十年的发展和广泛应用,以及社会各行各业大量信息和数据的多年积累,使数据在不断膨胀。从数据海洋中提取、检索出有用的信息——能够支持决策的信息,以便对企业的管理决策提供支持成为数据库的发展趋势。因此,数据仓库技术,包括数据挖掘技术成为数据库技术发展的热门。

随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据,然后将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着该过程的发展和不断完善,这种支持决策的、特殊的数据存储即称为数据仓库(Data Warehouse,DW)。

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)中对数据仓库的定义是:数据仓库是面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策。

从上面的定义中可以发现,数据仓库具有以下重要特性:面向主题性、数据集成性、数据的时变性、数据库的非易失性、数据的集合性和支持决策作用。

数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5~10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右,它是一般数据库(100MB)数据量的100倍,大型数据仓库可达到TB级。

(七)数据挖掘

1. 数据挖掘的定义

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge Discovery in Databases,KDD)中的一个步骤。数据挖掘一般是指从大量数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

2. 数据挖掘的常用方法

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

(1)分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

(2)回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

(3)聚类分析。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

(4)关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库中的大量数据进行挖掘,从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

(5)特征分析。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。例如,营销人员通过提取客户流失因素的特征,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户流失。

(6)变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例、模式的例外、观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

(7)Web页挖掘。Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业在管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

(八)云计算与大数据

1. 云计算

云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算是使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。

云计算具有超大规模、虚拟化、高可靠性、高通用性、高可扩展性、按需服务、极其廉价和具有潜在危险性等特点。

2. 大数据

大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

IBM提出的大数据的5V特点是Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

3. 云计算与大数据的关系

从定义上看,云计算注重资源分配,是硬件资源的虚拟化;而大数据是海量数据的高效处理。大数据与云计算并非是独立的概念,无论是在资源的需求上,还是在资源的再处理上,都需要二者共同运用。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

云计算和大数据的共同点都是处理海量资源。云计算与大数据相辅相成。首先,云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是为实时交互的海量数据查询、分析提供了各自需要的价值信息。其次,大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好地与行业应用结合并发挥更大的作用;大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提,而云计算与大数据相结合将可能成为人类认识事物的新工具。