管理工具和应用工具——包括各种对数据仓库的数据分析和数据访问,如利用OLAP进行数据分析,数据仓库应用程序等。3.2OLAP分析技术
OLAP是独立于数据仓库的一种技术概念,其基本思想是使得企业的管理决策人员能够灵活地操纵企业的数据,以多维的形式从多方面和多角度观察企业的状态和变化趋势。
OLAP最早是由E.F.Codd于1993年提出的,当时,Codd认为联机事务处理(OLTP)已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。它是针对特定问题的联机数据访问和分析。通过对多维数据的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察。
OLAP的多维分析是指对多维数据集中的数据用切片(二维)、切块(三维)、钻取(向下钻取和向上钻取,钻取的深度与维所划分的层次相对应)、旋转(通过旋转可以得到不同视角的数据)等方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。通过这种方法能够使分析人员深入的了解数据仓库中数据所蕴含的信息,从而挖掘隐藏在数据背后的商业模式。
在BI的建设过程中,数据仓库和数据集市都是数据的存储区域。都在为数据的在线分析和挖掘提供数据源。数据仓库和数据集市主要是范围的不同。数据仓库面向企业的所有部门,所以它的需求是全企业范围的,一般情况下,它的数据按照第三范式组织。数据集市是面向企业的某一个部门的,需求比较集中,以多维方式的形式管理数据。
3.3数据挖掘技术W.J.Frawley,G.PiatetskyShapiro等人指出,数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这螳知识是隐含的、事先未知的、潜在有用的信息,提取的知识可表示为概念、规则、规律、模式等形式。
3.3.1数据挖掘研究的主要内容
数据挖掘所发现的知识最常见的有以下四类。
(1)广义知识
广义知识指类别特征为概括性描述的知识,是根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。(2)关联知识
关联知识是指反映一个事件和其他事件之间信赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出来的Apriori算法。(3)分类知识
分类知识是反映同类事物共同性质的特征型和不同事物之间的差异特征型知识。最为典型的分类方法是基于决策树的分类方法,还有统计、粗糙集(RoughSet)、神经网络等方法。(4)预测型知识
预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为它是以时间为关键属性的关联知识。目前,时问序列预测方法有经典的统计方法、神经网络和机器学习等。此外,还可以发现其他类型的知识,如偏差型知识,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。
3.3.2数据挖掘的常用技术
(1)神经网络:它从结构上模仿生物神经元结构,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征采掘等多种挖掘任务。
(2)决策树:代表着决策集的树形结构。(3)规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。(4)遗传算法:基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。(5)近邻算法:将数据集合中每一记录进行分类的方法。这种技术通过K个与之最相近的历史记录的组合来辨别新的记录。3.4数据仓库和OLAP与数据挖掘的关系
数据挖掘不是必须基于数据仓库的,数据挖掘能够通过数据抽取、数据预处理和转换等操作自己完成数据挖掘前的准备工作,继而进行数据挖掘。然而这部分的工作需要耗费大量的时间和精力,而进行数据挖掘又无法避开这些操作,因此将数据挖掘工作基于数据仓库技术来进行,能够省去数据的前期准备等工作,大大提高数据挖掘效率。因为数据仓库在建立的时候,已经完成了数据的抽取、转换和加载等操作。
OLAP作为数据仓库中的关键技术,其可以在使用多维数据模型的数据仓库或数据集市上进行,充分发挥OLAP的联机分析的功能和特性。将OLAP与数据挖掘进行结合,能够为数据挖掘提供基础数据支持,提高数据挖掘的效率,而且还可以实现联机分析数据挖掘的功能。用户常常希望穿越数据库,选择相关数据,在不同的粒度上进行分析,并以不同的形式显示结果。联机分析数据挖掘提供了在不同的数据子集和不同的抽象层上进行数据挖掘的工具,在数据立方体和挖掘的中间结果数据上进行下钻、上卷、旋转、切片、切块等操作,提高数据挖掘探测性的数据分析的能力和灵活性。
采用数据挖掘与数据仓库和OLAP技术有机结合的方式,可以使数据挖掘具有更高的实用性和高效性。
4.结语随着市场竞争的日益加剧,国内外众多商务智能软件公司开发了数据分析和数据挖掘软件来分析海量数据,帮助管理者穿越数据迷雾,赋予数据第二次生命,相信在不久的将来,人们在面对大量的数据时不再感到迷茫,而是能够以用户需要的方式重新组织这些数据,并通过对这些数据的分析,挖掘出潜在的模式,有效地预测市场的行为,做出正确的决策。(万方数据)
信息发布:广州名易软件有限公司 http://www.myidp.net