商务智能系统实现数据管理的技术 | ||||||||||||||||
来源:名易软件 无论是商业企业、科研机构或者政府部门,在过去若干年的时间里都积累了海量的、以不同形式存储的数据资料。但当面对越来越多迅速膨胀的超级数据库时,人们却无从着手去理解数据中包含的信息,更难以获得有价值的知识。然而这些信息数据记载着企业的生命轨迹,蕴含着企业的发展方向,由于采用普通的联机事物处理技术(OLTP)的信息系统无法同时满足高效作业和决策支持的两项需求,造成了海量数据与信息“孤岛”的并存。好在人们已经感受到了危险的降临,商务智能软件已悄然而生并越来越受到世人的重视。 1.商务智能的定义 商务智能(BusinessIntelligence)的定义众说纷纭,GartnerGroup认为“商务智能是将数据转换成信息的过程,然后通过发现将信息转化为知识”;商务智能大师利奥托德认为“商务智能是将存储于各种商业信息系统中的数据转换成有用信息的技术,它允许用户查询和分析数据库,可以得出影响商业活动的关键因素,最终帮助用户做出更好更合理的决策”。 笔者在总结了商务智能的相关定义之后,将商务智能定义为:商务智能是指利用现代信息技术收集、管理和分析存储于各种商业信息系统中的数据,使之转换成有用信息,并以可视化的形式加以表现,使企业的各级决策者获得知识和洞察力,促使他们做出对企业更有利的决策的技术。 目前,各个行业都面对着激烈的竞争,及时、准确的决策已成为企业生存与发展的生命线。随着信息技术在企业中的普遍应用,企业产生了大量富有价值的电子数据。但这些数据大都存储于不同的系统中,数据的定义和格式也不统一,商务智能系统能从不同的数据源搜集的数据中提取有用的数据,并对这些数据进行清洗,以确保数据的正确性,在对数据进行转换、重构等操作后,将其存入数据仓库或数据集市中;再运用适合的查询分析工具、数据挖掘工具、OLAP工具等管理分析工具对信息进行处理,使信息变为辅助决策的知识,并将知识以适当的方式展示在决策者面前,供决策者运筹帷幄。 2.商务智能系统的基本架构 美国数据仓库研究院把商务智能比作“数据炼油厂”,它将商务智能的应用过程描述为“数据一信息一知识一计划一行动”的过程。 根据对商务智能的理解,借鉴美国数据仓库研究院的“数据炼油厂”,给出商务智能系统的架构,如图一所示: 2)数据整合层——商务智能系统的根本要求,它将来自不同数据源的信息合并为相同的信息结构,消除重复、无效和界外的数据,提取、净化和传递数据到为数据仓库设立的文件中。 3)数据仓库层——商务智能系统的基础,是数据分析的源数据,保存着大量的、面向主题的、集成的数据。 4)数据分析层——体现系统智能的关键,它一般采用OLAP技术和数据挖掘技术对数据进行分析和处理。 5)数据展现层——它向商务智能环境的收益者提供实际的分析结果,同时保证系统分析结果的可视化,形式有报表、图表、数据表等。 对商务智能系统的架构进行分析可以看出,商务智能系统对数据实行分析管理的关键技术如下: 3.1数据仓库技术 数据仓库之父w.H.Inmon博士对数据仓库的定义得到了大多数学者和工程人员的接受:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,它用以支持经营管理中的决策制定过程。”由此定义可以看出,数据仓库具有如下特性: (1)面向主题性 (2)数据集成性 (3)数据的稳定性 (4)数据的时变性 (5)数据的集合性 (6)决策支持作用 数据仓库技术是信息技术飞速发展的结果,它与传统的面向操作的数据库技术相比有很大的不同,从结构上看,数据仓库主要包括:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库、管理工具和应用工具等部分。如图二所示: 3.2OLAP分析技术 OLAP是独立于数据仓库的一种技术概念,其基本思想是使得企业的管理决策人员能够灵活地操纵企业的数据,以多维的形式从多方面和多角度观察企业的状态和变化趋势。 OLAP最早是由E.F.Codd于1993年提出的,当时,Codd认为联机事务处理(OLTP)已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。它是针对特定问题的联机数据访问和分析。通过对多维数据的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察。 OLAP的多维分析是指对多维数据集中的数据用切片(二维)、切块(三维)、钻取(向下钻取和向上钻取,钻取的深度与维所划分的层次相对应)、旋转(通过旋转可以得到不同视角的数据)等方式分析数据,使用户从多个角度、多个侧面去观察数据仓库中的数据。通过这种方法能够使分析人员深入的了解数据仓库中数据所蕴含的信息,从而挖掘隐藏在数据背后的商业模式。 在BI的建设过程中,数据仓库和数据集市都是数据的存储区域。都在为数据的在线分析和挖掘提供数据源。数据仓库和数据集市主要是范围的不同。数据仓库面向企业的所有部门,所以它的需求是全企业范围的,一般情况下,它的数据按照第三范式组织。数据集市是面向企业的某一个部门的,需求比较集中,以多维方式的形式管理数据。 W.J.Frawley,G.PiatetskyShapiro等人指出,数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这螳知识是隐含的、事先未知的、潜在有用的信息,提取的知识可表示为概念、规则、规律、模式等形式。 3.3.1数据挖掘研究的主要内容 数据挖掘所发现的知识最常见的有以下四类。 (1)广义知识 (2)关联知识 (3)分类知识 (4)预测型知识 此外,还可以发现其他类型的知识,如偏差型知识,它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。 3.3.2数据挖掘的常用技术 (1)神经网络:它从结构上模仿生物神经元结构,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征采掘等多种挖掘任务。 3.4数据仓库和OLAP与数据挖掘的关系 数据挖掘不是必须基于数据仓库的,数据挖掘能够通过数据抽取、数据预处理和转换等操作自己完成数据挖掘前的准备工作,继而进行数据挖掘。然而这部分的工作需要耗费大量的时间和精力,而进行数据挖掘又无法避开这些操作,因此将数据挖掘工作基于数据仓库技术来进行,能够省去数据的前期准备等工作,大大提高数据挖掘效率。因为数据仓库在建立的时候,已经完成了数据的抽取、转换和加载等操作。 OLAP作为数据仓库中的关键技术,其可以在使用多维数据模型的数据仓库或数据集市上进行,充分发挥OLAP的联机分析的功能和特性。将OLAP与数据挖掘进行结合,能够为数据挖掘提供基础数据支持,提高数据挖掘的效率,而且还可以实现联机分析数据挖掘的功能。用户常常希望穿越数据库,选择相关数据,在不同的粒度上进行分析,并以不同的形式显示结果。联机分析数据挖掘提供了在不同的数据子集和不同的抽象层上进行数据挖掘的工具,在数据立方体和挖掘的中间结果数据上进行下钻、上卷、旋转、切片、切块等操作,提高数据挖掘探测性的数据分析的能力和灵活性。 采用数据挖掘与数据仓库和OLAP技术有机结合的方式,可以使数据挖掘具有更高的实用性和高效性。 4.结语 随着市场竞争的日益加剧,国内外众多商务智能软件公司开发了数据分析和数据挖掘软件来分析海量数据,帮助管理者穿越数据迷雾,赋予数据第二次生命,相信在不久的将来,人们在面对大量的数据时不再感到迷茫,而是能够以用户需要的方式重新组织这些数据,并通过对这些数据的分析,挖掘出潜在的模式,有效地预测市场的行为,做出正确的决策。(万方数据)
|