(1)数据源:数据源可以是企业日常运作积累下来的各类的业务数据,也可以是外部的数据。数据仓库的体系结构必须能处理这种多样性带来的种种问题,并解决由于数据远程迁移所带来的完整性和安全性的问题。
(2)数据抽取、转换和装载(ETL):从源数据抽取数据、进行一定的变换、装载到数据仓库。需要进行数据处理,包括:简单变换——一次只针对一个字段,而不是考虑相关字段的值;清洁和刷洗——为了保证前后一致地格式化和使用某一字段或相关的字段群,检查字段和字段组中的实际内容而不仅是存储格式;集成——要把从全然不同来源的数据结合在一起,真正的困难在于将其集成为一个紧密结合的数据模型;聚集和概括——按照一个和几个业务维将相近的数值加在一起,聚集是将不同业务元素加在一起成为一个公共总数,在数据仓库中它们是以相同的方式进行的。
(3)数据仓库:数据仓库的一个目的就是把企业的信息访问基础从一种非结构化的或发展中的环境改变成一种结构化或规划良好的环境。
(4)数据集市:数据集市是为部门范围级别的决策支持应用而设计的,其数据模型设计和数据组织上更多地服务于一个部门的信息需求。
(5)操作型数据存储区:操作型数据存储区(OperationalDataStore,ODS)是业务系统和DW之间更偏向业务系统的数据存储区域。
(6)元数据:元数据(Meta-data)通常定义为“关于数据的数据”,是描述和管理数据仓库自身内容对象、用来表示数据项的意义及其在系统各组成部件之间的关系的数据。数据仓库所提供的“统一的企业级的信息视图”能力,主要就是靠元数据来体现。实现元数据管理的主要目标就是使企业内部元数据的定义标准化。数据仓库的维护工具可以根据元数据完成数据的抽取、清洗和转换,并做适度的汇总,数据仓库的元数据包括:
①数据资源:包括数据源模型,描述源数据属性及业务含义,源数据到数据仓库的映射关系;
②数据组织:数据仓库、数据集市表的结构、属性及业务含义,多维结构等;③数据应用:查询与报表输出格式描述、OLAP、数据挖掘等的数据模型的信息展现、商业术语;④数据管理:数据仓库操作过程以及数据仓库操作结果的模型,包括描述数据抽取和清洗规则,数据加载控制,临时表结构、用途和使用情况,数据汇总控制。(7)前端应用:数据仓库的前端应用是建立数据仓库的目的,即根据用户的特点提供不同的界面。最终用户对数据仓库的访问方式包括:即席查询、报表、联机分析处理(OLAP)、数据挖掘以及领导信息系统(EIS)等。
信息发布:广州名易软件有限公司 http://www.myidp.net