分析评价管理模块是系统的主要部分之一,设置了分析活动管理子模块、活动状态监控子模块、挖掘库管理子模块和数据管理子模块。
分析活动管理器对分析活动进行管理,增加分析活动、查询分析活动、设置分析参数等,能够根据各个分析活动的先后顺序和权限进行活动的排序,结合活动所需的条件和活动状态监控器的反馈信息安排活动。分析活动管理的任务分解策略将在3.2.2中详细叙述。
客户关系分析评价系统中可以同时运行多个不同的分析任务,不同的操作者可能同时运行相同的或不同的分析任务,任务在运行过程中,可能会出现资源争用问题或其他异常问题等,为此,专门设置了活动状态监控器。活动状态监控器能监控正在执行的活动的状态和待执行活动所需的各种条件,及时反馈各种错误信息等。
挖掘库管理子模块主要提供对挖掘库的整体管理,包括连接挖掘库、断开挖掘库、打开挖掘库、增加挖掘库、存储挖掘库、删除挖掘库和查询挖掘库,任何对挖掘库的操作必须在打开了一个挖掘库以后才能进行,而系统的任意运行时刻最多只能打开一个挖掘库。
数据管理子模块负责对分析所需的数据源的操作,这组操作主要包括定义数据源、查询数据库信息、增加数据源、查询数据源信息等。
某分析任务到达分析评价管理模块后,产生一个挖掘活动,活动管理子模块负责管理该活动,活动所需的各种条件得到满足后,活动管理子模块通知挖掘库管理子模块和数据管理子模块,将分析所需的分析模版和数据传输给分析评价操作模块,进而进行具体分析。
(3)分析,挖掘库分析/挖掘库所保存的挖掘操作是指包括数据准备和数据挖掘在内的所有操作。每种分析任务都对应一个分析模版,分析模版统一存放在挖掘库中,每个分析模版存储如下信息:该分析指标采用什么算法、操作的名称、操作顺序、数据源信息、挖掘操作的参数设置以及挖掘的结果等。在挖掘库中存放的这些操作信息是有顺序的(用户进行这些操作的顺序),这是因为—个数据挖掘操作在整个知识发现过程中往往不是孤立的,它所使用的数据源常常是另一个数据挖掘操作的结果,而它的挖掘结果又有可能是其他操作的数据源。所以,保留挖掘顺序实际上就是保留了挖掘操作之问的这种关系,这无论对用户理解挖掘结果还是以后重新进行挖掘都是有帮助的。因此,我们的系统能够很方便地实现把一个挖掘操作的结果作为另一个挖掘操作的输入。
(4)数据预处理模块数据预处理模块的主要功能是定义数据源、格式化数据源以及过滤数据源。该模块对整个系统的可用性非常重要,它可以分为以下几个子模块:
数据映射:将源表中的数据映射成ID形式,并生成对照表(ID和原始值的对照)。此功能的目的是把不同形式的数据映射成统一的、可供挖掘模块操作的形式。
类型映射:对源表中所列数据类型进行强制类型转换。之所以需要这个功能,是因为在数据库中不同的数据类型很多,数据挖掘算法只支持其中最基本的几种。
列映射:该子模块从源表中提取所需要的列,以减少数据量,提高系统的效率。
数据清理:该子模块负责对数据集中的空缺数据、噪声数据和不一致数据等进行处理。
(5)存储控制模块系统假设数据源存放在数据库中,由存储控制模块对数据库统一进行操作。对于存放在外部文件中的数据,需要使用数据库管理系统提供的导入工具把数据导入数据库以后再进行挖掘操作。当前,系统的数据源存放在SQLServer2000中,从可移植性的角度考虑,使用JDBC作为底层的接口,对存储控制的封装高于JDBC存储控制的封装,这是因为数据挖掘应用不同于一般的数据库应用程序,它对数据库的访问频繁,而每次对数据库的访问都会耗费一定的时间和资源。对于数据挖掘操作来说,对大数据量的处理能力和处理效率是一个根本的问题,所以,由系统来进行缓冲和内存索引就非常重要。
存储控制模块的功能主要体现在3个方面:
对连接数据库、管理外部文件以及交换外部文件和内存的内容等较为底层的操作进行封装。
负责缓冲管理。具体地说,该模块为数据源、数据挖掘中间结果以及挖掘结果分别申请缓冲区,并保证其驻留在内存中。
提供简单的数据格式转换。不同于数据预处理模块提供的数据格式转换,该功能主要弥补关系数据库不能存储不规则格式数据的问题,在向缓冲区中存放数据以前对事务记录进行重新拼接。
(6)分析评价操作模块不同的挖掘操作模块负责不同的数据挖掘操作。它们彼此之间相对独立,共间之处是都受到挖掘库管理模块的管理,通过存储控制模块获得数据,并把结果写入挖掘库。
信息发布:广州名易软件有限公司 http://www.myidp.net