| 门诊收费管理系统中以病人为中心的数据挖掘 | ||||||||||||||||
|
以病人为中心的数据挖掘主要包括个阶段,分别是提取、组合、推理。用于病人数据挖掘的挖掘器需要包含个提取部件。该提取部件从病人的所有检查信息中获取关键信息以产生与病人相关的概率断言,即患有某种疾病的概率断言。一般而言,对于结构化的数据我们会使用结构化查询语言(SQL)从病人相关的数据库记录中检索关键词,比如从影像科的PACS数据库中检索病人的影像学报告中的诊断结论可以获知病人的影像学诊断。此外,目前商业的数据库服务器软件中还提供了全文检索功能,使用全文检索功能可以从大量的文本信息中检索更加准确、全面的信息。从图像、波形等数据格式进行的提取可以南提供给系统的图像处理或特征提取程序来完成。需要注意的是,临床信息的收集过程中可能会由于各种原因导致有些信息包含遗漏、错误和不一致的数据,因此需要在概率断言时加以考虑。通过提取与病人相关的所有信息,我们得到了病人在各个时问点(或时间段)的病历信息,即形成一个时间序列,然后通过对各个时间点(或时间段)得到的概率断言,我们即可得到一个状态序列及治疗期间在不同时间点(或时间段)的病人状态的值。同时在同一个时间点上可能会从相同(或不同)的数据源中得到可能冲突的断言,处理这些冲突的断言形成统一的视图的过程,即组合阶段完成的丁作,这些工作通常需要借助相关的领域专业知识完成。推理是通过与病人有关的所有可用的仿真陈述并通过疾病的状态、实验室化验、治疗协议等产生病人进展的复合视图的过程。基本上,病人当前的状态可能受到先前的状态和任意新的组合观察的影响。对病人状态序列进行推理正是以病人为中心的数据挖掘的意义所在。正如前面所说,病人当前状态往往会受到先前状态的影响,因此通过以病人为中心的数据挖掘对临床诊断非常有意义。比如,通过分析状态序列可以推断病人之前病情是否出现了复发,进一步结合领域专业知识,可以推断将来病情发展的趋势。 基于联机分析处理(OLAP)技术的海量病人数据挖掘首先根据事实表和定义的维度表,计算各种维度组合情况下的统计值,我们称为度量表(Measureo这些度量值是通过对事实表中的记录做聚集计算(Aggregation)而得来的,一般都是通过做累计记数(COUNT),当然有时候也会使用求和fSUM),比如关于费用、剂量等信息的相关统计。生成这些度量信息之后,使用联机分析处理(OLAP)定义的多维度分析操作方法钻取(rollup和drilldown),切片(slice)、切块(dice)、旋转(pivot)等,完成对数据的分析、查询和报表。常用的多维度分析方法是钻取(rollup和drilldown),比如我们知道了某个疾病在各个年龄层中的发病率,那么通过drilldown操作添加一个性别维度,即可得到该疾病发在各年龄层中男、女发病率的比例。 海量病人数据挖掘的难度在于维度的定义,维度的定义直接影响度量表计算过程以及我们分析问题的角度。通常需要分析科研统计的需求,定义切合统计需求的维度。目前主流的商业数据库中已经提供了多维度数据挖掘的工具,比如SQLServer2005的AnalysisService,即提供了构建数据仓库和执行多维度数据分析的功能。但是,正如前面所说的我们,需要结合病人信息的特点和科研统计的需求,定义我们需要的维度,从而构建合理的病人数据挖掘仓库。
|