当前位置:首页>管理咨询>中文电子病历的信息抽取研究 查询:
     
中文电子病历的信息抽取研究

引言信息抽取作为一种文本处理技术n],通过利用机器的计算能力、计算的精确度和准确度为枯燥的信息搜索、分析和识别工作提供了理想的方法。信息抽取的主要功能是从文本中抽取特定的事实信息,被抽取出来的信息以结构化的形式描述,可以直接存人数据库中,供用户查询以及进一步分析使用。在医院信息系统的电子病历(electronicmedicalre-cords,EMR)中蕴含着丰富的信息和知识。本研究利用文本工程通用框架(GATE)进行中文EMR信息抽取研究,目的是加强自然语言理解和本体方法在中文医学文本语义标注和内容分析中的应用,为建立计算机可读的EMR提供技术支持。1病种选择和EMR文本的预处理本文将病种选定为神经内科疾病脑梗死。在医院信息系统中,以《国际疾病分类》(ICD9)编码=434.9为检索条件,选择2008年1~6月问诊断为脑梗死的住院病人电子病历83份,将其转存为纯文本格式并以此作为EMR文档集。采用基于词典的双向最大匹配切词法对EMR进行分词处理。将经过分词的EMR文档集导入GATE平台。

2基于GATE的EMR语义标注和信息抽取2.1GATE基本架构GATE是英国谢菲尔德大学研究开发的Java开源项目,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息抽取的项目采用,例如,美国匹兹堡大学建立癌症文本信息抽取系统(cancertextinformationextractionsystem,caTIES)[2]。caTIES具有从临床自由文本中抽取编码信息的功能,可以利用受控词表从临床自由文本如外科病理报告中抽取编码信息并生成caBIG兼容的数据格式。为简化语言工程系统开发流程,GATE设计了算法+数据+图形用户界面一应用基本结构口]。按照此结构,GATE选用面向对象的编程语言和基于JavaBean组件的软件开发方式,开发出一个核心库和一系列可重用语言工程组件(acollectionofreusableobjectsforlanguageengineering,CRE-OLE)。每个CREOLE组件包括语言资源(LRs)、处理资源(PRs)和可视化资源(VRs)三类资源,资源参数存储于creole.xml文件中。用户可根据应用快速灵活定制、修改、扩展各组件。GATE中的所有可重用资源的集合,被整体地用在了基于规则方法的英文信息抽取系统(anearlynewinformationextractionsystem,ANNIES)中]。GATE4.0提供了中文信息抽取组件,可以在语料分词的前提下,实现人名、地名、机构名、时间、日期等命名实体的自动标识和抽取。2.2命名实体识别规则的构建2.2.1JAPE规则定义语言基于词典识别实体的方法尽管简单,但无法有效处理新词、变体词等[5]。因此,GATE提供基于规则的实体识别引擎(javaannotationpatternsengine,JAPE)。JAPE的功能是建立规则库,用正则表达式匹配文本中的信息并作好标注,用于实现分词、分句和较准确的命名实体识别。JAPE表现为一组规则语法文件,这个语法文件可以经过GATE里提供的一个JAPECompiler转换成一个标准的PR。一个JAPE语法文件包括若干个片(Phase),每个Phase由若干个模式/行为规则(rule)组成。系统运行时,这些片段顺次作用,针对标注形成级联的有限状态转换器。每条rule由左侧和右侧两部分组成。左侧部分(1efthandside,LHS)是一个包含正则表达式操作符的标注模式。每条规则的右侧部分(righthandside,RHS)包含了标注集操作描述。与左侧部分匹配上的标注集将会按照右侧的操作执行。2.2.2JAPE规则实例构建命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。GATE提供了一些中文信息抽取中的时间、地点、称谓、货币、URL和Email等识别规则。本文建立EMR患者性别和年龄识别规则如下://性别识别规则Rule:Sex((Lookup.majorType一一sex}):tag一:tag.Sex一(kindsex,ruleSex)//年龄识别规则Rule:Age({Token.kind一一number){Lookup.majorType=一age)):tag~:tag.Age一(kindage,ruleAge)对于新的类型的命名实体,都可以通过规则的建立来进行识别。在JAPE语法组织文件(main.jape)中增加新片段定义名,可以显著提高标注效率。2.3专业分类词表构建GATE中的Gazetteer是由一系列包含时问、地点等基础实体名称的列表集合。GATE借助Gazetteer完成部分语义标注工作。为了更为专业、精确地识别命名实体,本文对Gazetteer进行扩展。本文构建1O个神经内科常用药物表、7个冠心病治疗常用药物表、1个神经解剖名词表和1个中药名词表(见表1)

2.4中文医学本体的导入20世纪90年代以来,语义网技术的兴起和发展促进了知识本体研究的不断深入。知识工程中的本体是共享的、概念化的、明确的、形式化的规范说明嘲。其中,共享指所建立的概念可以在专业领域范围内共同接受;概念化指对领域中的现象和事物进行抽象建模;规范是对领域中概念或知识第4期李毅等:中文电子病历的信息抽取研究进行限制与约束;明确指概念的类型、概念问的关联与约束是显性的、确定的;形式化指描述本体的、无歧义的自然语言和人工语言具有一定的表达形式。根据本体的定义,可以用概念、关系、函数、公理进行限制与约束;明确指概念的类型、概念问的关联与约束是显性的、确定的;形式化指描述本体的、无歧义的自然语言和人工语言具有一定的表达形式。根据本体的定义,可以用概念、关系、函数、公理和实例等5个基本的建模元语(ModelingPrimitive)描述特定的领域本体。将已有的神经信息学本体导人GATE平台。该本体符合W3COWL(WebOntologyLanguage)规范,包括神经科学、神经疾病和中医脑病的概念、关系和实例(见图1、2)。

2.5语义标注和信息抽取结果通过构建命名实体识别规则,建立分类词表和导人中文医学领域本体,可以完成EMR文档集的自动语义标注(见图3),也可以进行新的标识或已有标识的修正,从而在语义标识基础上实现语义信息抽取,并对结构化的信息抽取结果进行统计分析。

2.5.1患者性别和年龄特征信息抽取通过对患、者性别和年龄特征的抽取可以得出EMR文档集中脑梗死患者的性别和年龄分布状况。信息抽取和统计分析结果(见图4)显示,82例患者中,男性59例,女性23例(男女比例为2.6:1);H864年龄最大87岁,最小1岁,平均值为64.76岁,标准差一15.702;5O岁以上73例(占全部病历数的89.O2),5O岁以下9例(占全部病历数的1O.88)。2O

2.5.2脑梗死疾病治疗用药特征信息抽取本文以神经系统解剖结构、神经系统疾病治疗用药、冠心病治疗用药以及中医用药为主题,进行EMR文本特征提取。提取的特征项的主要类型或次要类型包括:minorType=NeuSysAna(:~O经系统解剖)majorType=neurodrugs(神经疾病治疗用药)majorType=heartdrugs(冠心病治疗用药)minorType=TCMDrug(中医用药)。对抽取结果进行分析,可以得到82份EMR的用药情况。

其中,脑梗死治疗用药有7类:①解热镇痛抗炎药(阿司匹林);②影响脑血管、脑代谢及促智药(奥拉西坦、奥扎格雷钠、丁苯酞、金纳多、血塞通、银杏叶提取物、恩必普、阿米三嗪萝巴新、克林澳、尼莫地平、鼠神经生长因子、依达拉奉、阿魏酸钠、吡拉西坦、氟桂利嗪、葛根素、桂哌齐特);③抗癫痫药(卡马西平、妥泰);④抗抑郁症药(阿米替林、西酞普兰);⑤抗精神病药(奥氮平、氟哌啶醇、奋乃静);⑥镇静、催眠及抗惊厥药(鲁米那、苯巴比妥);⑦中枢兴奋药(洛贝林、尼可刹米)。冠心病治疗用药有5类:①钙通道阻滞剂(硝苯地平、地尔硫卓);②调整血脂药物(辛伐他汀、洛伐他汀);③硝酸酯制剂(硝酸甘油);④溶血栓药物(尿激酶、肝素、华法令);⑤抗血小板药物(阿斯匹林)。在82份病历中,中药银杏叶和丹参用得最多;有两份被诊断为中风(中经络)并结合中药治疗的病历,分别用到了17种中药和14种中药。2.6讨论为了全面掌握疾病发生、发展和预后的规律性,临床上需要对患者的病历进行统计分析。但是通过人工阅读和统计的病历分析费时费力。本文通过基于GATE的EMR信息抽取,得到了有关脑梗死患者性别和年龄分布情况以及治疗用药一般性规律的知识。信息抽取的整个过程是经计算机阅读而完成的。虽然这些从82篇EMR文档中得到的知识需要领域专家的审定,然而对于计算机来说,这些知识确实是新的知识。如果文档集数量足够大,在领域专家的参与下,通过基于本体的EMR信息抽取进行知识发现是可行的。而且,利用本体就可以根据用户的需求,在EMR未经任何标引的情况下进行面向主题的文本特征提取。例如,针对82篇EMR文档集,可以将主题确定为脑梗死发生的危险性分析、脑梗死的定位诊断、脑梗死合并其它病症时的联合用药等。3结束语自然语言理解和本体的理论和技术手段有效地改善了计算机对文本的理解能力。在此基础上,医务人员可以根据需要在计算机的辅助下对EMR进行信息抽取和统计分析,从而提高知识挖掘的效率。参考文献[1]SIEFKESC,SINIAKOVP.Anoverviewandclassificationofadaptiveapproachestoinformationextraction[J].JournalonDataSemanticsIV.2005,3730(4):171-212.[2]CROWLEYR,CHAVANG,MITCHELLK,eta1.cATIEendUsermanual(Phase2Version2.O).https://eabig.nci.nih.gov/tools/caties.(2009824)[3]CUNNINGHAMH,MAYNARDD,BONTCHEVAK,eta1.GATE:AframeworkandgraphicaldevelopmentenvironmentforrobustNLPtoolsandapplications[c].Philadelphia:Proceedingsofthe40thAnniversaryMeetingoftheAssoeiationforComputationalLinguistics.2002:168175.[4]cuNNINGHAMH,MAYNARDD,B0NTcHEVAK。eta1.DevelopinglanguageprocessingcomponentswithGATEVersion5(aUserGuide).http://gate.ac.uk/sale/ta0/tao.pdf.(2009824)

[5]KRAUTHAMMERM.NENADICG.TerTnidentmcatiOninthebiomedicalliterature[J].JournalofBiomedicalInformaties,2004,37(6):512-526.[6]STUDERR,BENJAMINSVR。FENSELD.Knowledgeengineering,principlesandmethods[J].DataandKnowledgeEngineering,1998,25(12):16卜197.[7]PEREZAG,BENJAMINSVR.Overviewofknowledgesha-ringandreusecomponents:ontologiesandproblemsolvingmethods[c].In:BenjaminsVR,ChandrasekaranB,Gomez-PerezA,eta1.ProceedingsoftheIJCAI99workshoponOntologiesandProblemSolvingMethods(KRR5),Stockholm,Sweden。1999,115.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEURWS/Vol一18/1-gomez.pdf.(2009-824)(收稿:2009-0903修回:20091030)


浅谈电子病历应用下医疗纠纷的法医学鉴定电子病历规范使用的体会
基于循证医学本体论的临床元数据设计方法研究基于电子病历的临床医疗质量评价
门诊医生工作站的功能及实施效果医院信息化建设的应用体会
点选式电子病历在治疗甲型HIN 1流感中美国医改起始IT
门诊医生工作站与医院门诊流程改造电子病历在医院药学中的作用
电子病历对整合病人全程医疗信息的作用卫生法教学案例素材的收集与应用
基于数据挖掘技术的辅助医疗诊断研究电子病历运维与医疗质量管理
电子病历的发展及展望以临床路径管理为核心的电子病历应用改进策略
信息发布:广州名易软件有限公司 http://www.myidp.net
  • 名易软件销售服务
  • 名易软件销售服务
  • 名易软件技术服务

  • 中文电子病历的信息抽取研究,中文电子病历的信息抽取研究