通过构建命名实体识别规则,建立分类词表和导人中文医学领域本体,可以完成EMR文档集的自动语义标注(见图3),也可以进行新的标识或已有标识的修正,从而在语义标识基础上实现语义信息抽取,并对结构化的信息抽取结果进行统计分析。2.5.1患者性别和年龄特征信息抽取通过对患、者性别和年龄特征的抽取可以得出EMR文档集中脑梗死患者的性别和年龄分布状况。信息抽取和统计分析结果(见图4)显示,82例患者中,男性59例,女性23例(男女比例为2.6:1);H864年龄最大87岁,最小1岁,平均值为64.76岁,标准差一15.702;5O岁以上73例(占全部病历数的89.O2),5O岁以下9例(占全部病历数的1O.88)。2O
2.5.2脑梗死疾病治疗用药特征信息抽取本文以神经系统解剖结构、神经系统疾病治疗用药、冠心病治疗用药以及中医用药为主题,进行EMR文本特征提取。提取的特征项的主要类型或次要类型包括:minorType=NeuSysAna(:~O经系统解剖)majorType=neurodrugs(神经疾病治疗用药)majorType=heartdrugs(冠心病治疗用药)minorType=TCMDrug(中医用药)。对抽取结果进行分析,可以得到82份EMR的用药情况。
其中,脑梗死治疗用药有7类:①解热镇痛抗炎药(阿司匹林);②影响脑血管、脑代谢及促智药(奥拉西坦、奥扎格雷钠、丁苯酞、金纳多、血塞通、银杏叶提取物、恩必普、阿米三嗪萝巴新、克林澳、尼莫地平、鼠神经生长因子、依达拉奉、阿魏酸钠、吡拉西坦、氟桂利嗪、葛根素、桂哌齐特);③抗癫痫药(卡马西平、妥泰);④抗抑郁症药(阿米替林、西酞普兰);⑤抗精神病药(奥氮平、氟哌啶醇、奋乃静);⑥镇静、催眠及抗惊厥药(鲁米那、苯巴比妥);⑦中枢兴奋药(洛贝林、尼可刹米)。冠心病治疗用药有5类:①钙通道阻滞剂(硝苯地平、地尔硫卓);②调整血脂药物(辛伐他汀、洛伐他汀);③硝酸酯制剂(硝酸甘油);④溶血栓药物(尿激酶、肝素、华法令);⑤抗血小板药物(阿斯匹林)。在82份病历中,中药银杏叶和丹参用得最多;有两份被诊断为中风(中经络)并结合中药治疗的病历,分别用到了17种中药和14种中药。2.6讨论为了全面掌握疾病发生、发展和预后的规律性,临床上需要对患者的病历进行统计分析。但是通过人工阅读和统计的病历分析费时费力。本文通过基于GATE的EMR信息抽取,得到了有关脑梗死患者性别和年龄分布情况以及治疗用药一般性规律的知识。信息抽取的整个过程是经计算机阅读而完成的。虽然这些从82篇EMR文档中得到的知识需要领域专家的审定,然而对于计算机来说,这些知识确实是新的知识。如果文档集数量足够大,在领域专家的参与下,通过基于本体的EMR信息抽取进行知识发现是可行的。而且,利用本体就可以根据用户的需求,在EMR未经任何标引的情况下进行面向主题的文本特征提取。例如,针对82篇EMR文档集,可以将主题确定为脑梗死发生的危险性分析、脑梗死的定位诊断、脑梗死合并其它病症时的联合用药等。3结束语自然语言理解和本体的理论和技术手段有效地改善了计算机对文本的理解能力。在此基础上,医务人员可以根据需要在计算机的辅助下对EMR进行信息抽取和统计分析,从而提高知识挖掘的效率。参考文献[1]SIEFKESC,SINIAKOVP.Anoverviewandclassificationofadaptiveapproachestoinformationextraction[J].JournalonDataSemanticsIV.2005,3730(4):171-212.[2]CROWLEYR,CHAVANG,MITCHELLK,eta1.cATIEendUsermanual(Phase2Version2.O).https://eabig.nci.nih.gov/tools/caties.(2009824)[3]CUNNINGHAMH,MAYNARDD,BONTCHEVAK,eta1.GATE:AframeworkandgraphicaldevelopmentenvironmentforrobustNLPtoolsandapplications[c].Philadelphia:Proceedingsofthe40thAnniversaryMeetingoftheAssoeiationforComputationalLinguistics.2002:168175.[4]cuNNINGHAMH,MAYNARDD,B0NTcHEVAK。eta1.DevelopinglanguageprocessingcomponentswithGATEVersion5(aUserGuide).http://gate.ac.uk/sale/ta0/tao.pdf.(2009824)[5]KRAUTHAMMERM.NENADICG.TerTnidentmcatiOninthebiomedicalliterature[J].JournalofBiomedicalInformaties,2004,37(6):512-526.[6]STUDERR,BENJAMINSVR。FENSELD.Knowledgeengineering,principlesandmethods[J].DataandKnowledgeEngineering,1998,25(12):16卜197.[7]PEREZAG,BENJAMINSVR.Overviewofknowledgesha-ringandreusecomponents:ontologiesandproblemsolvingmethods[c].In:BenjaminsVR,ChandrasekaranB,Gomez-PerezA,eta1.ProceedingsoftheIJCAI99workshoponOntologiesandProblemSolvingMethods(KRR5),Stockholm,Sweden。1999,115.http://ftp.informatik.rwth-aachen.de/Pub1ications/CEURWS/Vol一18/1-gomez.pdf.(2009-824)(收稿:2009-0903修回:20091030)
信息发布:广州名易软件有限公司 http://www.myidp.net