引言 随着信息技术的发展,电子病历作为医疗信息化建设的重要内容,在我国已经得到了长足的发展,并逐渐成为一种记录和管理患者信息的非常重要的现代化手段。与此同时,临床决策支持系统(ClinicalDecisionSupportSystem,CDSS)作为医院信息系统向智能领域的延伸,也开始成为我国医疗信息化建设的新进程。电子病历涵盖了住院志、病程记录、会诊记录、手术记录以及各种医技科室发出的超声、内镜、心电检查报告等多种文档。但是,现有的结构化录入技术却无法完全满足临床对于病历信息的表示要求,如何在不影响临床医生以自然语言记录信息的前提下,将非结构化信息转化为结构化信息,是电子病历发展过程中亟需解决的问题。此外,如果计算机可以自动准确获取多种文档中的重要临床信息并服务于CDSS,将能提高医院的医疗质量和降低医疗成本。信息提取(Informationextraction)技术可以根据预先定义的模版,从文本中提取出特定的信息并形成结构化数据,以帮助人们对信息内容进行整理和分析J。应用信息提取技术,能够很好解决上述一系列问题。因此,本文针对如何将抽取技术应用于电子病历进行了实践研究。 总体概述 由于电子病历种类繁多且内容复杂,实现完整病历的信息抽取非常困难。本文对病历的部分内容进行信息提取,以为完整电子病历的信息提取累积经验。既往史中包含了大量患者既往的健康信息且用语相对规范,因此本文选择它作为提取范围,提取其中的病症名、是否曾经患有、出现时间、目前治愈状况等目标信息。命名实体识别是信息提取的第一步,其方法主要有:基于规则的方法、基于词典的方法和机器学习的方法J。本文中的命名实体主要指的是病症和时间,考虑到缺少大规模的中文病历语料库的支持,本文决定采用基于词典和规则相结合的方法。目前,很多生物医学领域的信息提取系统都用到了浅层语法分析。J,即仅通过词汇或短语的顺序、彼此间的关系进行提取,而不用理解文本的内在含意。在浅层语法分析中,有限状态自动机(FSA,以下简称自动机)是一种常用工具,用于实现短语识别和句子模式识别等功能。以时间短语为例,通过图3给出的状态图可以清楚地了解自动机的识别过程。其中,qi(0三i3)表示状态,q。为初始状态,q为结束状态,状态间的连线表示匹配到不同词类后的状态转移,每一条完整路径表示自动机依据相应的规则所完成的一次识别。如图1所示, 当识别路径为q。一q一q一q时,表示自动机所识别的时间短语由数词(m)+其他数词(m)或量词(q)+时间量词(timeunit)等3部分组成,如30(m)余(m)~(timeunit)。 经典的信息提取系统FASTUS,应用自动机取得了很好的提取效果。参照FASTUS系统,本文自行开发了一个基于c语言的简易信息提取系统。信息提取整体过程如图2所示, 大致经历了3个阶段,分别从词语、短语、句子3个层次进行处理,后一层以前一层的结果为基础,具体可以分为5个步骤,过程中使用了3层自动机: (1)命名实体识别和标注经历了3个步骤:术语查找、分词和实体标注。通过术语查找,可以实现病症的初步识别。由于汉语的书写特点,词与词之间缺少天然的分词标记,文本需要先经过分词处理,为进一步识别奠定基础。实体标注将依据实体识别规则实现实体的最终识别和标注,将借助底层自动机来完成。(2)信息抽取经历2个步骤:获取句型和句型匹配。在实体标注的基础上,中层自动机用于识别命名实体,并提取其位置关系来获取常见句型模式。对每一常见句型,本文通过人工分析句型特点,制定了相应的提取规则。顶层自动机则用于将新提取的句型与已知句型进行匹配,以决定采用哪些提取规则。本文系统中所用的病症术语库包含24000个术语,主要来源于ICD一10(TheInternationalClassificationofDisease,10thRevision),在保留了原有的编码规则的基础上,通过合弃无关术语、拆分部分术语和扩充术语等三个步骤构建。分词则采用由中科院研发的ICTCLAS系统,并进行了一定的词典扩展,将新建术语库中的术语纳入其用户词典中。实体识别和信息提取规则通过样本集的人工统计分析获得。本文中使用的样本集由《病历书写示范》和30份病历的既往史中所摘取的151个句子构成,共可划分为339个子句。■-信息提取详细过程2.1实体初步识别实体初步识别采用术语库查找来实现病症的识别,但是机械式的查找容易造成分割歧义。为此,本文主要借鉴了文献中的相关方法进行歧义消除。整个初步识别过程如下:首先,将每个句子划分为以逗号、分号、句号等标点结束的子句;然后,对每个子句采用高精度的反向最大匹配算法查找病症术语;最后,对包含病症的子句进行分词和歧义消除处理,而对不包含医学术语的子句只进行分词处理。如图3所示, 放弃诃性为动词的感染,将错误划分的无意识/障碍调整为无/意识障碍;放弃从牛痘苗中错误提取到的术语牛痘。 2.2实体最终识别如典型肺炎、急性菌痢等病症,通过初步识别只能识别出划线部分。同时,ICTCALS虽然能够识别部分时间,却无法识别5岁、l0余年等类型的时间短语。为了更精确地进行实体识别,并引入了disease和time~unit这2种语义标签,用于标识病症和时间量词(年、月等),对初步识别的结果进行了语义标注。依据样本集统计结果,制定了5条实体识别规则,其概略表述如下:RIdisease一(tlblmtalnlzlh)diseaseR2diseasediseasek?diseaseR3tm(mlq)?timeunitR4ta?t(f]m)?R5ttt其中m、q、t等单个英文字符表示词性,()表示分组,f表示析取,表示出现0至多次,?表示出现0至1次。以规则3为例,自动机依据该规则,可以将符合符号一右边部分的文本识别为一个时间短语(t),具体识别过程可以参见前文中的图1。 为了便于获取统一的句型,建立了3类语义词集,加上病症和时间,句型将由5部分组成。不同句子成分采用不同的语义标识,标注格式统一为(标识信息内容),其中:DI表示病症;TP表示时间,VM表示第一类语义词,用于标识病症的开始(患、发现等);DS表示第二类语义词,表示病症治愈状况(治愈、好转等);NEG为第三类语义词,表示否定意义(否、非等)。依据规则和语义词集,利用底层自动机对样本集中的句子进行自动识别和标注,典型标注结果如下所示:例1:{TP去冬12月}{VM患}{DI典型麻疹}、(DI肺炎},,w例2:{TP5周}{DS治愈}。/w例3:{NEG无}{DI血吸虫病}史/ng。/w2.3信息提取本文中,具体目标信息的类型判断和提取由中层自动机来完成。如{TP去冬l2月),中层自动机不仅能识别其句子成分为时间短语(TP),还能提取其中的时间信息(去冬12月)。为获取一致的句型模式,对样本集中的339个子句利用中层自动机自动提取其句子结构,并将顿号、和等可以表示并列的词或标点统一用and代替。最终,获得了表1中5类含有目标信息的常见句型模式,其中模式14为含有病症名的句型,模式5为含有治愈状况的句型。符号使用说明参见3.2。 从句型上看,多个病症并列的现象普遍存在,它们除了名称和代码不同,其余的信息均相同,可以统一处理。因此,本文以句号结尾的自然句为信息提取的独立单元,当句子中出现分号时,则以分号划分的分句作为信息提取的独立单元。通过对各个句型模式本身的特以及所处的上下文环境的分析,本文针对每一句型模式设置了不同的提取规则。最后,对每一独立信息提取单元,根据提取到的句子结构,利用顶层自动机进行句型识别和分类处理,再利用中层自动机依据相应规则完成目标信息提取。■实验结果与数据分析由于既往史中会出现大量重复的描述语句,因此,本文随机提取700份来自医院各个科室病历,剔除其中完全相同的语句,最后获得374条语句,共1031子句,作为测试样本进行信息提取。实验将每一病症作为信息提取的单元,共提取~146S个信息单元,其中有100个单元提取到了完整的信息,314个单元提取到了时间信息,108个单元提取到了治愈状况信息,各项实验结果数据如下,其中F=2PR/(P+R): 实验结果表明,对于句子结构相对简单的自由文本,采用浅层分析的技术,在句型匹配的基础上,依据少量的提取规则就能实现信息提取。本文依据句子结构和目标信息的相对位置来实现信息提取,并取得了较为满意的提取结果。但是,从治愈状况较低的召回率上也可以看出,仅依靠浅层句法分析并不能获得文本中的全部信息。如血压经间断服药后得到控制,表示患者患有高血压但未完全治愈,超过了一般浅层分析能处理的范围,需要经过更深层的语义分析才能理解。因此,对于描述复杂、缺乏规律的句子,仅通过几个关键描述词,信息提取的效果并不理想,需要进一步的句法分忻才能进行识别和提取。本文对病症名和时间的提取结果进行了分析,发现错误主要是由标点错误、句法分析不足、语义歧义和用语本身的错误等几个因素造成的,如何加强句法分析和歧义消除将是本课题今后研究的方向。参考文献[1]DoanA,NaughtonJF,RamakrishnanR,eta1.Informationextractionchallengesinmanagingunstructureddata[J].ACMSIGMODRecord,2008,37(4):1420[2]ErkK,Pad6S.SHALMANESERAToolchainForShallowSemanticParsing[A]InProceedingsofLREC[C],2006,Genoa,Italy.[3]MykowieckaA,MarciniakM,etalRulebasedinformationextractionfrompatients’clinicaldata[J]JournalofBiomedicalInformatics.2009.42:923936[4]ChangCH,KayedM,etalASurveyofWebInformationExtractionSystem[J].IEEETransactionsonKnowledgeandDataEngineering,2006,18(10):1411-1428.[5]肖舂,周建龙.生物医学领域中的文本信息抽取技术与系统综述[Jll计算机应用研究,2007,24(9):1-6.[6]霍仲厚若病历书写示范[M].江苏:江苏科学技术版社,2004.[7]李吴昱,李莹,等中文病历文档术语提取和否定检出方法[J1l中国生物医学工程学报,2008,27(5):715-720.
信息发布:广州名易软件有限公司 http://www.myidp.net
|