如何利用自然语言处理技术实现电子病历后结构化-刘帆
自然语言处理技术在电子病历处理中的实际应用

自然语言处理技术在电子病历处理中的实际应用随着信息技术的发展,自然语言处理(Natural Language Processing,简称NLP)技术在电子病历处理中得到了广泛的应用。
电子病历作为记录和管理医疗信息的重要工具,对于医疗机构来说具有重要的价值。
然而,传统的电子病历处理方式存在一些问题,如信息的海量性、结构化程度低等。
而NLP技术的应用可以有效地解决这些问题,提高电子病历的处理效率和质量。
首先,NLP技术可以实现电子病历中的文本自动化处理。
传统的电子病历往往需要由医务人员进行手动录入和整理,这样不仅耗时耗力,而且容易出现错误。
而通过NLP技术,可以实现对电子病历文本的自动化处理,包括文本提取、清洗、标注等。
可以提高电子病历的数据质量和处理效率。
其次,NLP技术可以实现电子病历中的信息提取和分析。
电子病历中包含了大量的医疗信息,如病人基本信息、诊断结果、用药信息等。
通过NLP技术,可以对这些信息进行提取和分析,并结构化保存。
例如,可以通过NLP技术提取出病人的主诉、病史等重要信息,为医生提供更准确的诊断依据。
此外,NLP技术还可以对电子病历中的文本信息进行情感分析,从而了解医生和患者之间的情感交流,为医疗机构提供更好的服务。
再次,NLP技术可以实现电子病历的分类和归档。
电子病历的分类和归档对于医疗机构的信息管理至关重要。
通过NLP技术,可以对电子病历进行自动分类和归档,减轻医务人员的负担。
例如,可以通过NLP技术将电子病历按照疾病类别进行分类,方便后续的统计分析和查询。
此外,NLP技术还可以实现对电子病历的语义化标注,使得电子病历更易于理解和使用。
最后,NLP技术还可以实现电子病历的智能化辅助。
电子病历的内容往往复杂多样,难以直接理解和应用。
而通过NLP技术,可以实现电子病历的智能化辅助,帮助医务人员快速定位和理解所需信息。
例如,可以通过NLP技术实现对电子病历中的关键词提取和搜索,帮助医生快速查找所需信息。
基于病种的结构化电子病历探讨

基于病种的结构化电子病历探讨邓世洲;王秀民;刘帆【期刊名称】《医学信息学杂志》【年(卷),期】2012(033)007【摘要】The paper introduces the target and function of structured electronic medical records(EMR),including medical qualitycontrol,research follow - up and so on,elaborates the realization approaches of structured electronic medical records based on diseases and analyzes its advantages and disadvantages,so as to provide structured data for clinical application.%介绍电子病历结构化的目的和用途,包括医疗质量控制、科研随访等,阐述基于病种的结构化电子病历的实现途径并分析其优缺点,为临床应用提供结构化存储的数据。
【总页数】4页(P11-14)【作者】邓世洲;王秀民;刘帆【作者单位】北京大学人民医院医学信息中心,北京100044;北京大学人民医院医学信息中心,北京100044;北京大学人民医院医学信息中心,北京100044【正文语种】中文【中图分类】R197.323【相关文献】1.探讨基于结构化电子病历平台的压疮数据采集设计 [J], 姚美蓉;兰晓娥;吴雪华;李涵2.基于结构化电子病历构建临床路径的数据利用方法探讨 [J], 王斌;刘春;谢琪;刘保延3.基于结构化电子病历构建临床路径的数据利用方法探讨 [J], 刘建4.基于结构化电子病历导向的医院信息化平台建设探讨 [J], 樊少辉5.基于结构化电子病历的糖尿病专病管理系统设计 [J], 陈绍明因版权原因,仅展示原文概要,查看原文内容请购买。
自然语言处理技术在医疗中的应用

自然语言处理技术在医疗中的应用随着信息技术的不断发展和应用,自然语言处理技术已经成为了许多领域中的重要技术手段。
在医疗领域中,自然语言处理技术也被广泛应用。
自然语言处理技术是指计算机通过对自然语言(如英语、汉语等)进行分析和处理,从而实现人机交互和语言处理的技术。
在医疗领域中,自然语言处理技术主要有以下几个应用方面。
一、医疗信息提取医疗信息提取是指从大量的医学文本中,提取出与疾病、症状、医疗、药品相关的信息。
利用自然语言处理技术,可以将庞杂的医学文本转化成结构化的数据,以便医生、研究人员等快速获取所需信息。
例如,早期采用手工方式进行信息提取时,效率低下、易产生误判,而使用自然语言处理技术就可以较为准确地提取出所需信息,更有效地提高信息利用率。
二、医学知识库建立医学知识库主要是指对大量的医学文献进行整合、建立知识框架,以便更好地理解、研究医学问题。
而自然语言处理技术可以将医学文本转化成机器可读的格式,从而更简单地建立医学知识库。
例如,研发一种新药需要耗费大量的时间和资金,而利用自然语言处理技术,可以快速筛选出和新药相关的医学文献,并从中提取出所需的信息。
通过分析、整合这些信息,可以更快速、更准确地了解新药的研究现状、潜在风险等信息。
三、医学文本分类在医学领域中,有大量的医学文本需要进行分类,以便更好地管理、利用这些文本。
例如,将病例文本按照疾病、症状等分类,可以更好地研究和分析相关疾病,改善医学诊断和治疗。
而自然语言处理技术可以通过语义分析等手段对医学文本进行分类。
四、医学自动问答医学自动问答是指利用自然语言处理技术,将医学问题输入计算机,计算机根据问题的语义和知识库,生成回答。
医学自动问答可以提高医学数据检索的效率和准确率,降低患者对医生的询问压力,提高健康咨询服务的可负担性。
虽然医学自动问答技术的应用在医疗领域中还有待进一步开发和完善,但是可以预见的是,随着自然语言处理技术的不断发展和优化,医学自动问答服务将会日趋成熟和普及。
电子病历标准化和结构化的应用

电子病历标准化和结构化的应用摘要构建“以患者为中心”的医院信息系统,将患者在院内所有诊疗信息关联起来,标准化和结构化电子病历是医院信息管理领域中最重要的一环,它不但是协助医务人员开展临床工作的有力工具,而且是后期教学、科研和质控的重要支撑。
关键词电子病历;标准化;结构化前言随着医院信息化建设的不断深入,将患者在院内所有诊疗信息关联起来,真正构建起“以患者为中心”的医院信息系统。
标准化和结构化电子病历是医院信息管理领域中最重要的一环,它是构建数字化医院和统一管理平台的基础和核心。
标准化和结构化电子病历系统不但是協助医务人员开展临床工作的有力工具,而且是后期教学、科研和质控的重要支撑。
1 电子病历定义电子病历(Electronic Medical Record,EMR)是医疗工作的全面记录,客观地反映疾病病情、检查、诊断、治疗及其转归的全过程,是医务人员在医疗活动过程中形成的所有文字、数据、图表、影像等资料的有机整合。
电子病历是患者在医疗机构内接受各种医疗服务过程中产生的临床诊疗和指导干预的数据集成,是随着患者诊疗过程逐步生成和记录存储。
电子病历改变了传统纸质病历的应用模式,它不仅仅是纸质病历的电子化,而且建立了一个以患者为中心的信息资源库,为各医疗机构的医护人员提供患者信息的实时访问和共享,以及基于电子病历的应用服务。
结构化电子病历是指从医学信息学的角度,将以自然语言方式录入的医疗文书按照医学术语的要求进行结构化分析,并将这些语义结构最终以关系型(面向对象)的结构的方式保存到数据库中。
电子病历系统中的病历数据直接以XML 方式进行结构化存储,对海量病历数据的检索和统计具有实在的意义。
电子病历为整个医疗机构信息化数据核心,相互交换的前提必然是基于相同的基础类标准、数据类标准、技术类标准和管理类标准,才能在不同的系统或不同的机构中被充分利用,所以说电子病历是整个卫生信息系统核心构件之一。
2 电子病历标准化是前提我国电子病历标准体系是根据卫生信息标准体系的主题框架标准,然后制定了《电子病历基本规范(试行)》、《中国医院信息基本数据集标准》、《电子病历系统功能规范(试行)》、《电子病历基本框架与数据标准(试行)》、《电子病历基本数据集》、《电子病历共享文档规范》、《基于电子病历的医院信息平台技术规范》、《电子病历与医院信息平台标准符合测试规范》和《电子病历系统功能应用水平分级评价方法及标准(试行)》等一系列卫生信息化得法规和技术标准。
自然语言处理在医疗领域中的应用研究

自然语言处理在医疗领域中的应用研究自然语言处理(NLP)是一种人工智能技术,旨在理解人类语言并将其转化为计算机可处理的形式。
近年来,NLP 的应用场景越来越广泛,其中医疗领域是一个热门的方向。
本文将探讨自然语言处理在医疗领域中的应用研究。
一、NLP 在医疗中的基本应用场景目前,医疗领域中自然语言处理的应用主要有两个方向:一是医学自然语言处理,用于医学信息的特定领域的处理,例如病历自动转换、医学文本分类、语义标注等技术。
这个方向主要是将医学相关的文本数据进行分类、标记、整理等,从而为医生和研究者提供更方便、快捷的医学信息。
二是临床自然语言处理,主要是将自然语言处理技术用于临床实践中,例如患者信息提取、诊断建议、医疗记录管理等,在临床实践中为医生提供更好的辅助。
二、现有的 NLP 医疗应用案例1. 电子病历自动分类许多医院采用电子病历记录患者信息,但病历往往以文本形式保存,分类和查询困难。
2019 年,深圳世界级眼科中心开发了一种基于深度学习的电子病历分类系统,可以自动将每个病例分类成不同的疾病类别,极大地提高了病历处理的效率。
2. 智能语音助理一些医院采用智能语音助理技术来减轻医生的工作负担。
例如,医生可以用语音输入患者病历信息,助理会自动将信息整理并存档。
这种技术不仅提高了工作效率,还有助于减少医生出错的概率。
3. 临床指南自然语言处理技术临床指南是医学研究中用于规范临床实践的一种指南,可以帮助医生进行准确的诊断和治疗。
然而,阅读临床指南常常需要耗费大量时间,因此,部分机构采用自然语言处理技术,将指南内容以可搜索的方式呈现,提高读者效率。
三、未来的发展方向随着医疗数据的不断增长,未来自然语言处理在医疗领域中的应用也将会更加广泛和深入。
下面列举一些可能的研究方向:1. 罕见病治疗罕见病的治疗是一个未被充分研究的领域。
NLP 技术可以用于罕见病的信息提取和分析,帮助医生诊断和治疗这些疾病。
2. 异常记录的提取和分类医疗记录中包含大量异常信息,例如各种病理学表现、X 光片等。
AI自然语言处理 信息提取与结构化数据

AI自然语言处理信息提取与结构化数据AI自然语言处理:信息提取与结构化数据AI自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,致力于将计算机与人类语言进行交互。
信息提取和结构化数据是NLP中的两个重要任务,它们有助于从大量文本中抽取有用的信息,并将其组织成结构化的数据形式。
本文将探讨AI在自然语言处理中的信息提取技术以及如何将提取到的信息转化为结构化数据。
一、信息提取技术信息提取是指从非结构化或半结构化的文本数据中自动识别和提取有意义的信息。
AI在信息提取方面取得了显著的突破,下面将介绍几种常见的信息提取技术。
1. 命名实体识别(Named Entity Recognition,简称NER)命名实体识别是从文本中识别出具有特定意义的实体,如人名、地名、组织机构名等。
通过训练模型,AI可以准确地识别出文本中的命名实体,并进一步理解文本的语义。
2. 关系抽取(Relation Extraction)关系抽取是指从文本中抽取实体之间的关系。
通过识别出文本中的实体及其关系,AI可以构建出实体之间的关系网络,从而更好地理解文本的含义。
3. 事件抽取(Event Extraction)事件抽取是从文本中提取出具有一定结构和语义的事件信息。
通过抽取文本中的事件,AI可以识别出事件的类型、时间、地点等重要信息,并进行进一步的分析和应用。
二、结构化数据的生成信息提取得到的数据往往是非结构化的,为了更好地应用和分析这些信息,需要将其转化为结构化的数据形式。
这可以通过以下几种方式来实现。
1. 实体关系图谱(Entity-Relationship Graph)实体关系图谱是将提取到的实体及其关系以图谱的形式进行组织和展示。
通过构建实体关系图谱,我们可以更直观地了解实体之间的关系,进而进行更深入的数据分析和挖掘。
2. 数据库存储将提取到的信息存储到数据库中,可以高效地组织和检索数据。
电子病历中应用自然语言生成结构化数据的研究

Elc r ni e c l c r e t o cM dia Re o d Appl a i n o t a i to fNa ur l c La g g e r to St u t e t s a c n ua eG ne a i n r c ur d Da a Re e r h
W a gW e n i
( ew r C n r h nN . H s i l h n 3 0 2C ia N t ok e t , a o1 o p a, a 4 0 2 ,h ) e Wu t Wu n
Absra tTh sa tce f c e n te d v lp e fee to i e h l y tda .o p tr t h oog o bne wih te t c : i ril o us s o h e eo m nto lcr n c tc noog o y c m u e e n l y c m i d t c h me ia s tm hr u h au a ln a e n u s tm , t a tucurd a a p r a h, e o ma o o lc o i m e c l d c l yse t o g n tr l a gu g i p t yse i o sr t e d t a p o c t f r t n f e e t n c n h i r i d a rc r sTh s t d eee to cm e ia e o ds tm p lc to wil p e ri u b ro e h ia f c t . e o d . e emeho si t lcr ni dc l c r yse a p iain l p a nan m e ftc c l i ules nh r a n i d i K e wo dsNau a a g a ;tucurd a Db r m l e to cme c l e o d y r : t r l n u geSr t e d m; 2pu ex ; c ni d a c 电子 科技发 展 的今 天 ,计 算机技 术与 病历 系统相 结合 ,通过 自然语 言 录入 系统 ,转 化为 结构 化数 据 的方 法 ,形成 电子 病历 。研 究这 些方法在 电子病 历 系统应 用 中会 出现 的一 些技 术难 点 。 关键 词 : 自 然语 言 ;结构化 数据 ;d2pr x ;电子病 历 b ue ml 中图分类 号 :T 24 P 7 文献 标识码 :A 文章 编号 :10 — 59 ( 01 0 — 17 0 07 99 21 ) 4 0 1— 3
自然语言处理技术在医疗中的应用

自然语言处理技术在医疗中的应用随着科技的迅速发展,自然语言处理技术(Natural Language Processing,简称NLP)在各行各业的应用中发挥着越来越重要的作用。
在医疗领域,NLP技术的应用为医生和患者提供了更加高效和准确的医疗服务,大大改善了医疗体验。
本文将探讨自然语言处理技术在医疗中的应用,并介绍其带来的好处。
一、病历数据的自动提取与分析传统的病历数据是以纸质文档形式存储的,这种形式不仅占用空间,还不易于查找和分析。
而NLP技术可以将纸质病历数据进行电子化处理,自动提取出其中的关键信息,如患者的基本信息、病史、诊断结果等,以文本形式存储在数据库中。
这样一来,医生可以方便地查询和分析患者的过往病历信息,提高了医疗决策的准确性和效率。
二、智能问答系统在医疗咨询中,患者常常希望能够得到快速和准确的答案。
利用NLP技术,可以开发出智能问答系统,实现患者对医生的常见问题进行提问,并能根据问题的内容和语义自动给出相应的回答。
这种智能问答系统不仅节约了医生的时间,同时也为患者提供了方便和便捷的医疗服务。
三、药物信息的提供与分析针对患者的病情,医生通常会给出相应的药物建议。
然而,由于药物种类繁多,副作用情况各异,患者常常难以理解和记忆医生的专业解释。
利用NLP技术,可以开发出药物信息的智能系统,为患者提供药物名称、适应症、剂量、禁忌症等详细信息的智能解释。
同时,该系统还可以分析患者的病情和药物使用情况,给出相应的用药建议,大大降低了患者的用药风险。
四、医学文献的分类与检索医学领域的研究文献数量庞大,医生需要从中获取最新的研究成果以指导临床实践。
NLP技术可以应用于医学文献的分类与检索,通过对文本的智能分析,将研究文献按照主题、疾病、年份等进行分类,使医生能够方便地查找到所需的文献资料,提高了临床决策的科学性和准确性。
总之,自然语言处理技术在医疗中的应用极大地提升了医疗服务的质量和效率。
通过对病历数据的提取与分析、智能问答系统的建立、药物信息的提供与分析以及医学文献的分类与检索,NLP技术为医疗领域带来了许多好处。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表示不知道具体是什么表示推测的大概意思接下来开始下午拓导课的第一个报告,首先呢,我们有请,北京大学人民医院的信息中心刘帆主任来给我们作报告。
刘帆主任呢,大家可能会比较熟悉,每年都非常活跃,他在医院做了非常多的信息化的建设工作,而且积累了非常多的经验,同时呢,他们院的很多工作在国内都是很领先的,让我们欢迎刘帆主任。
非常高兴在刘海一主任的专场有机会跟大家汇报下,我们最近在电子病历方面结构化的一些工作新进展。
因为今天讲的涉及内容需要做三元分析,就是如何运用新的方法来帮我们做电子病历的结构化。
因为本身呢,这也是比较新的东西,然后理论性比较强。
所以把今天要讲的东西分成了两部分。
第一部分呢,对我们所做的工作做一个概况的介绍,之后由我的同事,我的合作伙伴,北京医渡云科技有限公司的“何值”,他来帮我们做一些演示。
我们也专门为今天的会议做了一些在线的事实分析。
今天讲的课题是如何利用自然语言分析的技术来实现电子病历后结构化,大家都知道病历的发展其实很早,早在公元6世纪的希腊,而中国汉代的初期就有著名的内科医生开始记病历了;但是呢,这个病历沿用至今也是医院或者医教研管理,包括卫生统计和法律的一个重要依据文档。
当我们谈起病历时,其实病历有3个最主要的功能:第一个是存储功能,第二呢是传播功能,第三个则是病历本身数据的职能。
那么数据职能对我们有什么帮助?我们为什么要做结构化?大量的、海量的数据中获取,我们如何做医疗病历的指控,如何来帮助我们做临床数据的挖掘、科研分析以及做一些基本的卫生统计。
那么我们可以看到,现在我们说“病历”这个概念的时候,我们不是单纯的在说电子病历本的数据工具,而是网页电子病历,这个页面要包含病人在医院发生的所有临床活动的记录,当然这有些是来自我们传统病历厂商手写的文书,或者说非Touch文书,有的大部分来自我们各个医技系统的数据。
在此种情况下,我们五六年前就开始尝试在医院创建CDR数据中心,当时我们对整个临床数据的概念还是比较模糊的,我们希望能搭建一个SCII码,然后能把所有临床的数据都放进去;就现在的系统而言,是“13+1”。
13个本身已经结构化很好的临床数据源,再加上一个非结构化的临床数据源。
这个非结构化的数据源,就是我们一直都苦恼的,传统电子病历软件里面产生的大量文本信息。
其实对大部分的数据来讲,这是药品的数据字典表,在这个药品的数据字典表这只是四分之一,本身就已经涵盖了很多药品的信息,那其实在做医院管理或者说科研分析的时候,如何没有这种这么详细的结构化数据,很多事情是做不到的。
那好,我们在做非结构数据这一块应该包含多少活动记录?通过参考国家卫生部的电子病历基本架构和数据标准,把我们7个领域、16类活动的62个活动记录,都纳入非结构化的电子病历文档。
当我们把所有非结构化的东西进行总结,我们会发现有62个临床文档,还有其他的一些数据锁还有大量的数据源。
我们对于这种非结构的数据是怎么录入的呢?其实可以分为3个阶段:最开始的时候,我们都是手写病历;迄今为止病案统计室里面那些手写病历等珍贵资料,我们如何将其变成信息化?这是一个非常困难的问题。
很多医院只是对其进行扫描,简单的解决了存储问题和传播问题;但数据的利用问题还是解决不了。
后来,我们利用word文档,单机版开始写病历;还有电子病历软件开始写病历。
我们现在在电子病历软件里面写的东西是什么?我们可以看到写了3种东西,要么是自然语言,要么就是半结构化,要么就是结构化的表单式模板。
其实呢,我们从07年开始做电子病历,到现在16年已经接近10年了。
10年来,我个人觉得我一直没有解决一个问题,我们医院是一个纯结构化,还是一个半结构化的?纠结了很长时间。
我想在座的很多同道都在纠结这么一个问题。
很多医院对外宣传说,我们是纯结构化的电子病历;但是我们抿心自问这种纯结构化我们做不到,非常非常的困难。
我们在一开始探索的过程中,我们可以看到我们一直做的是半结构。
我们通过下拉菜单的方式来做这件事情,半结构的初始模板的工作量是非常巨大的,而且其中很多内容是不符合我们临床录入的习惯,因为由于没有一些层基的关系,造成我们的一些采集的数据没有上下文的关系。
比如说,我们采集到一个“黄染”,这个黄染是巩膜黄染还是皮肤黄染我们不知道,因为没有上下文的关系或者说没有数据文档之间的关系,在这种情况下,我们制作了大量的表单式的结构化的病历;但做出这样的病历之后呢,医政部门告诫说这种不符合我们的病历要求,因为这是表头化的病历,表单化不是我们那种“一竖无史”(07分17秒)的病历。
所以这又产生了其他的一些问题。
直到三年前,卫生部门做了电子病历的标准,这标准把所有临床文档分成了临床文档、文档段、数据组和元素四级;在这里面,又涉及了大量的标准元素拓扑。
我们当时觉得此标准出台后,我们应该遵从这样的标准去建立我们的电子病历。
把我们所有的病历、所有写病历的语言,我们归纳成4个结构后,把其中的所有元素再进行一一的归纳。
但是呢,做完之后,在2013年时跟海来公司通过半年多的时间去探索,去做了2个病历,非常简单的2个病历。
这是一个病历的所有元素,我们是花了大量临床大夫的时间,还有医院时间(08分05秒),做完的效果是什么?大家看这个视频,从视频的角度来看,我觉得做得非常的满意,但是事实来讲,花了半年的时候去做一两个病历的模板,显然这件事情是不可持续的,我不可能花那么多的精力在医院做这件事情。
所以大家可以看到,我们在选腹痛的时候,马上显示腹痛项目的所属性,可以看到有6种属性,到底什么位置?什么样的性质?什么时候加强?什么时候会自己加强?哪些加强或者减缓的因素以及如何缓解的?这是我们描述的一种疼痛的时候的所有属性。
当你看到这视频的时候,会觉得这挺好的,应该朝着这个方向去做。
但是呢,我们看后台的知识库,我们花了大量的时间去做,到现在为止,我们也做不下去。
所以,这方面也不再演示了。
这是我们现在医院里面的数据,我们在重新审视电子病历的结构化到底应该怎么做的时候,我们现在重新再看这件事情;我们现在医院的数据很多,有三类数据,有结构化数据,有非结构化数据,还有影像数据。
就人民医院一天的数据而言,一天能产生60个G的数据。
其实包含信息量最大的其实只占一点点,223.4M 的病历文书的文档。
其他的结构化的数据看着很多,其实影像占60%,(09分31秒)检验、检查,其他都占着很多,但正式含有信息量非常大的反而是只占200多M的病历文书文档,只是很小的一部分。
虽然说数量看着不多,但是信息量非常大,关键是如何挖掘出来。
这是我们下一步面临的巨大的一个挑战。
大家都知道,现在说智能的分析,大数据的技术,炒作得多火。
其实呢,就简单一点,如何把这个技术拿到医疗行业,为电子病历的结构化做贡献。
我们可以看到,其实在整个自然语言的处理上,就是两件事。
当然事实上是比较复杂的,现在这是简单的介绍。
第一个是文本如何处理,第二是我们怎么去理解语义,就是机器学习的方法去理解语义。
那第一个文本的处理办法就是要做就是要做分词。
一大块非text的自由文本,如何把它变成一个个分词;这是常规的语言,不是我们的医学语言。
分出来之后,有很多不同的理解。
怎么知道是对的分词还是一个错的分词?这里面又有很多学问。
那现在我们最常用的HanLP,han是我们汉语的汉,HanLP就是自然语言分析。
它有大部分那个开源的东西,在网络上都能找到。
但它是基本用于公共的文书,类似新闻报道,而不是基于医学的语聊库。
医学语言多复杂?现在的医学语言词汇大概有260多万条。
拿一个公共的语言库来作为医学的自然语言分析,显然是解决不了问题的。
在实际书写病历时,不同的医院、中西医、专科与专科之间又存在巨大的差异。
我们想要的是将人类的自然语言转化为机器能识别的形式。
将简单的临床描述变成一个结构化的数据,我们之后能通过检索等途径查询相关内容,这是一个比较困难的事情。
当然了,虽然这事困难,但是并非不可解决。
我们现在的工作,就是初步地尝试解决这问题。
这个问题,第一步,需要把所有临床的数据,其中包括结构化和非结构化的,特别是非结构化的数据,要清洗、分词、归一。
第二则是把医疗词库要先自定义,类似症状体征、药品名称等等都需要提前定义出来;定义之后,采用大数据技术,类似正则匹配、主体规则匹配等技术去匹配相应词汇,匹配之后再做归一处理。
归一之后呢,再通过语义规则、句法分析等,去真正理解大夫所写的内容的意思。
在这个过程中呢,大家能看到几个步骤。
第一个是正确的采集,全面采集了整个活动记录;第二步把活动记录里的东西分词,通过机器拆分成很多数据源的词汇;第三步则是,通过命名实体、正规则、语义规则等等,去构建医学数据库,最后形成通过计算机能够查询分析的结构化的数据。
这就是我们现在在做的事情,几个步骤:清洗、分词、归一、医学命名实体库,然后上下文的匹配和语义的分析。
可以看到这里面我们大量的词汇,代写的词汇。
就诊断,大家都知道ICD-9、ICD-10,但是呢,我们的手写里面有很多都不规范。
切出来的时候,分词乱七八糟。
可以看到光一个肾细胞瘤的各种书写法有很多很多,这跟大夫习惯是一样。
所以一个方面是词切出来了。
第二步,我们把肾细胞癌,这是一个实体的词汇去定义好了,那剩下的怎么去正确的归类,其实是有很多的人工加机器学习办法去保证这是一个准确的。
那所以在这里边,我们也做了一些这种标注,打标记的一些工作,告诉大面积脑梗死是脑梗死的一部分(14分07秒),所以每一两个词汇之间,我们都被去标注a等于b,或a大于b,或b大于a或a不等于b,或者a或者b没有关系,靠人工去标注。
人工标注一段时间以后,自然地计算机就会去学习计算机算法来告诉他这件事情,其实你自己去做这些事情。
那这一点我们可以看到主体,我们把所有的主体词汇都要挑出来,所以我们在这个工作中我们有大量的医学的同事一块来参加,就未来的很多的,我们的计算机的事情不是靠IT的人员能解决的。
这一部分都是医学背景,甚至医学生或者医生,或者工作中高年资医生帮忙来做,症状体征、解剖部位、病变化的方案等,然后我们要分清楚哪些是主体词,哪些是修饰词。
什么叫修饰词?有一个症状,它发生的部位是什么?它的程度是什么?比如说狭窄是主体词、贯穿主体词(15分01秒),轻度狭窄,可能就是一个修饰词,还有我们的时间序列词,我们怎么知道两个词之间,或者两个事件之间、两个词,他们之间时间的关系是什么?等等,那我这边举了一个叫做正规则的一个正则匹配的一个过程,比如说就简单的一个情况,有一个初潮在,通过这个正则匹配的算法,怎么能够找到把变成?(15分17秒)是什么时候?初潮是什么时候?所以这都是我们现在通过数据来进行分析的一个过程,那好大家可以看到,这是我们在实际的,这是一个完整的一个病例,我们的一个限定是,通过系统弄进去以后,马上就可以得出了所有我们想要了解的东西。