临床数据中心建设方案

临床数据中心建设技术方案

V1.1

撰写日期:2015年6月

修订日期:2015年6月

1.建设背景

1.1 临床数据应用现状

医院已经建立了包括HIS、电子病历系统(EMR)、实验室系统(LIS)、放射系统(RIS)、影像系统(PACS)、护理系统(NIS)、手麻系统(OAS)等信息应用系统,完成了包括:挂号收费、医嘱开立、检查/检验结果和影像记录、手术过

建设临床数据中心,是目前公认的,提高数据服务能力,改善临床数据应用现状,解决不断增长的数据挖掘和分析等需求的最佳方法。临床数据中心的建设不同于数据集成,它是通过对临床数据进行标准化、结构化地表达和存储,开放各种标准的、符合法律规范和安全要求的数据访问服务,为医院的各类数据应用提供统一的、完整的数据视图,实现辅助改善医疗服务质量、减少医疗差错、提

高临床科研实力和降低医疗成本的主要目标。

1.2临床数据中心的应用分析

经过临床数据中心的数据处理后,临床数据成为“机器”可识别的活动型数据,为各种纵深化应用提供数据开发和应用的支撑,向管理部门和临床业务人员提供高效的、大信息量的、数据集成平台无法实现的应用服务。

1)临床科研数据挖掘:构建科研目标信息原型,创建数据字典、专用词库和语义规则,建立病历综合资料的搜索引擎,为医护人员提供类型完备、数量众多、并且是完全结构化表达的高质量科研数据;

2)医疗服务过程质量监测:通过提取和展示病人就诊路径过程数据,分析接诊、诊断、检查、检验、手术、输血、护理、医嘱执行、合并症处理、负性事件预防、预后结果、费用成本等过程行为缺陷,通过图形曲线,为医护人员提供直观的数据展现,便于医护人员全面掌握诊疗过程,提高效率,为患者医疗安全提供保障;

3)实现闭环医嘱:闭环医嘱是对医嘱从开立、执行到结束整个过程监控管理。按常规实现方法,必须在各系统执行与医嘱相关的过程中,将信息写入医嘱过程控制表,从而加大了各业务系统的存贮与维护负担。建立临床数据中心后,可将闭环医嘱过程控制中产生的信息封装在数据中心系统中,设计出各类医嘱的执行流程。对各业务系统处理医嘱的数据库日志进行分析,得到相关信息写入医嘱过程控制表。实现不修改业务系统的基础上完成闭环医嘱信息的采集,同时通过消息推送,在医生工作站与PDA的医嘱表中显示每组医嘱的执行进程。

4)医生门户:对一个患者的多个孤立信息进行综合分析会对病人疾病诊断与治疗产生重大的意义。通过医生可定制的医生门户,大信息量综合显示各系统有助于医生快速掌握患者病情。医生门户可分为:科室门户、患者门户和专业门户,分别从不同角度展现诊疗服务全景数据。

5)院长决策:院长决策系统是建立在全院大数据量、大信息量综合分析结果展示,可以充分满足医院管理者对精细化管理的要求,医院管理者利用该系统,可以逐次梳理对医院管理至关重要的业务信息、流程信息、诊疗信息,从而为医院的科学管理提供分析与决策支持;

1.3临床数据中心系统建设需求

临床数据中心系统与数据集成系统有本质上的区别,传统的数据集成其主要目的在于完成将分离于各CIS系统的数据,通过主索引进行关联和集中存储,为用提供基于患者个人信息的统一查阅视图,俗称“数据迁移”。临床数据中心则需通过应用需求设定信息模型,完成非结构化数据中信息实体的“机器”识别和提取,并转化为全结构化表达,成为可直接二次利用的数据,俗称“数据信息化”。“数据迁移”可用传统的计算机技术实现,而“数据信息化”则必须借助于大数据处理技术实现。医院在构建专科化、专病化的管理、科研等纵深应用实践中,临床数据中心已成为必不可少的数据支撑平台。

构建临床数据中心应完成以下主要工作:

1)通过应用需求定义数据边界,即创建信息模型;

2)完成自由文本表达的数据项提取,生成“信息实体”并进行结构化表达;

3)提供可定制的多元化数据检索应用,并针对检索结果提供基础统计;

4)提供原始病历和临床数据中心中结构化病历数据项的统一视图,方便用户对照使用;

5)针对不同临床纵深应用类型,可定义数据导出形式,实现与SAS、SPSS 等统计分析系统的平滑数据对接;

6)实现基础的统计报表。

备注:以上工作内容中,第2项工作是临床数据中心的建设难点,本方案将重点阐述如何解决。

2. 系统结构

2.1 系统技术架构

5层架构组成,如图1所示。

图1 临床数据中心系统逻辑架构

1)临床数据层(Clinical Data Layer):医院已部署上线的各类临床信息系统(CIS)数据库,其中涵盖了医嘱、病历、检查、检验、手术麻醉、护理等主要临床数据,存储方式可以是依系统划分的分离式存储,也可以是基于院内数据集成平台的统一存储;

2)数据访问层(Data Access Layer):部属临床数据采集子系统,负责调度各类采集接口(根据医院需要,可使用:XML等平面文件、Web Service访问、数据表/视图、数据存储过程等),实现:数据源配置、采集范围自定义、数据字典管理、批量/增量采集配置等数据持久化功能,并提供原始临床数据的导出,采集结果形成临床数据记录(CDR);

3)数据预处理层:针对CDR中数据特点,完成:

①结构化数据(如:医嘱、检验等)的清洗标化,实现字典对照、格式单位一致化、代码统一;

②非结构化数据(临床自由文本记录)的结构化转换,形成具有代码化、结构化、一致化的临床信息提取结果,其中:

●医学词库:由通用词库(百度)、辅助专业词库(SNOMED:医学标准术语集)、临床专业词库组成,其中对于临床自由文本分词结果的准确性影响最大的是临床专业词库,在临床表达上,各医院、各专科、各病种的不尽一致,尤其在专科间、病种间区别较大,所以临床专业词库将依据专科/病种进行逻辑划分,根据历史病历分别建立;

●医学分词程序:结合医学词库,将临床自由文本分解成独立词语;

●临床语义模式库:语义模式是对词语顺序、距离、结果表达的综合标注,临床文本一般采用半结构化的方式组织内容,语言模式化较强,有利于进行语义模式判别,即便如此,由于临床文本专业性强,不同专科和病种的语义模式不尽相同,,所以语义模式库的创建与临床专业词库类似,也依据专科/病种进行逻辑划分,根据历史病历进行语言特征分析,从而分别建立;

●语义分析程序:在医学分词基础上,根据语义模式库中记录的语义模式

,完成信息实体的提取,并通过字典对照、格式转换等处理,表达为规范结果并进入临床主题数据库存储;

4)结构化数据层(Structured Data Layer):以专科/专科为逻辑划分基础,存储数据预处理层的结果主题数据库--全结构化临床主题数据库(EDR);

5)应用层:该层分为两部分,第一部分为应用中间件,提供各临床纵深应用功能所需的逻辑处理,第二部分为应用子系统,提供用户功能视图;

2.1 系统部署

临床数据中心系统在院内部署结构如图2所示。

图2 临床数据中心系统部署架构

其中:

临床数据处理平台:由数据服务器及配套操作系统、数据库管理系统软件组成数据基础环境,并加载数据预处理层相应软件,完成从CIS和院内数据集成平台访问临床数据、信息提取和数据清洗,临床主题数据库部署和全结构化数据存储;

应用平台:由应用服务器和配套操作系统组成应用基础环境,加载各临床纵深应用软件系统及相关应用中间件软件,为客户端提供应用服务,如临床应用系统是B/S架构,则在应用平台部署全部程序,如临床应用系统是C/S架构,则在应用平台部署以WebService组件构成的调用服务;

3.系统目标

“临床数据中心”系统应构建在临床数据处理与分析系统基础之上,实现以大数据架构为基础的医学语义分析、临床信息提取、多维数据检索、快速数据访

问,以及满足效率要求的并行数据处理,本项目需要完成以下主要内容。

3.1建立集成统一服务于纵深应用的临床数据记录(CDR)

目前医院内运行的各类信息系统(HIS、EMR、LIS、PACS、NIS等)都是针对业务类型设计和实施的,在数据集成和统一服务上考虑并不完善,而这些数据之间从整体诊疗过程来看,在时间关系和因果关系上又有着千丝万缕的联系,所以,临床大数据分析分析的基础是必须将其首先集成,完成统一的主索引服务,具体可采用以下步骤完成:

第一步:对医院现有业务系统数据接口交互方式进行分析;

第二步:确定符合标准的接口实施规范;

第三步:各业务系统按照统一接口标准和规范完成系统改造;

第四步:在数据交换平台上完成全院统一的术语(值域代码)服务、业务共享服务的封装、注册和发布;

第五步:在数据交换平台上实现全院统一的主索引应用;

第六步:以数据交换平台为数据基础,以基于大数据处理模型的新型临床数据处理与分析方法为手段,采用相适应的大数据处理技术架构,构建临床应用。

3.2 依托大数据处理方法,完成大量非闭合、非结构化数据的结构化转换

大量以EMR病历文书和检查报告等以自然语言表述为形式的临床数据,并不能构成后期数据挖掘的直接数据基础,能进入挖掘分析的数据应该是:“患者腹部B超结果是否正常”、“病理检查结果是否完整”、“患者是否有高血压家族史”等以0/1为表达形式,以数据项编码代表某数据项,由些构成了键/值对,形如:“A013502:0”、“B120950:1”,此类数据通过字典解释其含义,只有这样的数据才能成为构建数据仓库、进行数据挖掘的数据基础,但要完成这样的转换,必须

3.3 建立专病化/专科化的临床数据仓库和数据挖掘模型

临床数据仓库的建设应具备相应的数据边界和特殊表达,在临床实践中,由于病种/专科内部在治疗方法、药物类型、诊断评估、检查检验和结果表达、临床记录等方面的强耦合特征,以及病种/专科间的松散耦合特征,构建以专科/专病为逻辑划分标准的临床数据仓库是合理可行的,同时也可在此基础上规划相

应的数据权限,并根据临床应用需求构建相应的数据挖掘模型。

3.4为临床数据服务建立合理的结果展现

数据挖掘过程存在着方法选择和类型选择问题,挖掘结果存在着多维视角,比如,从患者和药品医嘱频次统计所构成的关联分析和偏差检测上,可能某类疾病的抗感染用药是合理的,但从时间序列分析上来看,可能在抗感染用药时间整体偏差会不符合要求,即一致性不好,对患者人群再进行疾病类型、严重程度、入院方式、体征、年龄、性别、既往史、家族史、检查结论、检验结果等多变量的聚类分析后,会发现影响抗感染用药时间整体偏差的主要因素在于某一特定类别患者,于是医院临床科室和相关管理部门可以针对该类患建立特定的管理措施,由此完成从杂乱数据到管理结论的映射。本项目也旨在为这一过程建立界面友好的分析工具集和结果展现方式。

3.5为纵深临床应用建立统一消息机制

数据挖掘会产生大量的数据挖掘结果,这些结果需要通过消息平台及时通知给消息应用方,以及原因点相关人员,并通过反馈机制及时回收应答消息,从而完成数据闭环和逐步改进,例如:当发现一例病理结果不完整的病例时,需要及时将该消息(病案号、病理检查单号、病理报告时间、缺失内容)及时通知临床科室、病理科相关医务人员,以便查缺补漏,病理科医务人员完成补充后,再及时通知临床科室接收新的报告,通过这种强化的提醒机制,病理科也可以在今后工作中减少或杜绝此类问题的再次发生。

4. 建设步骤

临床数据中心建设整体步骤如下:

第一步:数据需求沟通。与数据服务对象(相关科室)沟通床纵深应用及其完成确定数据项集合--数据服务边界,以及具体的应用功能要求;

第二步:病案数据预采集。开发CIS数据接口,采集1年历史病案数据,包括医嘱、检验、检查、电子病历、护理、手麻等主要临床数据;

第三步:数据预分析。根据数据项集合和历史病案数据,完成数据项提取规则制订,生成抽样病例的数据提取结果;

第四步:提取结果确认。与数据服务对象沟通抽样病例的数据提取结果,验

证结果是否满足需要;

第五步:开发数据提取程序。包括临床专业词库、语义模式库、医学分词程序、语义分析程序、相关数据字典;

第六步:桌面应用开发。与第五步同步开展临床纵深应用桌面系统开发;

第七步:上线试运行。将第五步、第六步成果在院内部署上线,相关用户进行系统试用,并同期开展运行稳定性和效率在线测试;

第八步:系统调整。根据试运行意见,完成系统功能调整;

第九步:交付使用和后期跟踪维护。

相关文档
最新文档