肿瘤大数据人工智能创新应用建设方案

1.项目概述

随着老龄化进程的加快，我国癌症发病、死亡率将不断上升，国家、社会和个人经济负担逐年递增。肿瘤防诊治刻不容缓。《“十三五”全国人口健康信息化发展规划》（国卫规划发〔2017〕6号）明确提出集成基因组学、蛋白质组学等国家医学大数据资源，构建心血管、肿瘤等医学数据示范中心的建设要求。因此构建面向全院各临床科室的肿瘤大数据科研应用平台，为采集、存储、共享、分析、研究肿瘤诊疗提供技术支撑十分必要。本次拟依托我院临床数据中心（CDR）的海量临床数据，整合院外随访数据、样本库数据、组学数据，构建宏观临床表征数据+微观基因组学数据、院内数据＋院外数据以及临床+科研于一体的肿瘤大数据创新应用平台，形成完整高质量肿瘤大数据科研库，协助临床数据应用和挖掘，推动肿瘤疾病救治、科研工作、精准医疗等方面的应用。条件允许下，进一步联合医联体内部各成员单位，采集医院HIS、EMR、LIS 等信息系统数据，构建融合多种信息来源，并积极开展多中心肿瘤临床科研探索研究，最终构建江苏省人民医院集团肿瘤大数据创新应用平台，助力提升我院的临床科研工作效率，为科研提供数据支撑及研究新思路，实现科研与临床相互支撑、相互促进。进而深化医学基础共性技术研究深度，形成临床科研成果共享机制。

2.建设方案

2.1.建设内容清单

(1)医疗数据集成与治理

(2)医疗数据标准管理

(3)基础数据中心

(4)数据检索

(5)统计分析

(6)肿瘤大数据驾驶舱

(7)肿瘤大数据全息视图

(8)肿瘤科研项目管理

(9)肿瘤大数据队列管理

(10)肿瘤大数据随访管理

(11)肿瘤专病数据库

(12)应用平台管理

2.2.总体设计

(一)技术路线

(1).应用技术架构要支持集群部署和负载均衡，支持模块化设计与开发，数据解析引擎支持流处理计算架构，前台UI引擎支持组件化编程；系统需采用B/S架构，纯WEB版产品界面；

(2).支持Linux和Windows操作系统；

(3).支持集成支持主流数据库系统，如ORACLE、MySQL、PostgreSQL、SQL Server等；支持分布式关系数据库支持大数据存储

和计算，能够实现一键水平伸缩，多副本数据安全，支撑水平必须保证10000用户并发访问的性能要求；

(4).支持容器编排的部署方案，具备完善应用部署能力，提供应用部署管理平台的界面和部署方案；

(5).支持实时同步医院各业务数据，实现数据完整、准确与标准；

(6).具备大数据存储、计算、分析、服务能力，支持分布式文件储存、分布式计算，要求快速响应海量数据查询。

(7).支持系统性能监视，实现对设定的关键指标进行监控，并能可视化展示监视情况。

(8).支持HTTPS协议、SSL/TLS传输协议。

(二)系统性能设计

(1).系统稳定性要求：具备较强的鲁棒性，支持7*24小时不间断运行；

(2).具有较精准的自然语言处理（NLP）模型，且处理效率高。

(三)数据结构化设计

要求采用自然语言处理(NLP)技术对各类医学文本进行结构化处理。要求如下：

(1).具备多种医学文本类型的NLP处理模型，包括入院记录、病程录、出院记录、体格检查、各类检查报告等；

(2).支持NLP结果的可视化展示，包括医学实体、医学关联关系、医学概念等展示，为今后构建知识图谱奠定基础；

(3).支持文本变量溯源功能，能够精准定位并高亮展示抽取的变量在原文中的位置；

(4).支持按专病模式批量提取多种病历文本中的专病变量，以患者为中心提取并展示病历类型变量，并展示有效变量数量及占比；

(5).支持术语检索，满足诊断字典、检验、检查、手术及操作、药品字典、治疗等匹配模式；

(6).支持快速检索术语，展示术语及其同义词。能够实现多层级、多维度展示术语内容；

(7).支持人工干预上述的病历类型、专病模式等关联的NLP模型，提供可视化增删改的维护界面，优化完善对应的病历类型、专病模式提取的变量；

(8).支持多种结构化格式存储。能够将非结构化的医疗文本中提取的变量存储成JSON、二维表等格式。

(四)数据标准化设计

系统要能够在数据集成及整合过程进行数据标准化，以更有效的用于临床科研。

(1).遵循国际、国家、行业相关的行业标准规范，通过各种数据治理手段，结合标准的医疗术语的标准规范管理，实现数据的标准化；

(2).实现科室、病区、诊断编码、疾病、药品、检验、检查、手术及操作、治疗等关键业务编码的标准化和统一；

(3).数据集成及整合过程中符合科学研究标准，具有完整性、

自洽性、一致性；

(4).支持提供统一标准的对外数据服务及数据接口，满足不同业务场景需求及多源异构的数据源。

(五)数据与信息安全设计

(1).根据“数据不出院”的原则，采用院内部署模式，数据存储及系统维护实现本地化，确保数据安全；

(2).遵循医院数据接入相关管理规定实现系统对接工作，只从系统获取数据，原则上不回写数据，不影响、干扰医院各项业务正常开展；

(3).所有用户的密码均以不可逆加密方式存储于数据库中；

(4).支持用户的权限的设置：支持医院管理人员管理各种角色、用户的功能权限、数据访问和使用权限的定义，支持对用户及权限的批量导入、导出、修改等批量操作功能；

(5).支持操作日志的记录：记录所有用户的所有操作，记录内容包括访问IP地址、操作时间、操作用户名、操作内容及涉及的模块、操作原因、操作方式等信息，满足5W1H原则（when、where、who、what、why、how），对所有操作均可实现溯源追踪；

(6).支持患者去隐私管理：在应用或系统设计时充分考虑患者相关数据隐私保护政策，在满足临床科研需求同时，有效保障患者隐私。

2.3.系统功能设计

(一)医疗数据集成与治理

依托我院临床数据中心（CDR）的海量临床数据，集成院外随访

数据、样本库、组学数据，构建以患者为中心的肿瘤大数据创新应用平台。

(1).支持以CDC+ETL实现方式实现数据集成，并实现非结构化数据向结构化数据转换；

(2).支持全量数据集成：患者临床数据和科研数据全覆盖，历史数据和实时数据全覆盖，数据实时采集方式须对被采集系统的数据库性能无影响；

(3).支持不同数据类型的数据集成，如不同数据库格式、文本格式、XML格式、JSON格式等，支持结构化数据、半结构化或非结构化数据的解析与融合；支持不同数据生成阶段的数据集成：不同数据生产阶段对数据进行特异性加工，导致数据呈现时间维度的切面特征，要求通过标准规范统一的数据接口，实现不同数据生产阶段数据标准采集与集成；

(4).支持数据集成全生命周期的监控与管理，实现数据管理标准化、规范化，集成过程透明化、安全化，数据分析可视化。提供与源数据库核对校验机制，确保数据集成过程中数据不丢失、不遗漏、数据完整；支持问题告警，确保第一时间解决问题，保障数据完整性；

(5).支持数据内涵校验，保障数据质量。提供可视化数据校验规则配置功能，通过对获取的数据内容进行标准性、规范性、完整性、准确性、一致性等多维度校验，支持问题告警，第一时间处理问题，保障数据质量；

(6).支持基于人工智能技术将集成的数据进行结构化、标准化

和归一化处理，使之成为临床科研直接利用与分析的数据，包括：支持基于自然语言处理技术的医疗文书类非结构化数据治理；支持非标准化概念与标准化概念间的映射转换，实现数据标准化应用；

(7).支持患者隐私信息脱敏技术，包括结构化数据脱敏及半结构化、非结构化的中文医学文本脱敏；

(8).支持处理多种病历类型的自然语言处理模型，支持自定义变量拓展抽取，利用人工智能技术从医学文本中提取复杂临床科研变量，并通过专家审核，满足医院深度肿瘤科研需求；

(9).通过提供数据治理展示平台，支持直观展示数据治理过程和结果，主要包括：数据整体结果及数据质量概览，包括集成数据总览、结构化数据概览和非结构化数据概览、数据质量监控报告细节展示及下钻上钻分析；支持元数据、主数据、数据映射等展示；支持NLP 中文本语义理解模型展示；支持NLP变量提取结果展示及其原文溯源；支持检验、检查、诊断、药品等归一化标准及结果查询与展示；数据问题总览及明细展示，包括数据问题处理过程记录，实现数据质量全生命周期管理。

(二)医疗数据标准管理

将医疗数据分为医疗基础数据和医疗指标类数据。对于已结构化基础数据或指标类与国家标准、国际标准或行业标准分别进行映射，从而实现已结构化变量的标准化。

(1).支持术语字典对照国家、国际标准编码完成映射，如诊断名称、症状名称、检验名称、药品名称、检查名称、手术与操作等；

(2).支持国际标准临床术语SNOMED-CT、LOINC、MedDRA、ICD-10编码（国标2.0版）等标准之间的对照映射。

(三)基础数据中心

基础数据中心存储经过数据治理后形成高质量的结构化数据，同时存储半结构化及非结构化的初级数据。基础数据中心存储的数据须具备以下要求以满足科研检索、科研项目、统计分析需要：

(1).数据中心支持以分布式存储数据（包括结构化数据、半结构化数据、非结构化数据）；

(2).数据符合相关国际、国家及行业标准规范，具备较强的标准性；

(3).以患者为中心的包括基本信息、病历、检验、检查、治疗、手术、随访、样本及CRF科研表单采集的数据等在内的全生命周期全量数据，其中数据以结构化为主，提升科研应用效率；

(4).数据结构符合临床研究视角，便于临床科研分析利用。

(四)数据检索

在进行项目检索、病例发现检索、病历检索等操作时，对输入的非结构化检索词，能够基于NLP技术，使其进行精确检索，保证检索速度和准确度，检索结果快速响应，响应时间应在合理区间内，能够符合科研实际需求。检索模块满足以下功能需求：

(1).支持变量树的维护（非结构化、结构化）及常用变量、路径、搜索选择；

(2).支持清洗变量的数据可视化；

(3).支持快速检索，能够将既往检索历史、检索条件、变量选择存为模版，进行记录、展示及方便下一次快速检索；支持模糊检索，能够对疾病名、关键字、ICD编码等在指定临床文本中进行模糊匹配；

(4).支持对疾病名进行归一化搜索，能够自动提示输入词相应的归一化检索词，即系统针对检索条件和检索结果具备一定的智能合并，具有较高的召回率（Recall）、准确率（Precision）；

(5).支持多维度条件关联检索，包括患者信息和诊疗信息等；支持多条件复杂逻辑（如或、且、非）组合搜索；

(6).支持病例的全文检索，可配置检索条件为病人的全部或单份病历，可视化展示病人和满足检索条件的病历；

(7).支持对符合条件的病人和病历信息进行二次筛选（包括增、删、分组）,并支持搜索结果的可视化图表；

(8).支持搜索结果订阅，即当有符合条件的新患者进入系统可将病人自动加入指定队列或科研项目；

(9).支持搜索导出，将符合条件的病人及其变量导出到本地，导出格式包括xls、xlsx、CSV、txt等，满足SPSS、SAS等分析工具分析要求，具备数据导出内容和权限的分配和审批功能。

(五)统计分析

(1).支持数据分析的预处理，包括缺失值填补、剔除文本、记录替换、变量分级、记录合并、类别转变量；

(2).支持构建单次与全量变量树，支持变量选择，字段搜索，支持多变量互斥逻辑判定；支持自定义创建查询，并具备增删改功能，

同时能够快捷准确自定义筛选数据，包括简单与高级筛选；

(3).统计分析逻辑可以保存为模板，支持复用；

(4).支持可视化导出查询结果与分析结果，针对数据的分类模型，定制每种分类数据的导出模式，基于关键事件处理、复杂逻辑计算、自动行列转换、智能标准化值域输出等技术，替代统计学处理前大量的手工数据处理工作，可导出Excel／CSV／SPSS／SAS等多种格式，若设计阶段采用CDISC等标准，同样于导出阶段支持；

(5).支持描述性、差异性分析、相关性分析、生存分析等统计功能；支持包括Pearson卡方、Pearson校正卡方、Fisher精确概率、Ridit分析、Wilcoxon秩和检验、Mann Whitney U检验、Kruskal-Wallis H检验、CMH检验、t检验、校正t检验、单因素方差分析、LSD检验、Bonferroni检验、Turkey检验、Shapiro-Wilk检验、Spearman相关、Kaplan-Meier检验等常见医学统计方法；

(6).支持随机森林、线性回归、Logistic模型、COX回归模型等常用统计分析模型；

(7).集成R语言等语言的执行程序，满足用户自主编写统计分析程序的需求；

(8).具备与SAS、SPSS、python等程序的对接，无需数据导出，即可实现数据在线联机分析；

(9).具有肿瘤大数据及人工智能分析功能模块，为科研分析提供相关分析模型及方法支撑，支持包括CNN、RNN等分析模型及方法；

(10).支持分析结果的可视化与导出，如散点图、频数图、折线图、森林图等；

(11).支持统计任务复用与修改，支持统计分析包的发布和共享；

(12).支持数据库权限管理，分角色控制数据库数据读写。

(六)肿瘤大数据驾驶舱

科研驾驶舱实现数据治理可视化，科研数据概览，科研项目数据概览，医院运营数据概览等信息，为项目决策者提供决策支持，满足以下功能需求：

(1).支持数据概览，包括患者人数、就诊记录数、门诊记录数、住院记录数展示；

(2).支持数据集成总览和多维度展示，包括数据中心总记录数、就诊数量展示以及根据时间轴展示各数据项具体数据及同比、环比对比增长；

(3).支持患者主索引建设，包括患者的基本信息、主索引数、信息字段覆盖率；

(4).支持数据标准化数量展示，包括诊断、手术及操作、检验、检查和药品等标准化业务及归一化数据量；

(5).支持数据结构化数量展示，包括病历文书、检查报告结构化相关统计数据；

(6).支持数据补全纠错数据展示，包括纠错和补全字段相关的统计数据；

(7).支持患者特征概况展示，包括基本情况、诊疗情况、患者

分布图，展示全国地图、迁徙省份top10排名和本地患者就诊率；

(8).支持疾病谱相关信息展示。展示疾病/手术top10排名及其年龄、性别、地区等分布情况；

(9).支持科研项目特征概况展示，包括科研项目列表、项目领域分布、项目状态等。

(七)肿瘤大数据全息视图

通过肿瘤大数据全息视图，用户从多个角度查询、浏览和分析患者数据，从中发现潜在研究点。

(1).支持展示模块个性化配置，包括诊断记录、就诊记录概要、检验检查、药物治疗、手术治疗、病历文书等患者诊疗信息；

(2).支持以患者为中心的多维度信息展示，包括患者基本信息、历次就诊病史、门急诊和住院诊断、检验、检查、用药/非用药医嘱、病理、手术、病历文书、病案首页、体检、生物样本等集成域的数据；同时具备检验指标变化趋势配置并可视化展示。

(八)肿瘤科研项目管理

肿瘤科研项目管理包括科研项目方案设计、项目设置、数据采集、质疑（任务）管理、受试者列表及CRF展示：

(1).支持肿瘤科研项目的创建及信息编辑；

(2).支持多种前瞻性和回顾性医学研究设计，并有对应的研究设计模板，包括现况研究、病例对照研究、队列研究、随机临床实验等；

(3).支持流程图的绘制工作，记录研究项目重要节点及进展情

况；

(4).支持肿瘤科研项目所需的病例报告表（CRF）的设计、编辑、发布和控制，包括自定义CDISC等数据标准，并根据研究设计进行随访/事件/时间的关联设置，完成CRF制作；支持CRF智能采集：CRF筛选及数据对照填写，具备数据录入、修改、保存、提交、清空功能；支持CRF中记录数据变更、质疑、核查等信息，标识数据当前状态以提醒用户；

(5).支持肿瘤科研项目研究对象的纳入和分组，支持简单随机化分组方法；

(6).支持研究样本量的计算，集成样本量计算模块；

(7).支持研究基线信息相关变量选取的设置，包括患者基本信息（性别、年龄）、基准事件相关就诊变量（是否患有某病）、基准事件相关事件变量（是否接受某种治疗）、相关时间点或时间段等；

(8).支持在记录层级、变量层级进行数据清洗以及分析型变量的衍生；

(9).支持肿瘤科研项目团队管理，包括团队成员的创建、修改、删除、以及权限分级、分角色管理；

(10).支持肿瘤研究的多中心管理，包括多中心的增删改等功能；

(11).支持数据核查与质疑；具备系统核查及人工核查两种方式。提供数据质疑管理，包括查看、回复、关闭、重启、导出质疑，并保留数据稽查及修改痕迹；

(12).支持肿瘤科研项目患者管理，包括受试者（患者）基本信

息预览、患者筛选、患者添加/删除，进入专科视图；

(13).具备展示项目入组概览和数据采集进度的管理功能，具有可视化报表功能；

(14).支持研究过程中质控方法的智能提示，如当数据收集不完整时，提示研究者进行数据补充，当有多个数据来源不一致时，能够提示研究者进行审核查看；

(15).支持肿瘤科研数据探索，可对科研项目数据进行数据清洗，数据查询以及统计分析；

(16).支持CRF前置嵌入医生站等业务系统，在医生录入病历时，同步补全科研所需的差异数据，从数据源头把控数据，确保数据全面、准确、真实采集。

(九)肿瘤大数据队列管理

队列是一组符合某些特定条件或者具有某些一致特征的患者。要求系统能够根据研究者设定的纳入标准和排除标准实现患者的自动入组或手动入组，并可视化图表展示之。

(1).支持科研队列的新建、删除、重命名以及规则配置等；

(2).支持队列中患者基线数据自动采集及手动修改补充，并展示患者基线信息完善情况，提醒研究者及时进行补充；

(3).支持队列中患者的可视化管理，可视化展示队列内病人信息、病历信息，患者的疾病、检验、检查、手术和用药分布状况；

(4).支持队列内患者的高级筛选，支持批量添加患者或单个患者加入前瞻性研究或回顾性研究项目；

(5).支持队列内数据导出，同时为管理员提供数据导出审核界面；

(6).支持队列内研究对象的重新分组，如对患者进行1:1倾向性评分匹配(PSM)生成两个队列；

(7).支持韦恩图应用。支持韦恩图展示多个队列间患者，可视化展示2个或3个队列之间交、并、补关系；可通过选中韦恩图生成的新集合区域生成新的队列，用于进一步的科研；

(8).支持预先配置规则。系统定时根据检索条件筛选符合条件的患者将其加入队列。

(十)肿瘤大数据随访管理

科研随访管理以支撑以科研为目的数据收集，个性化配置随访表单和方案，实现智能化的随访提醒和标准化数据采集，包括医生web 端与患者微信端，满足以下功能需求（支持与我院随访系统对接完成下述功能）：

(1).支持随访表单自定义设置功能，包括随访类型、随访表单和随访计划的设置，根据不同病种研究需求自定义表单内容；

(2).支持随访计划的管理和筛选，包括随访计划的展示和根据随访患者姓名、所属项目组、计划随访时间、随访状态等条件进行筛选；

(3).支持人工及自动发送随访消息（微信或短信）、推送随访表单，同时具备个体及批量处理功能，患者可通过移动设备、电脑等多种方式填写随访表单，表单数据自动上传至平台；

(4).治理后的院内数据可以根据随访计划实现随访数据的自动填充，并增加手动填充和修改的功能，支持随访数据维护的提醒功能；

(5).支持利用移动监测设备记录患者随访信息，如通过智能手环收集患者的心率、血压等信息，并集成到平台中。

(十一)肿瘤专病数据库

在肿瘤大数据创新应用平台上的基础上构建高质量的肿瘤专病数据库，在具备应用平台的通用功能基础上，还需具备如下建设要求：

(1).专病数据集

支持参考专业机构临床数据集、指南及专家共识、临床路径等，结合国际主流研究方向及国内现状，定制符合研究需求的专病数据集：支持个性化需求沟通，在专病范围内配合建立标准化数据集。

(2).专病库概况

专病库建设概览，通过对数据集成、变量加工方式和结果的展示，展现高质量的专病数据库概况，包括数据库简介、累计纳入的患者和病历数、专病库治理变量数、角色与权限、成员管理，并对其包括专病库名称、所属领域、项目标签等在内的数据进行配置。

(3).可视化展示

具备图表形式的可视化综合展示功能：支持展示治理过程中具有代表性的科研变量，包括患者基本信息、就诊记录、症状、诊断、检验、检查、药物治疗、生命体征等重要特征信息，并可根据包括发病年龄、诊断类别、就诊类型、体重指数、用药天数等条件针对性展示具体内容；按序展示专科病种相关统计指标图标，包括诊断归一名称

及相应入库患者数量。

(4).患者入库

在数据集设计阶段确认专病数据库的入排条件，实现符合条件的患者自动入库，同时具备人工审核干预功能，确保入库患者数据质量。

(5).数据搜索

支持根据科研域变量自定义检索条件对专病库患者进行搜索，并以患者维度进行展示；支持针对专病数据库定义变量的多个条件之间的复杂组合逻辑（如或、且、非）搜索，并以图表形式展示符合搜索条件的患者数据，搜索结果全面展示符合条件患者的各领域数据，满足用户进一步深入研究检索结果之需求；支持将符合搜索条件的患者一键加入专病项目；支持对搜索结果进行高级筛选并进行导出，导出数据支持数据组合为一个患者一条和一个患者多条；导出格式包括xls、xlsx、CSV、txt等，能够满足SPSS、SAS等分析工具分析要求。

(6).专病项目

支持专病项目设置以及数据质疑设置，支持专病项目数据导出与数据探索。数据填充：支持专病库数据集中已有数据自动填充至专病项目中；数据维护：支持手动录入和修改数据，并保留数据提交、修改痕迹；质疑管理：支持数据核查与质疑；满足系统核查、人工核查两种核查方式；提供包括查看、回复、关闭、导出质疑等在内的数据质疑管理功能；支持导出专病项目信息，并能展示数据导出操作日志；

(7).数据清理

支持专病项目的数据清洗，提供变量分级、类别转变量、记录合

并、多选转单选、缺失值填补、剔除文本、记录替换、变量拆分的清洗工具；

(8).统计分析

支持对查询数据进行简单与高级筛选，能够选择变量、进行字段搜索，同时满足多变量互斥逻辑判定要求；支持对数据查询实现增删改，并诊断所查询数据，确保数据质量；支持专病项目的数据统计分析：提供描述性分析、差异性分析的个性化统计分析，可视化并导出相应统计分析结果；支持统计分析预测模型，包括随机森林、线性回归、Logistic预测模型等模型。支持CNN、RNN等深度学习的人工智能分析功能，满足当前肿瘤科研与人工智能技术结合之需求。支持导出，导出格式包括xls、xlsx、CSV、txt等，能够满足SPSS、SAS等分析工具分析要求

(9).功能管理

可视化成员管理功能：支持增删改专病库成员及相关信息、增删改专病库角色、权限及相关信息；支持对包括主要研究者、协助研究、录入员、账号管理员等各种角色用户进行分级、分层、分权等个性化、定制化、动态化管理。

(十二)应用平台管理

系统管理提供基于web界面的用户管理、角色与权限、数据策略、院外访问设置和日志审计功能；

(1).支持增删改用户，展示用户相关信息，支持角色增删、编辑及功能权限配置；

(2).须遵循医疗行业的伦理规范和信息安全规范，支持数据权限策略与配置，包括根据用户职称、职位及其他可定制化模式配置全院、科室、个人的数据权限策略，能够根据用户权限、所属机构、及个体设置等多个层级对实现用户访问控制，访问内容包括数据集根据访问控制灵活、动态、差异性展示，亦根据权限实现匿名化处理及展示，支持访问审计；

(3).支持患者信息灵活加密，患者隐私信息如信息姓名、家庭地址、身份证、手机号码进行加密处理，加密处理措施实现可配置化，灵活、动态展示相关信息，如患者姓名在随访时需要展示；

(4).支持系统用户登录/登出/变更、智能搜索、数据导出等操作的日志审计。

(5).支持院外访问设置，须可配置院外访问时所具备的功能权限，实现灵活化、差异化、个体化管理；

(6).支持系统数据库及硬件性能展示，用于对服务器等基础设施实时监控，保障系统平稳可靠运行。展示内容包括硬件存储量、cpu 消耗、内存消耗、数据库性能指标展示等。