正则表达式在中医文献研究中的应用初探

合集下载

正则表达式对疫病古方药物标准化处理方法的探讨

正则表达式对疫病古方药物标准化处理方法的探讨引言：疫病是指由其中一种病原体引起的大规模传染性疾病，如近年来的新冠病毒疫情，对人类的生命和健康都造成了严重的威胁。

在传统中医领域，有许多古方药物对疫病有一定的疗效，然而由于古方药物的配方和命名方式多样，使得对其进行标准化处理变得非常困难。

本文将探讨如何利用正则表达式对疫病古方药物进行标准化处理的方法。

一、疫病古方药物的特点由于古方药物的命名和配方方式多样，导致了疫病古方药物的标准化处理变得非常复杂。

主要有以下几个特点：1.古方药物的配方非常复杂，常常由多种中药组合而成；2.古方药物的名称多样，可能存在多个别名；3.古方药物的方剂经过演变和传承，可能存在多个版本；4.古方药物的各种成分可能存在剂量差异；二、正则表达式在标准化处理中的应用1.根据古方药物的配方特点，可以利用正则表达式来提取出其中的各个成分。

例如，可以使用正则表达式从方剂中提取出中药名称、剂量等信息，从而实现对方剂的标准化处理。

2.古方药物的名称多样化，可以使用正则表达式来进行匹配和规范化。

例如，可以利用正则表达式将具有相同疗效的药物名称进行统一，并建立一个标准的药物名称数据库。

3.古方药物的方剂多个版本存在，可以利用正则表达式对方剂的版本进行识别和分类。

例如，可以使用正则表达式提取方剂名称中的年代信息，从而对方剂进行版本区分。

4.古方药物的剂量差异可以通过正则表达式实现。

例如，可以使用正则表达式提取方剂中的剂量信息，并进行标准化处理，从而确保不同版本的方剂中的药物剂量一致。

三、案例分析以葛根汤为例，葛根汤是一种古代中医方剂，用于治疗发热、口渴等症状。

其方剂为“葛根15g，芍药15g，生薏苡仁30g，生粳米60g，煮取汁，去滓，和药温服”。

我们可以使用正则表达式对其进行标准化处理。

首先，使用正则表达式提取出方剂中的各个成分及其剂量：```葛根15g，芍药15g，生薏苡仁30g，生粳米60g```然后，对各个成分进行规范化处理，将成分名称和剂量分开：```成分名称：葛根、芍药、生薏苡仁、生粳米剂量：15g、15g、30g、60g```接下来，对成分名称进行匹配和规范化处理，将相同疗效的药物名称统一：```葛根->葛根芍药->芍药生薏苡仁->薏苡仁生粳米->粳米```最后，对剂量进行规范化处理```15g->15g30g->30g60g->60g```通过以上的标准化处理，我们可以得到一个规范化的葛根汤方剂：```葛根15g，芍药15g，薏苡仁30g，粳米60g```结论：正则表达式作为一种强大的匹配工具，可以在疫病古方药物的标准化处理中发挥重要作用。

基于句子匹配的《黄帝内经》异文自动发现研究

基于句子匹配的《黄帝内经》异文自动发现研究作者：谢靖来源：《科技视界》2015年第35期【摘要】异文研究对于我国中医古籍文献的整理、勘校、史学具有重要价值。

本文利用句子匹配算法，对四个版本《黄帝内经》进行了自动异文发现研究。

结果表明：句子配对算法能够正确发现全部符合定义的异文，对中医古文献异文自动化研究具有非常重要的实践价值。

【关键词】异文；句子匹配；黄帝内经0 引言异文是指古代同一文字材料在流传过程中出现的文句互异，中医古籍文献中存在大量异文，对其中因通假、古今、异体字而造成的异文进行对比分析有助于中医古籍文献的学习与研究。

我国异文研究历史悠久，古人对经传的注疏中就发掘了许多异文，近现代也有不少学者系统研究中国古籍的版本异文：李索以抄成于南北朝至初唐时期的写卷《春秋经传集解》与以宋刻本为底本的传世本相比勘的异文为研究对象，对敦煌写卷《春秋经传集解》进行了对比研究[1]；秦淑华通过词语异文考察了《史记》与《战国策》的异文情况，为研究先秦时期的中国史学文献提供了支持[2]；俞绍宏等通过敦煌写本《诗经》异文中的隶定古文异文，研究其先秦古文字的隶定形式的手写形，展现中文古籍中的正字异体[3]。

自20世纪90年代以来，随着计算机技术的发展，学者们提出了一系列利用信息技术进行异文研究的方法：常娥等描述了中国古籍自动校勘系统的设计及实现，并进行了实际勘校[4]；肖磊等提出了基于句珠相似度的古籍异文版本自动识别算法，能够在异文句珠中不断地去掉最长同文，并输出异文结果[5]。

本研究旨在通过句子匹配算法，对中医古籍文献的经典《黄帝内经》进行不同版本的异文自动识别。

通过自动化的异文比对，实现对中医古籍文献异文的快速提取，为中医古籍文献异文研究及中医古籍文献智能化信息处理研究做有益探索。

1 数据来源与收集整理文章以《黄帝内经》中的《素问》作为研究对象，展现句子匹配算法在中医古籍文献异文自动发现工作中的实际效果。

对于《黄帝内经》的异文研究，一直是中医文献学家的关注热点：郝娟、沈澍农将《灵枢经》《黄帝内经太素》异文根据形成原因和形音义联系归纳为八种基本类型，并进一步分析例释[6]；李怀芝以《素问》、《灵枢》、《太素》、《甲乙经》为对象，进行了文句互异对比[7]。

利用正则表达式提取文献的题目

利用正则表达式提取文献的题目在科学研究和学术交流中，文献的题目是非常重要的信息之一。

正常情况下，我们可以通过阅读文献的全文或者浏览文献的摘要来获取文献的题目。

但是，当我们需要处理大量文献数据时，手动提取每篇文献的题目显然是非常耗时耗力的。

那么有没有一种自动化的方式，可以快速地提取出文献的题目呢？答案是肯定的，那就是利用正则表达式。

正则表达式是一种描述字符模式的工具，它可以用来匹配、查找、替换字符串等操作。

在提取文献题目的场景中，我们可以利用正则表达式来匹配并抽取出符合要求的文本信息。

接下来，我将为大家介绍如何利用正则表达式提取文献的题目。

首先，让我们来看一下文献的题目通常具备的一些特征。

文献的题目通常位于文献的开头部分，由一段文字组成。

那么我们可以使用正则表达式来匹配以一段文字开头的部分，进而提取出文献的题目。

下面是一个示例的正则表达式，用于提取文献的题目：^[^\n\r]*让我们来解析一下这个正则表达式。

首先，^表示匹配一行的开头，[^\n\r]表示非换行符和回车符，*表示匹配前面的表达式零次或多次。

所以这个正则表达式的含义是匹配一行开头的所有非换行符和回车符的字符，也就是一行开头的所有文字。

接下来，让我们看一个实际的例子，使用Python来实现通过正则表达式提取文献的题目。

```pythonimport redef extract_title(text):pattern = r"^[^\n\r]*"match = re.search(pattern, text)if match:return match.group().strip()else:return None# 示例文献paper = """Title: A Survey on Regular Expression Usage in Natural Language ProcessingAbstract:...Introduction:...Conclusion:..."""title = extract_title(paper)print(title)```在这个例子中，我们定义了一个extract_title函数，它接受一个字符串参数text，并返回提取得到的题目。

正则表达式在汉语语料检索中的应用

正则表达式在汉语语料检索中的应用
秦洪武;王克非
【期刊名称】《外国语文（四川外语学院学报）》
【年(卷),期】2013(029)006
【摘要】正则表达式能充分描述检索的条件,实现语言数据的精确提取.本文探讨正则表达式用于汉语语料检索的问题,分析了汉语元字符使用的特殊性,提出了反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果.
【总页数】6页(P74-79)
【作者】秦洪武;王克非
【作者单位】曲阜师范大学外国语学院,山东曲阜273165;北京外国语大学中国外语教育研究中心,北京100089
【正文语种】中文
【中图分类】H313
【相关文献】
1.正则表达式在语料库研究中的应用 [J], 吴进善
2.正则表达式的获取及在语料库研究中的应用 [J], 石志亮
3.正则表达式在语料库建库与检索中的应用 [J], 刘瑞
4.正则表达式在PDTB语料数据预处理中的应用 [J], 贾震斌
5.数字出版知识服务中的传统文化表达及应用
——兼谈汉语语料库中的汉语成语语义韵特点 [J], 胡雪婵
因版权原因，仅展示原文概要，查看原文内容请购买。

基于大数据的中医文献数据挖掘

基于大数据的中医文献数据挖掘一、引言中医文献是中医学的重要组成部分，包含了丰富的医疗知识和经验。

随着大数据技术的发展，利用大数据来挖掘中医文献中的有价值信息成为了一项重要的研究任务。

本文将介绍基于大数据的中医文献数据挖掘的方法和应用。

二、数据收集与预处理1. 数据来源中医文献数据可以从各种渠道获取，如中医药大学图书馆、国家中医药管理局等。

可以通过爬虫技术自动获取文献数据，也可以通过与相关机构合作获取。

2. 数据清洗与整理获取到的中医文献数据可能存在格式不一致、缺失值等问题，需要进行数据清洗和整理。

可以利用文本处理技术，如正则表达式、自然语言处理等，对文献数据进行清洗和格式化。

三、中医文献数据挖掘方法1. 关键词提取通过分析中医文献中的关键词，可以了解中医学的研究热点和重点。

可以使用词频统计、TF-IDF等方法来提取关键词。

2. 主题模型主题模型可以帮助我们发现中医文献中隐藏的主题和关联性。

常用的主题模型包括Latent Dirichlet Allocation (LDA)、Probabilistic Latent Semantic Analysis (PLSA)等。

3. 情感分析情感分析可以帮助我们了解中医文献中的情绪倾向和态度。

可以使用机器学习算法，如支持向量机、朴素贝叶斯等，对文献进行情感分类。

4. 知识图谱构建通过构建中医文献的知识图谱，可以揭示中医学的知识体系和关联关系。

可以使用图数据库和知识图谱构建工具，如Neo4j、Protégé等，来构建中医文献的知识图谱。

四、中医文献数据挖掘的应用1. 疾病预测通过分析中医文献中的疾病相关信息，可以建立疾病预测模型。

可以利用机器学习算法，如决策树、随机森林等，来预测疾病的发生和发展趋势。

2. 药物研发通过分析中医文献中的药物相关信息，可以发现潜在的药物候选物。

可以利用数据挖掘算法，如聚类分析、关联规则挖掘等，来发现药物之间的关联性和相互作用。

中医文献论文题目选题参考

中医文献论文题目一、最新中医文献论文选题参考1、中医文献癃闭证病因病机探析2、清代中医文献特点与医学发展3、大肠癌防治方药的中医文献研究4、中医文献研究中的统计学应用概况5、中医文献对老年痴呆证治规律的认识6、基于中医文献的抑郁症常见证候及证候要素分布特点的研究7、骨痹古代中医文献研究8、眩晕证防治方药的中医文献研究9、从阳虚论治失眠中医文献评析10、试述中医文献对面瘫的认识11、原发性青光眼古今中医文献整理研究12、便秘古代中医文献研究13、中医文献对直肠癌病因病机的的探讨14、语言、文化和中医文献英译15、胃脘痛中医文献与证治研究16、中医文献学术研究刍议17、当代中医基础学科群架构形成的历史局限性——兼论中医文献研究在基础学科理论构建与规范中的地位18、内容分析法在中医文献研究中的应用19、试论中医教育中开设中医文献学课程的目的和意义20、老年性痴呆的中医文献研究二、中医文献论文题目大全1、肝阳上亢证中医文献研究2、高血压病古今中医文献的整理与研究3、消渴病历代中医文献理论研究4、基于中医文献的中风病研究5、中医文献治疗狂犬病方法探析6、乳岩证治的中医文献研究7、肝阳上亢证中医文献研究8、痛风中医文献解析9、二十世纪以来考古发现的中医文献考述10、正则表达式在中医文献研究中的应用初探11、充分发挥中医文献的潜在宝藏12、中医文献英译的异化和归化13、清代中医文献特点与医学发展14、论中医文献及文献学在中医学中的地位15、胃癌证治的中医文献研究16、论中医文献研究的三个面向17、抑郁症中医文献溯源18、论中医文献研究的三个面向19、基于中医文献检索的颈淋巴结核中医证候规律分析20、中医文献——发展中医学术的最有力支撑三、热门中医文献专业论文题目推荐1、秦汉时期中医文献对镇痛中药的原创性贡献2、小儿癫痫中医文献与证治研究3、消渴病中医文献与证治方药规律研究4、中医文献学课程运用PBL教学法的思路5、慢性萎缩性胃炎近10年中医文献研究6、古代中医文献中对肝硬化的认识7、消渴病(糖尿病)证治的中医文献研究8、卵巢早衰的中医文献研究进展述要9、慢性胃炎的中医文献评价与数据挖掘进展10、基于体质调理的温阳法防治胃癌的中医文献研究11、治疗牙痛方药中医文献研究12、湖湘中医文献的特点、作用及研究内容13、慢性盆腔炎的现代中医文献研究14、心力衰竭古今中医文献的整理与研究15、中医文献研究对临床实践的影响16、乳癖(乳腺增生病)的中医文献研究17、在中医文献的英译中重视汉英民族思维模式和语言结构的差异18、中医文献研究的现状与对策19、试论中医文献的基本性质20、简述中医文献关于伤口的处理四、关于中医文献毕业论文题目1、中医文献2、帕金森病的中医文献研究3、中医文献学4、古代中医文献对食管癌的认识5、中医文献对中风病的阐述与述评6、冠心病心绞痛古今中医文献整理与研究7、多囊卵巢综合征的现代中医文献研究8、国内艾滋病中医文献的证候研究评价9、中医文献英译的文化对等10、中医文献关于胃脘痛病名及病因考释11、冠心病(胸痹心痛)中医文献及病证研究12、小儿咳喘病证古代中医文献数据库的建立13、心律失常现代中医文献的整理与研究14、基于中医文献检索的肺结核病中医证候规律分析15、不孕症中医文献的研究16、哮喘病的古代中医文献研究17、从中医文献探讨“脾”的解剖学基础18、古代中医文献对于尿失禁的认识和治疗述要19、基于中医文献探析中医治疗肺癌的临床用药规律20、不同翻译手段在中医文献翻译中的辨证施用五、比较好写的中医文献论文题目1、中医文献分类发展概况2、鼻疗法在脑病防治应用中的中医文献研究3、计算机数据库技术在中医文献管理和研究中的应用4、古代中医文献研究方法探讨——兼论马继兴古代中医文献研究方法5、中医文献中的专病通治方6、古代中医文献中解颅方剂的统计学研究7、中医文献学8、中医文献整理研究之我见9、泛系理论影响下的中医现象学知识网联新研究─—QMSOC与中医文献工程(Ⅲ)10、中医文献有关"老年呆病"的论述11、基于扎根理论和内容分析法的疲劳中医文献病因病机研究12、分享阅读法在中医文献学教学中的改革与实践13、以双语对应语料库快译中医文献的研究14、胃癌相关病证中医文献研究15、高等中医文献专业实践教学目标管理探析16、原发性青光眼的中医文献学研究17、基于现代中医文献研究的肺结核中医证候规律初探18、传承祖国医学文化,促进中医文献利用——简介《全国中医图书联合目录》19、中医文献教学研究的思路探索20、试论中医医院名老中医文献数据库建设意义及设计原则。

中医文献学在现代医疗中的应用有哪些

中医文献学在现代医疗中的应用有哪些中医文献学是一门研究中医文献的学科，它涵盖了对中医古籍、经典著作、医案、方书等各种文献资料的整理、研究和利用。

在现代医疗中，中医文献学发挥着重要而多样的作用，为医疗实践、科研创新和医学教育等方面提供了宝贵的支持。

一、为临床诊断和治疗提供参考中医文献中蕴含着丰富的临床经验和治疗方法。

古代医家通过长期的实践和观察，积累了对各种疾病的认识和治疗心得，并记录在文献之中。

现代医生在面对复杂的病症时，可以通过查阅中医文献，借鉴古人的智慧，为诊断和治疗提供新的思路和方法。

例如，对于一些疑难杂症，现代医学可能暂时缺乏有效的治疗手段。

此时，医生可以从古代医籍中寻找类似病症的记载，参考古人的用药和治疗方案，结合现代医学的诊断技术和药物，进行创新性的治疗尝试。

又如，中医文献中有关疾病的病因病机分析，能够帮助医生更深入地理解疾病的本质，从而制定出更精准的治疗策略。

二、助力中药研发与应用中医文献对于中药的研究和开发也具有重要意义。

许多古代本草著作详细记载了中药的性味、归经、功效、用法用量以及炮制方法等。

这些记载为现代中药的研发提供了丰富的素材和理论基础。

通过对中医文献的研究，可以发现一些具有潜在药用价值的中药资源。

同时，文献中关于中药配伍的经验和规律，能够为现代药物组合的研究提供参考，提高药物的疗效和安全性。

此外，古代医家对中药炮制方法的记载，有助于优化现代中药的炮制工艺，保证中药的质量和疗效。

三、促进中医理论的传承与创新中医文献是中医理论传承的重要载体。

《黄帝内经》《伤寒杂病论》等经典著作构建了中医理论的基本框架，历代医家的著述又对这些理论进行了不断的丰富和发展。

在现代医疗中，深入研究中医文献有助于更好地传承中医理论的精髓，并结合现代科学技术和临床实践进行创新。

例如，对中医文献中关于经络气血、脏腑功能等理论的研究，可以为现代针灸推拿、康复治疗等提供理论支持。

同时，利用现代生物学、物理学等学科的研究方法，对中医理论进行验证和阐释，推动中医理论的现代化发展。

中药行业中的药物信息与文献检索技巧

中药行业中的药物信息与文献检索技巧在中药行业中，获取准确的药物信息和文献是非常重要的。

药物信息和文献可以帮助从业人员了解中药的性质、用途、剂量等重要信息，为临床实践和科学研究提供有力支持。

然而，由于信息量庞大且多种多样的药物文献类型，如何高效地进行药物信息和文献检索成为一项关键技能。

本文将介绍中药行业中的药物信息和文献检索技巧，帮助从业人员更好地利用相关资源。

一、药物信息检索技巧药物信息检索是从已有的数据库中检索与药物有关的信息，帮助从业人员获取准确且及时的药物相关资料。

以下是一些药物信息检索的技巧：1.选择合适的数据库：中药行业存在许多与药物相关的数据库，如中国知网、维普中文期刊数据库、万方数据库等。

根据自己的需求和实际情况，选择合适的数据库进行检索。

2.关键词的选择：在进行药物信息检索时，关键词的选择非常重要。

关键词应该准确描述你所需要的药物信息，如药名、疾病名称、药理作用等。

可以根据自己的需求结合使用不同的关键词进行检索，以获取更全面的信息。

3.筛选搜索结果：当得到一系列搜索结果后，需要进行筛选。

首先，根据你的需求和研究目的，筛选出与你所关注的方面相关的文献。

其次，根据文献的质量和来源进行筛选，尽量选择正规期刊上发表的高质量文献。

二、药物文献检索技巧药物文献检索是指通过检索相关文献数据库，获取与药物有关的学术论文、期刊文章、专利文献等。

以下是一些药物文献检索的技巧：1.选择合适的文献数据库：在进行药物文献检索时，需要选择具有丰富资源且权威可信的文献数据库，如PubMed、Embase、中国知网等。

不同的数据库可能具有不同的文献资源，因此根据需求选择合适的数据库进行检索。

2.使用正确的检索语法：在进行药物文献检索时，使用正确的检索语法可以提高检索效果。

掌握检索逻辑运算符（AND、OR、NOT）、通配符（*、?）和括号等，可以帮助你更准确地检索所需信息。

3.查找全文文献：在获取文献信息后，你可能需要查找全文以获得更详细的内容。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

正则表达式在中医文献研究中的应用初探（作者:___________单位: ___________邮编: ___________）作者：王志飞,李晓君,郭霞珍,张德政【关键词】正则表达式；中医文献；自然语言理解中医文献浩如烟海,《中国中医古籍总目》收录1949年以前的中医古籍,总数达到13 455种[1]；解放后,随着中医学的发展,中医文献资料更是日渐增多。

庞大规模的资料,为中医文献研究提供了丰富的内容,但同时也决定了其研究任务的繁重性。

面对这种情况,只有寻找一种能够从海量文献中抽取有用信息的辅助工具,将文献研究化繁为简,才能有效地扩大文献利用的规模,从而提高研究结果的精确度和可信度。

笔者实践发现,正则表达式正是这样一种可以方便地从海量中医文献中抽取特定信息的工具,并且具有简单易学的特点,实为中医文献研究不可多得的辅助工具。

故撰文于此,以飨同道。

1 正则表达式正则表达式(Regular Expression)是广泛应用于信息技术领域的文本处理工具,具有强大、便捷、高效的特点。

正则表达式是一种十分简单的程序语言,专门用以表示模式,即文本构成的某种规则。

在此基础上,配合特定工具所提供的支持,正则表达式可以对文本进行添加、删除、分离、叠加、插入、修整等操作[2]。

“模式”是一类事物的共有特征,而正则表达式的强大之处正是在于其对模式的表达。

“模式”是人们思考问题和描述事物时不可或缺的逻辑工具,只有对某一类事物有了深入的认识,概括出其共有的特征,即掌握了该事物的模式,才有可能构建概念,并在概念的基础上通过逻辑来进行推理和判断。

可以说“模式”是思考和描述的基础,因此它于自然语言中无所不在。

事物的模式,在自然语言中往往通过特定的语言模式表示出来。

比如“××是××”,即通过“名词1＋是＋名词2”的语言模式来表示“名词2”对“名词1”属性的说明。

一般而言,文字表达比语言更偏重于对模式的应用,因此文本往往表现出更为规范和密集的模式,更有利于发挥正则表达式的作用,而这一特点,在中医文本中表现得尤为突出。

大多数程序语言都支持正则表达式,在编程中调用正则表达式来解决问题可以最大限度地发挥正则表达式的威力。

同时,由于正则表达式的强大功能,人们亦开发出多种正则表达式的专用工具软件,因此,即使不会编写程序,学习了正则表达式后也同样可以运用这些工具来进行文本处理。

常用的正则表达式工具有REGEX、RegexBuddy、The Regulator等,本文举例所使用的工具为RegexBuddy 3.0.3。

2 中医文献特点及正则表达式的应用与一般的自然语言文本不同,作为科技文献的一种,虽然未做明确规定,但是中医文献自然而然地遵循了一种半结构化的文本组织方式,即更多地运用“模式”来表达语意。

这就使得文本中的有用信息可以通过某种模式被唯一地辨识出来。

例如医案中常以“姓＋左(右)”的模式来表示一个患者及其姓名、性别,如“张左”,表示一个姓张的男性患者；以“部位＋描述”来表示一个症状,如“头痛”、“腹胀”,其中“部位”又可以省略,如“乏力”等；以脏、腑、气、血、津液与八纲相互组合表示一个证型,如“肾阳虚”；以“词＋数词＋量词”的模式表示处方用药,如“熟地八两”等等。

不仅如此,在这些模式之外,医案中还常加标示词,形成模式嵌套,以进一步明确语意,如“辨证：”标示紧随其后的文字表示证型,“治以”标示其后是治法,“处方：”表示其后为用药。

中医文献资料的这些特点,为正则表达式的应用提供了条件。

因此,编制合适的正则表达式,可以一次性提取大量文献中的有用信息,从而大大节省文献研究的人力,提高结果的准确度和可信度。

3 正则表达式应用举例中国方剂数据库是由中国中医科学院研制的大型文献型数据库,共收录了来自710余种古籍及现代文献中的古今方剂84 464首。

该数据库提供网络查询服务,是中医文献研究中重要的信息源。

本文就以提取该库中便秘方剂的药名为例,讨论正则表达式在中医文献研究中的应用。

查询中国方剂数据库,关键词为“便秘”,查询字段为“主治”,返回598首方剂。

用“套录”的方法批量下载方剂,将所有内容粘贴在一个文本文档中。

其文本结构如下。

NO.6[方名] 降胃汤[处方来源] 《产孕集》卷下[药物组成] 人参1钱,陈皮1钱[主治] 津亏或误发汗,阳泄于外,胃气下降,便秘不通[用法用量] 作1服要研究这样598首方剂中的中药用药规律,就必须获得方剂中的中药信息,而提取药名是一切工作的基础。

如何提取药名信息呢？一个方法是建立中药词库,通过程序来提取。

但是建设词库是一个浩大的工程,且无法保证词库可以覆盖文献中的全部药名；同时,这种方法亦要求操作者有一定的编程能力。

其实,上述文本资料是典型的半结构化文本,文字结构具有很强的规律性,提取中药完全可以通过模式匹配来完成。

事实上,只须依次使用3个正则表达式就可以提取文本中的所有药名信息。

3.1 提取药物所在行药物所在行的文本结构是“[药物组成]＋空格＋空格＋药物及剂量”,其他行均不具有此种结构,也就是说,“[药物组成]＋空格＋空格”标示此段落中接下来的内容是药物、炮制及其剂量；而所有药物所在的行,亦必然是以“[药物组成]＋空格＋空格”的标示开始的。

因此建立正则表达式为：“[药物组成].*”。

其中“[药物组成] ”作为标示词表示“[药物组成]＋空格＋空格”。

而“.*”表示一段文本,这段文本可以是任意长度；其中“.”在正则表达式中表示任意字符,其后的“*”则表示其前面的任意字符可以有任意多个(包括0个)。

在RegexBuddy中以正则表达式匹配文本,返回的文本结构显示,已成功提取了药物所在的行,举例如下。

[药物组成] 秦艽2～3钱,胡麻(炒,研)3～5钱,鲜首乌5钱至1两,生地3～5钱,松子仁5钱至2两(研烂调服),牛乳1杯(或牛酥1～2两),梨汁1杯。

[药物组成] 川芎1钱半,当归2钱,炙草5分,桃仁10个。

[药物组成] 人参4两,白术4两,枳实1两半,当归3两,白芍3两,抚芎1两,麦冬2两,柏子仁1两。

[药物组成] 前胡(去芦头)2两,大黄(锉,炒)1两1分,黄芩(去黑心)1两1分,木通(锉)1两1分,麻子仁1两1分,芍药1两1分。

[药物组成] 大黄半两,桔梗1钱,枳壳1钱,前胡1钱,杏仁1钱,葛根2钱。

如果使用文本编辑器的“替换”功能去掉标示词“[药物组成]”(当然亦可通过正则表达式完成),这时文本就只含有药物、炮制及剂量信息。

3.2 去掉药物中的炮制信息炮制信息有更为明显的标志,就是用小括号括起来的部分。

因此,可以用正则表达式“(.*·)”来匹配,从而将文本中匹配的信息即炮制信息去掉,返回的文本结构如下。

秦艽2～3钱,胡麻3～5钱,鲜首乌5钱至1两,生地3～5钱,松子仁5钱至2两,牛乳1杯,梨汁1杯。

川芎1钱半,当归2钱,炙草5分,桃仁10个。

人参4两,白术4两,枳实1两半,当归3两,白芍3两,抚芎1两,麦冬2两,柏子仁1两。

前胡2两,大黄1两1分,黄芩1两1分,木通1两1分,麻子仁1两1分,芍药1两1分。

大黄半两,桔梗1钱,枳壳1钱,前胡1钱,杏仁1钱,葛根2钱。

3.3 去掉药物的剂量药物剂量的表现形式概括起来大概有以下几种：①“数量＋单位”,如“1两”；②“数量＋连词符＋数量＋单位”,如“2－3钱”；③“数量＋波纹线＋数量＋单位”,如“2～3钱”；④“数量＋至(或到)＋数量＋单位”如“4至5钱”、“四到五钱”；⑤“数量＋单位＋数量＋单位”,如“1钱5分”；⑥“数量＋单位＋半(或五)”,如“1两半”、“一两五”；⑦“数量＋单位＋至(或到)＋数量＋单位”,如“5钱至2两”；⑧“单位＋数量”,如“两半”。

综合以上8种形式,以“[0-9]|半|一|二|三|四|五|六|七|八|九|十”匹配数量,“酒(杯|盏)|钱匕|两|斤|钱|匙|个|厘|分|斗|茎|撮|升|寸|粒|只|枚|g|G|条|团|把|尾|石|挺|梃|片|具|握|合|字|尺|盏|铢|杯|块|根|支|束|匕|株|张|颗|对|朵|帖|石|丸|碗|副|瓢|克|匣|滴|钟|铤”匹配单位,建立正则表达式为：“(([0-9]|半|一|二|三|四|五|六|七|八|九|十)＋(两|斤|钱|个|厘|分|斗|升|粒|只|枚|g|G|合|颗|克)(至|到)([0-9]|半|一|二|三|四|五|六|七|八|九|十)＋(两|斤|钱|个|厘|分|斗|升|粒|只|枚|g|G|合|颗|克))|(([0-9]|半|一|二|三|四|五|六|七|八|九|十)*[-～.]*([0-9]|半|一|二|三|四|五|六|七|八|九|十|多)＋(小|大)*(酒(杯|盏)|钱匕|两|斤|钱|匙|个|厘|分|斗|茎|撮|升|寸|粒|只|枚|g|G|条|团|把|尾|石|挺|梃|片|具|握|合|字|尺|盏|铢|杯|块|根|支|束|匕|株|张|颗|对|朵|帖|石|丸|碗|副|瓢|克|匣|滴|钟|铤)(半|一|二|三|四|五|六|七|八|九|十)*(两|斤|钱|个|厘|分|斗)*)”。

去掉剂量信息后,返回的文本结构如下。

秦艽,胡麻,鲜首乌,生地,松子仁,牛乳,梨汁。

川芎,当归,炙草,桃仁。

人参,白术,枳实,当归,白芍,抚芎,麦冬,柏子仁。

前胡,大黄,黄芩,木通,麻子仁,芍药。

大黄,桔梗,枳壳,前胡,杏仁,葛根。

这样,就完成了中药名的提取。

之后的工作,只须简单操作就可完成多种分析。

比如结合中药同义词表,可获知此598首方剂中共用药408种,其中用药次数最多的是大黄,共出现290次,支持度为48.50%,即将近一半的便秘方剂中使用大黄。

支持度大于10.00%的药物有17种,排名前5的分别为大黄、甘草、当归、黄芩、枳壳。

4 小结综上所述,正则表达式是一种便捷、高效、功能强大的文本处理工具,应用十分广泛；而中医文本具有结构化强的特点,因此十分适宜将正则表达式作为一种工具引入中医文献研究。

深入挖掘正则表达式在中医文献研究中的应用,对于大幅度减轻文献研究的工作量具有重要意义。

【参考文献】[1] 薛清录.中国中医古籍总目[M].上海：上海辞书出版社,2007.[2] Jeffrey EF Friedl.余晟,译.精通正则表达式[M].第3版.北京：电子工业出版社,2008.1.。