基于统计的汉语格律诗生成研究

合集下载

古代诗词的音韵格律研究

古代诗词的音韵格律研究

古代诗词的音韵格律研究古代诗词是中华民族的瑰宝,其音韵格律独具特色,经典之作流传至今。

在中国古代文化的漫长发展过程中,许多文人雅士对古代诗词的音韵格律进行了深入研究和探索,形成了独特且完善的理论体系。

本文将探讨古代诗词的音韵格律研究,从其起源背景、发展历程、经典作品等多个方面进行深入分析,旨在揭示这一领域的独特魅力和学术价值。

起源背景中国古代诗词的音韵格律研究可以追溯到两千多年前的先秦时期。

先秦时期的诗歌创作大多以歌颂君王和美好生活为主题,而在音韵方面则主要以诗句的平仄和韵脚的搭配为基本要素。

这为后来的音韵格律研究奠定了基础。

发展历程古代诗词的音韵格律研究在魏晋南北朝时期逐渐兴盛起来。

这个时期的文化氛围独特,士人们热衷于文学创作和理论研究。

其中,刘晔的《音韵论》被视为古代诗词音韵格律研究的奠基之作。

刘晔在《音韵论》中提出了平、上、去、入四声的划分方法,对后世的诗词创作产生了深远影响。

随着时间的推移,唐宋时期的声韵学家们对音韵格律的研究更加深入和精细。

最有代表性的有韩愈和欧阳修。

韩愈的《切韵编注》和欧阳修的《韵集》成为了古代诗词音韵研究的两个重要里程碑。

他们在音韵格律的研究中的探索和创新丰富了这一领域的理论体系。

到了明清时期,音韵格律研究达到了一个高峰。

杨慎、黄佐等学者参考前人的成果,汇编整理了大量古代诗词的音韵格律材料,形成了一系列较为详细的音韵课本和字典,为后世学者的研究提供了重要的参考资料。

众多的学者们对音韵格律的研究和创新使这一领域的理论更加完善和丰富。

传统理论与实际应用古代诗词的音韵格律理论体系主要包括平仄、声调、韵母和声母等要素。

其中,平仄是指音节的轻重,平音和仄音的交替组合赋予了诗词独特的音韵美。

声调则是指字音的升降曲调,通过选用不同的声调可以使诗词表达不同的情感和意境。

韵母和声母则决定了诗词的韵律和音响效果。

这些理论在实际应用中起到了至关重要的作用。

诗人在创作诗词时需要根据音韵格律的要求选用恰当的平仄、声调以及韵母和声母,以达到诗词意境与音韵和谐统一的效果。

《汉语大词典》引刘基诗文词语定量研究

《汉语大词典》引刘基诗文词语定量研究

《汉语大词典》引刘基诗文词语定量研究近年来,人们对中国语言文学的研究不断加深,各种语言学方法亦在加强实施。

在这一背景下,本文将拟定一个新的方案,即以《汉语大词典》引刘基诗文词语定量研究。

刘基(公元1041 - 1112),字志略,号汝阳九灵,宋代宗泽汉文学家,大中华文化的延续者。

刘基生前创作了大量的诗文,其中以诗和词最多。

其创作广而深,而且极富相对性,它带有宋代文学特点。

刘基诗文词语在《汉语大词典》中得到了详细而完整的收录。

其中,《汉语大词典》收录了刘基诗文词语132项,其中有62项出自刘基作品。

根据统计,在词语层面,刘基诗文词语主要集中在节气、地名、物名、句型等,而区分度最小的则为形容词,仅有4项。

本文的研究将采用定量分析的方法,以《汉语大词典》为基础,研究刘基诗文词语的出现次数及分布特点,以及与其他宋代文学家词语的比较。

首先,根据《汉语大词典》的收录,整理统计刘基诗文词语的出现次数。

根据上述统计,刘基诗文词语出现次数最多的是节气,在《汉语大词典》中出现了28项,其中12项出现在刘基作品中,占总词语数的44.8%。

其次是地名,在《汉语大词典》中有20项,其中13项出现在刘基作品中,占总词语数的50%。

此外,句型和物名也都有一定的收录次数,分别占总词语数的39.4%和41.7%。

其次,本研究还将对比刘基诗文词语在《汉语大词典》中的分布特点与词语出现次数,进行定量分析与研究。

从定量分析结果来看,从词语出现次数来看,节气、地名、物名和句型是刘基诗文词语最为普遍的,但是,它们在《汉语大词典》中的分布特点却不一样。

对于节气,大部分集中在长篇作品;地名则主要出现在刘基的散文中;物名则大多数集中在乐府和初稿中;句型则集中在志略中。

最后,本文还将以定量分析的方法,将刘基的诗文词语与其他宋代文学家的词语进行比较。

从比较结果来看,与其他宋代文学家相比,刘基的诗文词语更多,节气、地名、物名和句型收录数量也更多。

此外,刘基的诗文词语也更为丰富,比如,节气、地名、物名和句型,它们涉及到多种话题,如山水、风俗风情、礼仪、节日仪式等等。

基于序列到序列神经网络模型的古诗自动生成方法

基于序列到序列神经网络模型的古诗自动生成方法
关键词扩展;注意力机制;序列到序列;神经网络模型;古诗生成
黄文明(1963-),男,江苏苏州人,教授,主要研究方向为自然语言处理、图形图像处理;卫 万 成 ( 1993- ), 男 , 江 苏 连 云 港 人 , 硕 士 研 究 生 , 主 要 研 究 方 向 为 自 然 语 言 处 理 (824396385@);邓珍荣,女,研究员,广西桂林,主要研究放向为自然语言处理、 图形图像处理.
律上具有严格的限制,所以好的绝句朗诵起来节奏感很强。
表 1 唐诗绝句 春晓
春眠不觉晓,(平平仄平仄) 处处闻啼鸟。(仄仄平平仄) 夜来风雨声,(仄平平仄平) 花落知多少。(平仄平平仄)
近几年,古诗自动生成研究得到了学术界的广泛关注。科 研者们采用了各种方法研究古诗生成,文献[2~6]采用规则和
—————————— 收稿日期:2018-03-21;修回日期:2018-07-29 基金项目:广西高校云计算与复杂系统重点实验室资助项目(yf17106);广西自然科学基金资助项目
0 引言
古诗是中国文化的精粹。古诗一般被用来歌颂英雄人物、 美丽的风景、爱情、友谊等。古诗被分为很多类,唐诗、宋词、 元曲等,每种古诗都有自己独特的结构、韵律。表 1 中展示了 一种中国古代最流行的古诗体裁——唐诗绝句。绝句在结构和 韵律上具有严格的限制:每首诗由四行组成,每一行有五个或 者七个汉字(五个汉字称为五言绝句,七个汉字称为七言绝句); 每个汉字音调要么是平,要么是仄;诗的第二行和最后一行的 最后一个汉字必须同属于一个韵部[1]。正因为绝句在结构和韵
摘 要:计算机写诗是实现计算机写作的第一步。目前计算机写诗普遍存在主题不明确、诗的内容与写作意图不一致 的问题。为改善这些问题,效仿古人写诗的过程,提出了一种分为两个阶段生成古诗的方法。第一阶段获取写诗大纲, 此过程采用 TextRank 算法对用户输入文本提取关键词,并提出一种基于注意力机制的序列到序列神经网络模型用于关 键词扩展;第二阶段根据写诗大纲生成每一行诗句,此过程提出一种包含双编码器和注意力机制的序列到序列神经网 络模型用于古诗生成。最后通过对实验结果的评估验证了所提方法的有效性。与基准方法相比,所提方法生成的古诗, 主题意义更加明确,诗所表现的内容和写作意图更加一致。 关键词:关键词扩展;注意力机制;序列到序列;神经网络模型;古诗生成 中图分类号:TP391 doi: 10.3969/j.issn.1001-3695.2018.03.0371

七律统计调查赋

七律统计调查赋

七律统计调查赋全文共四篇示例,供读者参考第一篇示例:七律,古代汉族诗歌形式之一,又称七绝,是中国古典诗歌中的一种七言七韵的体裁。

在唐代以及宋代的文学史上,七律均具有重要的地位。

自宋代起,七律由吴文英在《杨柳青青江水平》中发扬光大,成为了中国文学中必备的一个诗歌体裁。

七律用韵脚工整,以七句为一组,可以表现事物的完整性和复杂性。

在形式上,七律要求每一句七字,每一句以平仄相间的方式进行,整体呈现出韵律和美感。

七律统计调查赋以统计为主题,借用七律这样的古体诗形式,表达对统计学的推崇和对数据的尊重。

统计是一门以收集、分析和解释数据来推断结论的学科,有着非常广泛的应用领域,是现代科学与社会发展不可缺少的重要组成部分。

在当前信息爆炸的时代,统计学的重要性前所未有地凸显出来,它已成为了我们理解社会、经济、科学和技术等各个领域的基础。

在这篇文章中,我们将结合七律这种优美的诗歌形式,探讨统计学在当代的应用与意义,以及对学术和社会的贡献。

统计精扬润七律,数据铺陈只在手。

研究中悟交互,分析内藏互动。

概念统计为前沿,应用统计映民生。

图表展示事效果,准确干净展真相。

数据皆是料统计,他们是统计研究。

观测之概统计,分组之法带有。

分析敬重统计,写彼报告称歌。

图表矗次其栏,未尽数据研究。

昔日层峦古七律,如今变化数据深。

统计调查乃因果,颇获益者为人。

分析统计一工具,图表表达在身边。

纵使数来不亦乐,六十六随未尽承。

数就数据归根源,统计精湛在其中。

律为七言如堤坝,数据和统建藩围。

调查研究循分布,分析图表展动静。

赋以文词赞大统,七律统计高深。

数据数据皆统计,统计统计乐无穷。

调查分析展数据,图表阐述为重。

数据源缘统计外,统计意义常陋。

七律统计体是美,数理数据情深。

通过这首七律统计调查赋,我们不仅探讨了统计学在当代的应用与意义,同时也展现了统计学在文学艺术中的独特魅力。

数据和统计是我们生活中无处不在的,它们像一对孪生兄弟,相辅相成,互为依存。

格律诗句生成的方法“替”“对”“粘”图解

格律诗句生成的方法“替”“对”“粘”图解

格律诗句生成的方法“替”“对”“粘”图解格律诗句生成的方法“替”“对”“粘”图解格律诗具有音乐性。

大家在朗读格律诗句的时候,会发现格律诗句读起来琅琅上口、抑扬顿挫、铿锵悦耳。

而格律诗句的音乐性是用平仄、节奏和韵字来体现的。

下面我们讲解格律诗的平仄。

1、什么是平仄呢?古汉语把字调分为四种,即平、上(shǎng)、去、入。

平调就是平声,上、去、入就是仄声。

平声是一个平调,不升不降,而且比较长;仄就是不平的意思,仄声有升有降,而且短促。

让这两类声调在诗句中交替出现,就能使声调有高低变化,不至于单调。

随着时代的变迁和语音的发展变化,古代有些字的读音已经失去了它原有的面貌。

古代的平声字,在普通话里已经分化为阴平和阳平,也即第一声和第二声。

古代仄声中的上声,在普通话里大部分还读上声,即第三声。

古代仄声中的去声字,在普通话里还读去声,即第四声。

普通话中没有入声字。

古代的入声字一部分在普通话中已经变为阴平和阳平,一部分在普通话中读上声和去声。

如果按普通话的声调论平仄,那么第一声和第二声就是平声,第三声和第四声就是仄声。

下面图片展示:这里有个问题。

现代人作诗如果按古代读音确定平仄,还得去记忆和翻看古代的韵书,这就显得有些麻烦。

也由于一些古代文字失去了它原有的读音,现代人作诗如果按古代读音确定平仄,却又按现代读音朗读,仍然没有高低变化和抑扬顿挫之感,显得十分别扭。

所以,建议初学格律诗的人通常情况下按新韵作诗。

为了便于初学者透彻理解格律诗的平仄,下面我们用新韵格律诗加以图解。

2、格律生成的方法——“替”“对”“粘”:简单地说,讲平仄主要是讲“交替”“相对”“相粘”三个问题。

所谓“交替”,是对一句说的,也就是一句中平仄要交替进行;所谓“相对”,是对一联中的两句说的,也就是一联中的两句平仄要相对立;所谓“相粘”是对上一联的对句和下一联的出句说的,也就是上一联的对句和下一联的出句平仄要相粘同。

先说“交替”。

在说“交替”之前,先说说诗句的节奏问题。

基于神经网络的古诗词自动生成

基于神经网络的古诗词自动生成

2019年4月基于神经网络的古诗词自动生成肖齐平治(湖南省长沙市第一中学,湖南省长沙市410000)【摘要】随着人们的生活速度步步加快,人们真正有机会自我创作的时间大大减少,但又有许多人有时需要快速获得一些文本,例如:需要利用关键词或者根据特殊格式创作古诗词、歌词等,而这时如果可以借助计算机根据给定的关键词创作无疑可以大大缩减人们所需时间。

本文利用深度学习算法,使计算机具有初步模拟人类创作的能力,并对比不同神经网络的差异,如准确率以及上下文信息的保留程度,用长短期记忆(Long Short-Term Memory)网络模型代替标准循环神经网络(Recurrent Neural Network)模型进行实验,减缓经典RNN模型可能出现的梯度消失或梯度爆炸问题。

【关键词】LSTM;词向量;深度学习;自然语言处理【中图分类号】TP183【文献标识码】A【文章编号】1006-4222(2019)04-0094-031绪论近年来,随着互联网人工智能的发展,各种原本由人类进行的事都逐渐能被计算机取代,模拟学习人类创作文章自然也不会在话下。

如今习作依然大多都是咬文嚼字,慢工出细活,甚至没有一点语文功底都无从下笔,但又有许多人需要创作、写作写文。

本文便以计算机应人类需求生成古诗词为例介绍如何设计程序,使计算机初步具有习文创作的能力。

此构想意义在于可以初步使计算机拥有对语言预测与判断的能力,可以为深入了解研究做铺垫;并可以简化推动人们的生活交流,在习文创作方面可以大大缩短时间。

本论文构想参照前人理论观点等研究成果,比较分析中文字符向量的表示方法,选出最适合深度学习的词向量表示;并分析各深度学习算法,发现尽管标准循环神经网络(Recurrent Neural Network)模型能够初步考虑上下文含义,但其存在梯度消失与梯度爆炸的问题,因此利用长短期记忆(Long Short-Term Memory)模型进行实验,以提高准确率。

古籍诗词格律研究报告范文

古籍诗词格律研究报告范文

古籍诗词格律研究报告范文古籍诗词格律研究报告范文一、引言古代诗词是中华民族优秀文化遗产之一,对于中华文化的传承和发展起到了重要作用。

其中,格律是古代诗词创作中的基本规范,也是诗词的灵魂所在。

本报告将对古籍诗词格律进行深入研究,探讨其演变和特点,以期更好地理解和传承古代诗词文化。

二、古籍诗词格律的演变古代诗词的格律多种多样,经历了长期的演变和发展。

在唐宋两代,由于社会文化的繁荣,古代格律得以进一步系统化和规范化。

具体来说,古代诗词格律可分为平仄、押韵、字数、词牌四个方面进行考察。

1. 平仄:平仄是古代诗词格律中最基本的要求之一。

平指声调平缓的音调,仄指声调上扬的音调。

诗词的平仄以平和押韵的韵脚相对应。

平仄的正确运用可以使诗词表现感情更加准确,音韵和谐。

2. 押韵:押韵是古代诗词中重要的表现手法之一。

古代诗词中的押韵方式既有声母押韵也有韵母押韵,不同的押韵方式能够给诗词带来不同的音韵效果。

押韵是古代诗词所特有的美学特征之一,它使得诗词的声音更加悦耳动听。

3. 字数:古代诗词格律中的字数是指每一句诗词的字数规范。

古代诗词按照字数的规定可以分为四言、五言、七言等不同的格律形式。

不同的字数规定会影响到诗词的表达方式和节奏感。

字数的运用不仅要符合格律规定,还要注重词句的连贯性和意境的表达。

4. 词牌:古代诗词通过不同的词牌来规定其格律。

词牌是指特定的诗词形式和结构,它要求诗词在平仄、押韵、字数上有一定的限制和要求。

古代诗词的词牌丰富多样,如《古诗十九首》、《唐诗三百首》等。

三、古籍诗词格律的特点古籍诗词格律在其演变的过程中形成了独特的特点,这些特点是由古代社会、文化背景和诗词家们的创作风格共同决定的。

1. 博大精深:古代格律是古籍诗词的重要组成部分,它涵盖了音韵、节奏、韵味等多方面的要素,对于创作具有广泛而深入的影响。

这种博大精深的特点使得古代诗词在形式上更加严谨精细,能够准确地表达诗人的情感和意境。

2. 讲究平仄:在古籍诗词格律中,平仄是基本要求之一。

高校课题申报:“人工智能+新文科”视野下中文专业古典诗词教育改革研究

高校课题申报:“人工智能+新文科”视野下中文专业古典诗词教育改革研究

“人工智能+新文科”视野下中文专业古典诗词教育改革研究学科分类:高等教育课题类别:一般课题关键词:人工智能,新文科,古典诗词教育预期研究成果:研究报告课题设计论证1.问题的提出、课题界定、国内外研究现状述评、选题意义与研究价值。

1.1问题的提出人工智能在古典诗词创作与研究领域已取得初步进展,在人工智能和新文科教育背景下,高校中文专业古典诗词教育如何改革是一个迫切需要重视的问题。

1.2课题的界定本课题研究人工智能和新文科视野下,中文专业古典诗词教育在教学培养目标、课程内容、选修课程建设、教学模式等方面的改革,以及古典诗词智能化协同教学对人工智能建设的促进。

1.3国内外研究现状述评本世纪以来人工智能技术快速发展,学界对中国古典诗词与人工智能相结合的探讨渐趋增多。

与此相应,人工智能时代高校文科专业人才的培养也成为关注重点,相关研究主要归为以下四个方面:一、关于古典诗词创作与人工智能相结合的研究。

本世纪初,有学者在理论上提出以古典诗词为代表的文学艺术应当与计算机相结合(陈廷槐,2000)。

学者们在技术层面进行了人工智能创作古典诗词的研究。

如以统计机器翻译理论为基础的格律诗自动生成(何晶,周明,蒋龙,2010;蒋锐滢,崔磊,何晶,2015;朱骐,2018)、基于主题注意力机制(纪贤松,2018)、长短时记忆网络(董虎胜,2018)、神经网络模型(梁健楠、孙茂松、矣晓沅、杨成、陈慧敏、刘正皓,2019)的古典诗词自动生成。

还有的研究了基于统计抽词和格律的全宋词切分语料库(苏劲松,周昌乐,李翼鸿,2007)。

对人工智能创作古典诗词的诸多研究,有学者提出计算机辅助作诗软件给新时期古典诗词的创作带来了挑战和创新(徐小娜,2016)。

有硕士论文认为在诗歌创作上,人工智能主要基于算法拼贴,实现格律、诗行等较为初级、简单的形式(汪凌云,2019)。

目前诗词学习网站里带有智能化功用的有“搜韵”的自动笺注系统,已研制出功能较强的人工智能古典诗词创作系统有重庆大学开发的诗词语言处理系统(2007)、微软亚洲研究院“绝句生成系统”(2015)、清华大学自然语言处理与社会人文计算实验室的“九歌”人工智能诗歌创作系统V2.0版(2019)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第24卷第2期中文信息学报V01.24,No.22010年3月JOURNALoFCHINESEINFORMATl0NPROCESSINGMar.,2010文章编号:1003-0077(2010)02—0096-08基于统计的汉语格律诗生成研究何晶1’2,周明2,蒋龙2(1.清华大学理论计算机研究中心,北京100084,2.微软亚洲研究院自然语言计算组,北京100190)摘要:古代中文诗歌的巅峰——中文格律诗,包括律诗和绝旬,是中国古典诗词的奇葩。

该文从已有的古今名诗中自动学习作诗知识,实现了一个中文格律诗的自动生成系统。

该系统接收用户选择的表达其思路的若干个关犍词作为输入,首先,利用相关词汇数据库和语言模型,实现了根据用户选定的关键词自动生成诗歌的第一句。

其次,我们独创性地将格律诗的上下句关系映射为源语言到目标语言的翻译关系,设计了一个基于短语的统计机器翻译模型,从而把诗歌的第N-1句作为输入用以生成第N句。

并提供了一个用户交互式的系统,使得用户可以在每一步都选择一个最佳诗句。

最后,我们还精心设计了一套翔实的格律诗评测标准,并通过单句实验和全诗实验证明。

该方法是诗歌产生的一个较好的方法。

关键词:人工智能;机器翻译;统计机器翻译;诗歌生成;绝句评洲中图分类号:TP391文献标识码:AGeneratingChineseMetricalPoetrybyaStatisticalMTApproachHEJin91“,ZHOUMin92,JIANGLongz(1.InstituteforTheoreticalComputerScience,TsinghuaUniversity,Beijing100084,China;2.MicrosoftResearchAsiaSigmaCenter,Bering100190,China)Abstract:Automaticpoetrygenerationisconsidereddifficult.Inthispaper,weproposenovelstatisticalapproachforautomaticgenerationoftraditionalChinesemetricalpoetryfromfewuser-suppliedkeywords.Atemplate-basedmodelisusedtoautomaticallygeneratethefirstofthepoem.Aphrase-basedstatisticalmachinetranslationmodelthengeneratesadditionalsentencesone-by-one.Withinteractivemodel。

theselectthebesttencefromthesystem’SN—bestoutputateachstep.Theapproachhasbeenevaluatedthegenerationofquatrainsof5一and7-characterlines.Theevaluationmetricsforsinglelineswellforthewholegeneratedpoemsuggestthatthismethodisverypromising.Keywords:artificialintelligence;machinetranslation;statisticalmachinetranslation;poemgeneration;poemevalu—ation1引言中文格律诗作为中国悠久灿烂的古典文学的重要组成部分,兼有中文的美感和艺术的灵感。

然而格律诗的韵律要求十分严格,给作诗造成了障碍。

本研究的目的是通过研究格律诗生成的内在规律,利用计算机辅助进行格律诗的自动生成。

对联可以看作是一种特殊的格律诗。

微软亚洲研究院自然语言计算组研发了自动对联系统①【1|。

①http://dullish.msra.crt收稿日期:2009—08—30定稿日期:2009—10—28基金项目:国家自然科学基金资助项目(60553001);国家自然科学基金重大资助项目(2007CB807900,2007CB807901)作者简介:何晶(1986一),女,博士生,主要研究方向为理论计算机科学,自然语言处理;周明(1964一),男,博士,研究员,博导。

主要研究方向为自然语言处理,多语言搜索;蒋龙(1981一),男,硕士,副研究员,主要研究方向为自然语言处理,网络挖掘。

2期何晶等:基于统计的汉语格律诗生成研究97这套系统采用了统计机器翻译的方法。

它将上下联的对应关系建模成机器翻译中源语言句子和目标语言句子的对应关系。

我们在这个工作基础上,将格律诗中的上下旬关系建模为机器翻译中的源语言句子和目标语言句子的关系。

然而,诗中的句对跟对联在格律、意境方面有许多不同,不能单纯地采用对对联的技术。

统计机器翻泽把翻译的过程看作是一个搜索过程,也就是对一个给定的源文句子,生成多种可能的译文,然后搜索一个在统计意义下最优的翻译结果。

本研究中,我们采用了基于短语的统计机器翻译心’123方法。

该方法以短语作为翻译的基本单位。

以给定绝句的上句来生成下旬为例,系统会首先将上句按照各种可能划分为多个短语,然后将每一个短语利用翻译模型翻译为下一句中的短语,最后结合语言模型组合得到最优的若干候选下旬。

我们还对传统机器翻译解码器进行了修改,使之生成符合韵律要求的下旬。

基于统计机器翻译的格律诗生成方法有一个缺憾:无法生成诗的第一句。

为了弥补此不足,我们从古籍《诗学含英》中获取了一个诗歌词汇库,并设计了一个结合节奏模板和语言模型的首句生成模型。

本文接下来的内容是这样安排的:第二节,介绍了诗歌生成领域的相关工作;第三节提出了诗歌生成的总体框架;第四和第五节,分别解释了首句生成模型和基于统计机器翻译原理的自动生成诗歌的模型;第六节报告了实验的设计说明和评测结果,并在最后一节给出了本研究的结论和未来改进的方向。

2相关工作电脑辅助诗歌创作这一领域已有不少前人的工作,中国台湾元智大学的罗凤珠教授【5J提供了一个自动检查诗词格律的系统和一个帮助用户查找同韵字的字典。

李良炎¨1探讨了中文诗词风格评价技术。

至于自动生成诗歌,网上广泛流传的“稻香老农”作诗机①采用将辞藻按照语法直接填入诗词模板而成,生成的诗歌较为生硬晦涩。

目前还没有看到较好的生成中文诗歌的结果。

在中文对联方面,微软亚洲研究院的自然语言计算组研发的计算机自动对联系统[73首次采用了统计机器翻译用于对联生成。

其他语言的利用计算机生成诗歌研究工作始于1959年,TheoLutz用计算机产生了第一首德文诗歌[8]。

Mnuring在其论文中提出了一个完整的作诗机模型Do]。

另外,前人还设计了RACTER和PROSE等作诗系统L8]。

总结前入对于诗歌生成的研究,可以将诗歌生成粗略地分为三类:基于模板的、进化的和基于范例的过程。

就我们所知,目前还没有用统计的方法研究中文格律诗的工作发表。

我们的工作可以说是这一领域的第一个尝试。

3计算机绝句生成的总体流程模拟人写绝句的过程,我们把计算机绝句生成的过程分为以下几个步骤:1.用户选择诗的形式(五言或七言),并通过输入关键词确定想要表达的内容;2.由计算机自动生成诗的首句;3.根据生成的首句并参考用户给定的信息,由计算机依次生成余下的诗句。

图1绝句生成框架用户首先选择待作绝句的内容可能涉及到的若干个语义类别,例如“时令类”、“游眺类”等。

然后在各语义类别下选择一个关键词,比如分别选择“早春”、“踏青”等。

这里所用到的语义类别以及每个类别下的关键词都是由《诗学含英》②中的分类体系整理得到的。

《诗学含英》中的分类体系共有40大类,1016个关键词,41218个词(其中不重复的34290个),其中的词汇长度从2到5不等。

例如时令类是一个大类,里面有春色。

早春等关键词。

例如任意一个关键词为“春色”,书中将描写“春色”的诗歌中的一些辞藻整理归纳出来,得到与关键词“春色”相关①http://www.poeming.conl/web/index.htm⑦清朝乾隆年间,山阴刘文蔚编辑之《诗学含英》根据《增广诗韵全壁》一书所附《诗学含英》建立,旨在提供初习作诗者应用辞藻典故之参考。

98中文信息学报的辞藻,如山青、芳草等相关词汇。

当用户确定好诗的形式和三个关键词以后,我们利用一个相关词汇库和统计语言模型自动地生成若干首句候选。

有了绝句的第一句,要让电脑生成余下的三句,我们把绝句的上下相邻两句的关系类比于翻译问题中源语言和目标语言的对应关系,给定绝句上句,利用统计机器翻译的方法来“翻译”得出下一句。

在生成第N句诗的时候,依据的信息是上一句诗,以及上溯到第一句的所有诗句,甚至包括用户输入的关键词。

我们提出的诗歌生成框架使得用户和系统之间的交互很方便。

我们可以充分地利用用户的选择,改进系统的结果,最大限度地满足用户需求并产生质量良好的诗句。

4首句生成根据观察,五言绝句的诗句通常是以下七种节奏格式:(***l**代表一个三音节短语加上一个双音节短语,以此类推),*l****,****l*,***l**,**I***,**l*I**,*l**I**,**I**I*。

而七言绝句的贝0主要是以1f六种格式:**}**f-*akak,**f***l**,***f**l**,*l***I***,"*"X--'Z-l*I***,***I***I*。

假设所要生成的绝句的首句包含的词都是与用户选定的关键词相关的,那么只要我们通过将与这些关键词相关的词汇按照上述格式进行组配,就可以得到符合要求的绝句首句了。

按照这种方法来生成绝句首句,必须首先建立一个相关词汇数据库。

本研究中,我们提出了利用《诗学含英》中的词汇分类体系来建立该数据库。

对于500首格律诗的调查证明,95%的诗歌的第一句中出现的字词都可以在《诗学含英》中找到,因此用《诗学含英》作为诗歌词汇的来源是切实可行的。

利用根据《诗学含英》建立的相关词汇数据库,我们可以为用户选定的每个关键词生成一个相关词汇集合。

这样,我们得到了若干个包含不同长度词汇的集合,然后把所有相关词汇依次从句子的第一个位置放置到句子的最后一个位置,生成一个词图。

随后在词图上面采用Forward—Viterbi—backward—A*搜索算法得到需要的首句。

为了防止生成的诗句出现“孤平”等不合韵律的现象,我们加入了一个过滤过程,将不符合韵律要求的句子去掉。

举例而言,用户选定三个关键词:春日、郊行、访友,要求生成五言绝句。

我们的系统将会构建一个庞大的相关词汇表{‘‘明媚”,“寻芳草”,“水村”,“旧话”,……},并且把相关词汇依次放置到句子的各个位置,形成的词图如表1。

相关文档
最新文档