传统蒙古文在线文本数据库的构筑法与在文本检索系统中

合集下载

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》篇一摘要:随着远程教育的发展和信息技术的不段更新,西里尔蒙古文远程教育系统的功能日趋丰富和优化。

其中,文本资源检索技术的应用成为了该系统中一个不可或缺的部分。

本文将对西里尔蒙古文远程教育系统中应用文本资源检索技术的现状、意义、所面临的挑战及未来发展进行深入研究,以期为相关领域的研究与应用提供参考。

一、引言在信息化社会背景下,远程教育已经成为人们获取知识的重要途径之一。

西里尔蒙古文作为蒙古族人民的主要文字之一,在信息时代的今天同样面临着教育的创新和改革。

本文所探讨的文本资源检索技术则能够在西里尔蒙古文远程教育系统中发挥巨大作用,提升教学质量和效率。

二、西里尔蒙古文远程教育系统现状西里尔蒙古文远程教育系统已经形成了一个完整的体系,涵盖了教学管理、在线学习、资源管理等多个方面。

该系统能够满足不同学习者的需求,为他们提供便捷的学习平台。

然而,随着教育资源的不断丰富,传统的搜索方式已难以满足用户的快速获取信息的需要,这就迫切需要一种更高效的资源检索技术。

三、文本资源检索技术的引入及应用文本资源检索技术是通过对文档内容进行深度分析、理解和比对的技术,能够帮助用户快速地定位和筛选所需的信息。

该技术引入到西里尔蒙古文远程教育系统中后,有效地提高了信息的搜索效率和学习体验。

该技术具体应用于以下几个方面:1. 课程资源的检索:通过文本资源检索技术,学生可以快速找到自己所需的课程资料和教材内容。

2. 作业和论文的辅助:教师可以利用该技术对学生的作业和论文进行检索和分析,以评估学生的学习成果和水平。

3. 教学管理优化:教师和管理员可以更高效地搜索和筛选教学资源、教学计划和课程信息等。

四、文本资源检索技术的重要性及面临的挑战文本资源检索技术在西里尔蒙古文远程教育系统中的应用具有重要的意义。

首先,它提高了信息的检索速度和准确性,从而提升了教学质量和学习效率。

其次,它为学生和教师提供了更为便捷的信息获取方式,增强了学习的互动性和趣味性。

《蒙古文查询扩展研究及信息检索系统的建立》范文

《蒙古文查询扩展研究及信息检索系统的建立》范文

《蒙古文查询扩展研究及信息检索系统的建立》篇一一、引言随着信息技术的发展和数字化时代的到来,信息的检索与处理能力成为现代社会不可或缺的一部分。

蒙古文作为我国少数民族文化的重要载体,其信息检索系统的建立对于保护和传承蒙古族文化具有重要意义。

本文旨在研究蒙古文查询扩展技术,并探讨建立高效、便捷的蒙古文信息检索系统。

二、蒙古文查询扩展研究1. 研究背景蒙古文信息检索技术的发展,对于满足广大蒙古族同胞的信息需求、推动民族文化的发展具有重要意义。

然而,由于蒙古文信息的分散性和复杂性,传统的信息检索技术往往难以满足用户的精准需求。

因此,研究蒙古文查询扩展技术,提高信息检索的准确性和效率,成为当前亟待解决的问题。

2. 查询扩展技术研究查询扩展技术主要通过分析用户查询的上下文信息,扩充查询词,提高检索结果的准确性和全面性。

对于蒙古文查询扩展研究,主要涉及以下几个方面:(1)基于语义的查询扩展:通过分析蒙古文的语义关系,扩充查询词,提高检索结果的语义相关性。

(2)基于用户行为的查询扩展:通过分析用户的点击、浏览等行为,了解用户的信息需求,进而扩充查询词,提高检索结果的实用性。

(3)跨语言查询扩展:结合多语言信息检索技术,实现蒙古文与其他语言的互译和检索,扩大检索范围。

三、蒙古文信息检索系统的建立1. 系统架构设计蒙古文信息检索系统主要包括数据层、处理层和应用层。

数据层负责存储和管理蒙古文信息资源;处理层负责实现信息的检索、查询扩展、结果处理等功能;应用层则为用户提供友好的界面和交互方式。

2. 数据处理与存储在数据层,需要实现蒙古文信息的采集、分类、标引等工作,建立结构化和非结构化的蒙古文信息资源库。

同时,还需要采用高效的存储技术和压缩算法,确保数据的快速访问和存储。

3. 检索功能实现在处理层,需要实现基于蒙古文查询扩展的检索算法,包括语义分析、用户行为分析、跨语言检索等功能。

同时,还需要实现检索结果的排序、去重、摘要等功能,提高检索结果的可用性和可读性。

蒙古文信息检索系统的设计与实现

蒙古文信息检索系统的设计与实现

蒙古文信息检索系统的设计与实现
温子潇;包飞龙;高光来;王勇和;苏向东
【期刊名称】《中文信息学报》
【年(卷),期】2018(032)007
【摘要】该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统.在网页抓取方面,采用M D5算法对爬虫进行了改进,提升了爬虫的速度.在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作.在检索方面,使用向量空间模型实现了对蒙古文文档的检索.在该文系统中加入了西里尔蒙古文到传统蒙古文转换和更新统计等模块,最终搭建了一个可以达到应用要求的蒙古文信息检索系统.
【总页数】9页(P44-51,57)
【作者】温子潇;包飞龙;高光来;王勇和;苏向东
【作者单位】内蒙古大学计算机学院 ,内蒙古呼和浩特010021;内蒙古大学计算机学院 ,内蒙古呼和浩特010021;内蒙古大学计算机学院 ,内蒙古呼和浩特010021;内蒙古大学计算机学院 ,内蒙古呼和浩特010021;内蒙古大学计算机学院 ,内蒙古呼和浩特010021
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于网络爬虫的水利信息检索系统的设计与实现 [J], 巫义锐;黄多辉;周逸徉
2.基于网络爬虫的水利信息检索系统的设计与实现 [J], 巫义锐;黄多辉;周逸徉
3.基于VisualFoxPro环境开发蒙古文信息检索系统的实现 [J], 海泉
4.文本信息检索系统的设计与实现 [J], 李高鹏; 艾山·吾买尔; 郑炅; 王路路
MOST异构环境信息检索系统的设计与实现 [J], 王政;王锋;田园;李建;赵永恒因版权原因,仅展示原文概要,查看原文内容请购买。

《《跨语言检索中的蒙古语关键词数据库》的构建》范文

《《跨语言检索中的蒙古语关键词数据库》的构建》范文

《《跨语言检索中的蒙古语关键词数据库》的构建》篇一《跨语言检索中的蒙古语关键词数据库构建》一、引言随着全球化的推进和信息技术的飞速发展,跨语言检索已成为各领域的重要课题。

在这一背景下,构建针对特定语言如蒙古语的关键词数据库,对提高信息检索的效率和准确性具有深远的意义。

本文将着重探讨跨语言检索中蒙古语关键词数据库的构建方法与重要性。

二、蒙古语关键词数据库构建的必要性蒙古语作为世界上的重要语言之一,其信息资源的有效检索和利用对于促进文化交流、经济发展具有重要意义。

然而,由于语言差异的存在,蒙古语在跨语言检索中面临着诸多挑战。

因此,构建蒙古语关键词数据库,对于提高信息检索的准确性和效率,满足用户需求,具有十分重要的价值。

三、蒙古语关键词数据库的构建方法1. 数据来源与预处理构建蒙古语关键词数据库的首要任务是收集数据。

数据来源可以包括网络资源、文献资料、蒙古语语料库等。

在收集到原始数据后,需要进行预处理,包括数据清洗、分词、去除停用词等步骤,以提取出有价值的关键词。

2. 关键词提取与筛选关键词的提取是构建数据库的核心环节。

可以通过基于统计的方法、基于规则的方法、基于机器学习的方法等多种方式提取关键词。

在提取出关键词后,需要进行筛选和优化,以去除无关的、重复的关键词,保留具有代表性的关键词。

3. 数据库设计与实现根据提取和筛选出的关键词,设计数据库的结构和表结构。

在实现过程中,需要考虑数据库的扩展性、可维护性、安全性等方面。

同时,还需要考虑如何将蒙古语关键词与其他语言的关键词进行关联,以实现跨语言检索。

四、蒙古语关键词数据库的应用场景与价值1. 文化交流与传播通过构建蒙古语关键词数据库,可以更好地挖掘和整理蒙古语文化资源,促进不同民族之间的文化交流与传播。

同时,对于推动蒙古文化的国际传播和影响力也具有积极意义。

2. 商业价值与应用场景在商业领域,蒙古语关键词数据库的构建对于提高企业信息检索的准确性和效率具有重要意义。

《蒙古文查询扩展研究及信息检索系统的建立》范文

《蒙古文查询扩展研究及信息检索系统的建立》范文

《蒙古文查询扩展研究及信息检索系统的建立》篇一一、引言随着信息技术的飞速发展,信息检索技术已成为现代社会不可或缺的一部分。

特别是在蒙古国,随着文化、历史和科技信息的不断增长,建立高效、准确的信息检索系统显得尤为重要。

本文旨在研究蒙古文查询扩展技术,探讨其对于提升信息检索系统性能的重要意义,并详细介绍信息检索系统的建立过程。

二、蒙古文查询扩展技术研究(一)研究背景蒙古文作为蒙古国的官方语言,具有丰富的历史和文化内涵。

然而,由于蒙古文的特殊性,信息检索系统在处理蒙古文查询时面临诸多挑战。

为了解决这些问题,查询扩展技术应运而生。

(二)研究目的查询扩展技术旨在通过分析用户查询的上下文信息,扩展查询关键词,提高检索结果的准确性和全面性。

对于蒙古文查询扩展技术的研究,旨在解决蒙古文信息检索中的关键问题,提升蒙古文信息检索系统的性能。

(三)研究方法本研究采用文献调研、实验分析和案例研究等方法,对蒙古文查询扩展技术进行深入研究。

通过分析大量蒙古文文献和语料库,提取关键词和上下文信息,进行实验验证和案例分析。

(四)研究结果经过深入研究,我们发现蒙古文查询扩展技术可以有效提高信息检索系统的性能。

通过扩展查询关键词,可以更准确地反映用户查询的意图,提高检索结果的准确性和全面性。

同时,该技术还可以提高用户满意度,降低误检率。

三、信息检索系统的建立(一)系统需求分析在建立信息检索系统之前,首先需要进行系统需求分析。

这包括明确系统的目标用户、功能需求、性能需求等。

对于蒙古文信息检索系统而言,需要充分考虑蒙古文的特殊性和用户的实际需求。

(二)系统设计在系统需求分析的基础上,进行系统设计。

这包括数据库设计、算法选择、系统架构设计等。

在数据库设计中,需要充分考虑数据的存储和检索效率;在算法选择上,需要选择适合蒙古文信息检索的算法;在系统架构设计上,需要确保系统的稳定性和可扩展性。

(三)系统实现与测试在系统设计完成后,进行系统实现与测试。

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》篇一一、引言随着信息技术的飞速发展,远程教育已经成为教育领域的重要一环。

作为全球多语言文化的一部分,西里尔蒙古文在远程教育中的有效应用与传播显得尤为重要。

本文将重点探讨文本资源检索技术在西里尔蒙古文远程教育系统中的应用,通过研究该技术如何提升蒙古文教育资源的管理、传播和教学效果,以期为远程教育的发展提供有益的参考。

二、西里尔蒙古文与远程教育的融合西里尔蒙古文是蒙古国的官方语言之一,拥有丰富的历史和深厚的文化底蕴。

然而,由于语言特性的差异和资源匮乏等原因,西里尔蒙古文的远程教育面临着诸多挑战。

为了更好地推广和传播蒙古文化,需要充分利用现代信息技术手段,提高远程教育的质量和效率。

三、文本资源检索技术的概述文本资源检索技术是一种基于计算机信息处理技术的资源检索方式,能够快速地从大量的文本数据中查找到用户所需的信息。

这种技术广泛应用于教育、科研、情报、网络等多个领域。

在西里尔蒙古文远程教育系统中,文本资源检索技术能够有效地管理、组织和检索蒙古文教育资源,提高教学效率和学习效果。

四、文本资源检索技术在西里尔蒙古文远程教育系统中的应用(一)教学资源管理在远程教育系统中,教学资源的数量庞大且类型多样。

通过应用文本资源检索技术,可以有效地管理这些教学资源。

教师和学生可以通过关键词搜索,快速找到所需的教学资料和课程内容。

同时,该技术还可以对教学资源进行分类、整理和归档,方便用户进行浏览和查询。

(二)教学资源传播文本资源检索技术不仅可以用于教学资源的内部管理,还可以用于教学资源的外部传播。

通过建立在线教育资源库和共享平台,利用文本资源检索技术实现教学资源的快速传播和共享。

这有助于扩大蒙古文教育资源的影响力,提高教学质量和学习效果。

(三)个性化教学支持文本资源检索技术还可以为个性化教学提供支持。

根据学生的学习需求和兴趣,通过分析学生的学习历史和成绩数据,教师可以为学生推荐适合的课程资料和学习路径。

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》篇一一、引言随着信息技术的快速发展,远程教育已成为教育领域的重要分支。

西里尔蒙古文作为蒙古国的官方语言之一,其教育资源的获取和利用对于提升蒙古国国民的教育水平具有重要意义。

文本资源检索技术作为信息技术的重要组成部分,其在西里尔蒙古文远程教育系统中的应用研究具有重要的理论和实践价值。

本文旨在探讨文本资源检索技术在西里尔蒙古文远程教育系统中的应用,分析其应用效果及存在的问题,并提出相应的解决方案。

二、西里尔蒙古文远程教育系统现状西里尔蒙古文远程教育系统是利用现代信息技术手段,为蒙古国广大地区提供教育资源和学习机会的远程教育平台。

该系统主要包括课程资源、教学资源、学习资源等,这些资源的有效管理和检索对于提高学习效率和教学质量具有重要意义。

然而,由于西里尔蒙古文的特殊性,如文字编码、字符集、词汇量等,使得西里尔蒙古文远程教育系统的资源管理和检索面临一定的挑战。

三、文本资源检索技术概述文本资源检索技术是一种基于计算机技术的信息检索技术,通过对文本资源的分析、处理和索引,实现快速、准确的文本信息检索。

该技术主要包括文本预处理、文本表示、相似度计算等关键技术。

在西里尔蒙古文远程教育系统中,文本资源检索技术可以帮助用户快速找到所需的资源,提高学习效率和学习效果。

四、文本资源检索技术在西里尔蒙古文远程教育系统中的应用(一)资源分类与组织在西里尔蒙古文远程教育系统中,采用文本资源检索技术可以对教育资源进行分类和组织。

通过对教育资源的标题、摘要、内容等关键信息进行提取和分析,可以将其归类到相应的主题和类别中。

这样可以方便用户根据需求快速找到所需的资源,提高资源利用效率。

(二)教学资源检索在西里尔蒙古文远程教育系统中,学生和教师可以利用文本资源检索技术进行教学资源检索。

通过输入关键词或关键词组合,系统可以快速找到相关的教育资源,如课件、教案、教学视频等。

同时,系统还可以根据用户的搜索历史和偏好,推荐相关的教育资源,提高用户体验和学习效果。

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《2024年文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》范文

《文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究》篇一一、引言随着信息技术的快速发展,文本资源检索技术已经成为教育领域的重要工具。

在多元化的教育形式中,西里尔蒙古文远程教育系统作为提升蒙古族人民教育水平的重要手段,急需高效、准确的文本资源检索技术来支撑。

本文将详细探讨文本资源检索技术在西里尔蒙古文远程教育系统中的应用研究,以期为该领域的发展提供理论支持和实践指导。

二、西里尔蒙古文远程教育系统概述西里尔蒙古文远程教育系统是一种以网络为媒介,以西里尔蒙古文为主要教学内容的远程教育平台。

该系统为蒙古族学生提供了灵活、便捷的学习方式,使得教育资源得以在更大范围内共享。

然而,随着教育资源的日益丰富,如何高效地检索和利用这些资源成为了一个亟待解决的问题。

三、文本资源检索技术文本资源检索技术是一种基于计算机技术的信息检索方法,通过对文本信息的处理和分析,实现快速、准确的资源检索。

该技术主要包括文本预处理、分词、索引构建、检索算法等关键步骤。

在西里尔蒙古文远程教育系统中,文本资源检索技术可以帮助学生快速找到所需的学习资料,提高学习效率。

四、文本资源检索技术在西里尔蒙古文远程教育系统中的应用1. 教学资源的检索与利用通过应用文本资源检索技术,学生可以快速找到西里尔蒙古文的教学资料,包括教材、教案、视频等。

同时,教师也可以利用该技术对教学资源进行分类、整理和推荐,为学生提供更加丰富和高质量的学习内容。

2. 学习辅助与支持文本资源检索技术可以为学生提供学习辅助和支持,如在线词典、语法解释、习题答案等。

通过该技术,学生可以随时随地进行学习,提高学习效果和自主学习能力。

3. 教学效果评估与反馈通过分析学生在西里尔蒙古文远程教育系统中使用文本资源检索技术的行为数据,教师可以了解学生的学习情况、掌握程度和需求,从而对教学策略和教学方法进行调整和优化。

同时,学生也可以通过反馈机制向教师提供学习建议和意见,促进教学相长。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

传统蒙古文在线文本数据库的构筑法与在文本检索系统中的应用 A Method for Producing On-line Text Databases in TraditionalMongolian and its Application to Text RetrievalDula MAN Graduate School of Library, Information and Media Studies University of Tsukuba.1-2 Kasuga,Tsukuba305-8550, Japan mandula@slis.tsukuba.ac.jpAtsushi FUJIIGraduate School of Library,Information and Media StudiesUniversity of Tsukuba.1-2 Kasuga,Tsukuba305-8550, Japanfujii@slis.tsukuba.ac.jpTetsuya ISHIKAWAGraduate School of Library,Information and Media StudiesUniversity of Tsukuba.1-2 Kasuga,Tsukuba305-8550, Japanishikawa@slis.tsukuba.ac.jp AbstractExchanging on-line information in the traditional Mongolian script is difficult, due to thelack of the standard electronization method. Although in Mongolian spelling and meaning can be determined by pronunciation, existing character codes are mainly based on spellingand cannot represent meaning. To resolve this problem, we propose an electronization method and an input/output interface for the traditional Mongolian script. Additionally, to enhance an on-line text database in traditional Mongolian automatically, we propose a method for transliterating texts in modern Mongolian into traditional Mongolian, because both languages use the same pronunciation system but use different letters. We apply our method to realize a full-text retrieval system for newspaper articles in traditional Mongolian.关键字: 传统蒙古文,文本电子化,字符编码,字译,全文检索系统Keywords traditional Mongolian script, electronization of text, character codes,transliteration, full-text retrieval systems1.序随着互联网的普及,在线信息交换已走向日常化、国际化。

在这样的高度信息化时代,竖写传统蒙古文的电子化文本却还没有普及。

这是由于蒙古文字的特殊性,文字处理软件等各种应用软件都采用着独自的电子化方式,至今还未确立通用性的电子化方式。

蒙古语,包括使用竖写蒙古文字的传统蒙古语,和使用西里尔文字的现代蒙古语的两种文字体系。

使用西里尔文字体系的现代蒙古语,电子化方式基本稳定下来,能够进行在线信息交换。

本文,主要针对传统蒙古语的电子化方式,和现代蒙古语电子化文本与传统蒙古语电子化文本之间的互相字译规律的研究。

以下把西里尔文字书写的现代蒙古语简称为「现代蒙古文」,传统竖写蒙古语简称为「蒙古文」。

蒙古文不能进行在线信息交换,对于使用蒙古文的蒙古人来说,产生了信息利用的不平等,在文化、经济、技术等各个领域呈现出信息差距(digital divide)。

要解决这些问题必须首先确立蒙古文电子化的通用方式。

对蒙古文的电子化,作者认为只在计算机的显示器上显示蒙古文字或特定的硬件和软件条件下处理蒙古文是不符合电子化文本的需求。

必须在无论什么时候,不管是谁,在通用环境下都可以加工和利用的,具有高度通用性的文本格式才能够满足电子化文本的需求。

自然语言的电子化,有使用该语言固有的字符编码体系(日语的SJIS等),和把该语言的读音信息转写到其他语言的字符编码体系上进行电子化的两种方式。

通过现有蒙古文字符编码的分析,作者发现这些蒙古文编码都缺乏通用性。

因而,本研究以罗马字转写蒙古文的读音,用ASCII code保存信息来实现蒙古文电子化。

实装蒙古文读音输入输出界面进行蒙古文的电子化。

并提出,将现代蒙古语电子化文本字译成蒙古文电子化文本的方式,构筑传统蒙古语文本数据库,打好传统蒙古语信息处理研究的基础,实现蒙古文全文检索系统。

2.关于蒙古文电子化的先期研究蒙古文的电子化研究始于20世纪80年代初。

在中国、蒙古、日本、德国等各国至今仍在进行研究。

然而,由于蒙古文文字的特殊性,至今尚未确立通用的电子化方式。

到目前为止已提出的关于蒙古文的电子化方式,可分为“以蒙古文字符编码电子化”和“利用罗马字转写输入电子化”的两种。

2.1 字符编码电子化以蒙古文字符编码的电子化方式有GB,智能,SUDAR,方正,MLS,U nicode等编码体系。

GB,智能,方正编码体系着重于将蒙古文字的字形以字素,字母,音节等混合要素进行编码。

在本文中这种编码体系叫作混合编码。

用混合编码进行电子化的数据不能区别同形异音字,无法进行按音素分解等缺陷。

SUDAR编码是按字母编码,但是将蒙古文字的词头,词中,词尾的字形分开编码。

按音素分解的词处理时需要编码变换。

MLS是以字素编码,不能区分同形异音字和不能保存读音信息[3]。

Unicode是以音素编码,是最理想的编码体系。

但是,现在还未公开字符集并需要字形字译的生成机制。

因此, Unicode还未达到实用阶段。

2.2 罗马字转写电子化利用罗马字转写的电子化方式,具有代表性的有Oliver Corff提出的电子化方式(以下简称Corff方式)和内蒙古大学提出的电子化方式(以下简称内大方式)。

蒙古文共有7个元音字母,其中第4和第5元音字形完全相同[@o]、第6和第7元音也字形完全相同[@u]。

但是,这些同形字发音却不一样。

而在Corff方式中,忽略了发音不同的问题,把字形相同的第4、第5元音及第6、第7元音只电子化了第5的[@o]和第7的[@u],因此不能区分同形异音字母。

于此相反,内大方式是,为了区分同形异音字采用了一些数字和符号来转写进行电子化。

结果不能处理相应的数字和符号混合在一起的数据。

3.本研究的电子化方式和输入输出界面正如在第2章里介绍的,现有蒙古文字符编码在实用性上存在问题。

因此,本研究采用了用罗马字转写的电子化方式。

蒙古文书面语和口语有差别。

口语在地区之间差距较大。

但是,书面语相对比较稳定。

因此,本研究以书面语为标准进行电子化。

在口语中,第二音节以后一般不出现第四元音 @o 和第六元音 @o/ [1]。

这是一种元音脱落现象。

但是,在书面语中则需全部标明。

例如,在书面语中@oal o sW olosO ,在口语中则 ols 。

在后者中出现第2音节的元音脱落现象。

到目前为止的先期研究中采用的都是口语体系,造成一部分元音字母的信息损失。

而本研究以书面语为标准,以蒙古文发音进行电子化。

这样既可以完整的保存蒙古文字母的全部信息,又可在不损失读音信息的情况下与不久的将来公开使用的Unicode进行相互字译。

在本研究,用罗马字转写时不使用数字和罗马字字母以外的符号,只用罗马字字母进行电子化。

并且,蒙古文字母的读音以两个以上罗马字构成的读音,利用另外一个罗马字进行电子化。

例如:ng用大写字母N进行电子化。

蒙古文字符与罗马字的对应请参照图1。

为了本研究中提出的电子化方式便于使用,实装了蒙古文输入输出界面。

此输入输出界面是,输入对应蒙古文读音的罗马字,屏幕上显示出蒙古文字。

其对应请参照图2。

蒙古文字母,在单词中的位置不同而改变字形。

主要有词头、词中、词尾的“三位字形”变化。

单词与单词之间用空格间隔。

因此,在本输入输出界面用空格键来确定字母在词中的位置。

即,位于空格后面,并且后面还有字符串连接的字母是词头形。

位于空格前面,并且前面有字符串连接的字母是词尾形。

而前后都有字符串相联接的字母则可以判断为词中形。

但是,在蒙古文的传统书写正字法中不能所有的词都要“三位字形”明显区分书写。

为了区别同音词的词义、区别品词和外来语的读音等,习惯上用词中形描写词头或词尾形、用词头形描写词中和词尾形等特殊表现方式。

这种特殊表现方式,用读音相应的大写罗马字母来输入。

例如:辅音t在外来语的单词里,词中和词尾的位置上也要用词头形T 来书写。

在本研究的输入输出界面,词中的词头形t就用大写字母T来输入。

如,来自于英文的[material]蒙古文外来语@M a TEriYa|(资料)用[maTEriyal]来输入。

另外,蒙古文的格助词是相对固定的独立分写。

但是,与主词不同,词头也要书写于词中形。

因此,本输入输出界面为了和其他单词区别,参照格助词词典来判定格助词的词形。

另外有些词尾音节中的元音 a 和 e 要与前面的辅音分开写。

在本输入输出界面,这种情况的词尾音节的 a 和 e 就用大写字母 A 和 E 来输入。

本研究的输入输出界面,考虑方便性实装了如图2的文本编辑器。

此编辑器在Java虚拟机上动作。

用罗马字输入的信息逐个读入,变换成对应的蒙古文字母,显示在屏幕上。

蒙古文字体利用了TrueType Font[6]。

编辑过的内容可以保存在文档中。

图 蒙古文文本编辑器的例子4.现代蒙古文与蒙古文的互相字译方式研究自然言语的信息处理,需要用该语言文字体系电子化的文本数据。

这种文本数据库称为语言资源。

目前,蒙古文的电子化文本还未公开,蒙古文的语言资源极为贫乏。

因此,进行蒙古文的信息处理研究比较困难。

相关文档
最新文档