文本挖掘技术研究进展_袁军鹏
大规模文本挖掘技术研究与应用

大规模文本挖掘技术研究与应用随着信息时代的到来,互联网的普及,我们生活在的世界日益变得数字化、信息化。
互联网上每天涌现出的海量的信息,尤其是文本信息,已经超过了人类的处理能力。
而对于这些大量的文本信息,仅凭人类的手工处理是远远不够的。
所以,大规模文本挖掘技术的研究和应用已成为当下的一个热门领域。
一、什么是大规模文本挖掘技术大规模文本挖掘技术是一种基于机器学习、数据挖掘、自然语言处理等技术,对大规模文本数据的自动化分析和抽取的方法。
从文本数据中自动提取出信息,揭示出潜在的规律和趋势,对于很多领域具有至关重要的作用。
与传统的文本分析不同,大规模文本挖掘技术可以处理海量的文本数据,并能自动发现文本中隐藏的规律和模式,揭示真相、为业务决策提供支持。
二、大规模文本挖掘技术的应用示例1. 舆情监测大规模文本挖掘技术可以用于对网上舆情的全面监测与分析。
通过对互联网上各类文本的抓取和分析,可以及时发现并分析用户的观点和情感,从而得出舆情分析报告,为政府和企业决策提供支持。
2. 金融风险控制大规模文本挖掘技术可以用于对金融市场的全面监测和分析,对金融市场中各类文本数据进行抓取和分析,分析包括基本面分析、技术面分析、市场情绪分析,在风险控制方面提供决策支持。
3. 天气预报大规模文本挖掘技术可以用于对气象数据的分析。
通过对遥感、互联网天气预报等数据的综合分析,构建气象预测模型,为业内人士提供准确的天气预报。
三、大规模文本挖掘技术的研究方向1. 自然语言处理与文本处理技术在大规模文本挖掘技术研究中,自然语言处理技术是一项重要的技术。
在语音识别、机器翻译、情感分析、知识图谱等领域,自然语言处理技术都有广泛的应用。
2. 数据挖掘与机器学习技术数据挖掘与机器学习技术是大规模文本挖掘技术的核心技术之一。
对于海量文本数据的自动分类、关键词抽取、情感分析等任务,机器学习和数据挖掘能够提供有效的解决方案。
3. 分布式计算和存储技术大规模文本挖掘技术处理的数据量庞大,分布式计算和存储技术能够方便高效地完成海量数据的处理和存储,是大规模文本挖掘技术研究中必不可少的技术之一。
文本挖掘在教育领域的应用研究

文本挖掘在教育领域的应用研究随着信息技术的快速发展,文本挖掘技术在各个领域的应用也越来越广泛。
教育领域作为一个重要的社会领域,也开始逐渐应用文本挖掘技术来解决一系列教育问题。
本文将探讨文本挖掘在教育领域的应用研究,包括学生学习行为分析、教师评价和课程设计等方面。
首先,学生学习行为分析是文本挖掘在教育领域的一个重要应用方向。
通过分析学生在网络课程、在线讨论和作业提交等平台上产生的大量文本数据,可以了解到学生们的学习行为和习惯。
例如,可以通过分析学生们在在线讨论中发表的言论来了解他们对课程内容的理解程度和思考深度。
同时,还可以通过分析作业提交记录来了解到他们对作业要求和评价标准的理解情况。
这些信息对于教师进行个性化辅导和提供针对性反馈非常有价值。
其次,教师评价是另一个文本挖掘在教育领域的应用研究方向。
教师评价是教育领域中一个非常重要的环节,可以帮助教师了解学生的学习状况,及时调整教学策略。
通过分析学生在课堂上的表现和课后作业的文本反馈,可以帮助教师评估学生对课程的掌握程度和对教学内容的理解程度。
同时,还可以通过分析学生对不同教师在评价方面的反馈来了解到不同教师在评价上存在的差异和改进空间。
这些信息对于提高教师评价能力和提升课堂效果非常有益。
最后,文本挖掘还可以应用于课程设计方面。
通过分析大量课程资料、作业要求和考试题目等文本数据,可以了解到不同课程之间存在的差异和共性。
这些信息有助于设计出更加适合学生需求、能够提高学习效果的课程内容和形式。
同时,还可以通过分析不同年级、不同专业或不同地区学生对某一门课程或某一类题目反馈意见来调整课程设计,提高教学质量和学生满意度。
综上所述,文本挖掘在教育领域的应用研究具有重要的意义和价值。
通过分析学生学习行为、教师评价和课程设计等方面的文本数据,可以帮助教育工作者更好地了解学生需求、提高教学质量和效果。
未来,随着文本挖掘技术的进一步发展,相信在教育领域的应用研究将会取得更加深入和广泛的成果。
文本挖掘技术在用户评论分析中的应用研究

文本挖掘技术在用户评论分析中的应用研究近年来,随着互联网的迅猛发展,巨大的用户数据量使得挖掘和分析这些数据成为业界和学术界的研究热点。
文本挖掘技术应运而生,它可以对大量的文本信息进行自动分类、聚类、情感分析等处理,进而提取出有用的信息,为企业和研究者提供决策支持和研究方向。
用户评论作为互联网上一种重要的信息资源,在电子商务、社交网络、新闻媒体等领域都具有广泛的应用,同时也成为了文本挖掘技术的热点领域之一。
本文将从用户评论的特点、文本挖掘技术的应用等方面探讨文本挖掘技术在用户评论分析中的应用研究。
一、用户评论的特点用户评论是用户对某一商品、服务、事件等的评价或反馈,包括文字评论、评分、图片、视频等。
用户评论的特点主要有以下几个方面:1. 大量性。
随着互联网的普及,每天都有数以亿计的用户在不同的平台上进行评论,这使得用户评论形成了海量的数据集。
2. 多样性。
用户评论的形式、内容、主题、情感等方面都具有多样性,这使得对用户评论的分析处理成为一项具有挑战性的工作。
3. 时效性。
用户评论往往是在用户对某一事件或商品有一定了解之后立即进行的,所以具有一定的时效性,特别是在热点事件、商品上,时效性更为突出。
4. 情感性。
用户评论涉及到用户对某一事物的主观评价,具有明显的情感色彩,包括正面评价、中性评价和负面评价。
以上特点使得对用户评论的分析处理成为了一个复杂的过程,需要借助文本挖掘技术来进行有效的处理和分析。
二、文本挖掘技术的应用文本挖掘技术是从大量的文本数据中自动提取有用的信息的一种技术手段,包括信息检索、自然语言处理、机器学习、数据挖掘等技术。
在用户评论分析中,文本挖掘技术主要应用在以下几个方面:1. 关键词提取。
通过对用户评论中的词汇进行分析,提取出评论中的关键词,这些关键词可以反映出用户对某一商品或服务的主要评价点,这对于商家优化产品或服务很有帮助。
2. 情感分析。
对用户评论进行情感分析,可以判定用户评论是正面评价、中性评价还是负面评价,这对于企业改进产品或服务、人们研究用户行为等方面都有实际应用。
文本挖掘技术在舆情分析中的应用

文本挖掘技术在舆情分析中的应用近年来,随着互联网的普及和社交媒体的兴起,大量的信息被迅速传播和公开,给舆论的形成和传播带来了巨大的挑战。
舆情分析作为一种重要的社会调研手段,逐渐被广泛应用于各个领域。
而文本挖掘技术则成为舆情分析的重要工具之一。
本文将探讨文本挖掘技术在舆情分析中的应用。
首先,舆情分析是一种通过对海量的文字、图片、视频等信息进行收集、处理和分析,来了解社会公众的观点、态度和情绪的研究方法。
而文本挖掘技术作为舆情分析的核心技术之一,能够从大量的文本数据中提取有用的信息,帮助研究者更全面、准确地了解社会舆论的动态。
文本挖掘技术包括文本分类、情感分析、关键词提取等多种技术手段,下面将分别介绍这些技术在舆情分析中的应用。
文本分类是将大量的文本数据按照一定的分类标准进行分类的技术。
在舆情分析中,可以通过文本分类技术将各类舆情信息进行分类,比如将政治类、经济类、娱乐类等不同类型的舆情进行划分,从而更好地进行研究和分析。
文本分类技术通常采用机器学习的方法,通过对训练样本的学习和分类模型的建立,实现对大规模文本数据的自动分类。
情感分析又称为意见挖掘或观点挖掘,是文本挖掘技术的重要应用之一。
情感分析用于判断文本中的情感倾向,比如正面、负面或中性。
在舆情分析中,情感分析可以帮助研究者了解公众对某一事件、产品或机构的态度和情绪。
通过将文本数据进行情感分析,可以对舆论的发展趋势和热点问题有更深入的了解,为政府、企业和媒体等机构提供重要参考。
关键词提取技术是通过对文本中的词语进行分析和统计,提取出具有特定意义或代表某一主题的关键词的技术。
在舆情分析中,关键词提取技术可以帮助研究者挖掘出舆论关注的焦点和热点话题。
通过统计和分析文本数据中频率较高的关键词,可以对舆情的特点和趋势进行更详尽的描述和分析。
除了文本分类、情感分析和关键词提取等技术,文本挖掘技术还可以应用于舆情预测和舆情监测。
舆情预测是指根据历史数据和模型,通过分析当前的舆情信息,预测未来的舆情发展趋势。
文本挖掘技术在新闻热点跟踪中的应用研究

文本挖掘技术在新闻热点跟踪中的应用研究随着移动互联网和社交媒体的普及,人们的信息获取方式也发生了巨大变化。
新闻热点跟踪作为一种信息获取方式备受关注,其可以帮助我们快速、深入地了解某一事件的发展情况。
然而,随着新闻信息的海量化,如何高效地实现新闻热点跟踪成为了一个愈加复杂和具有挑战性的问题。
在这个背景下,文本挖掘技术作为一种重要的信息处理手段,其在新闻热点跟踪中的应用研究也呼之欲出。
文本挖掘技术是一种将自然语言处理、机器学习、数据挖掘和信息检索相结合的技术,用于自动化地分析和抽取大规模文本数据中蕴藏的知识和信息。
其在新闻热点跟踪中的应用主要包括以下三个方面:第一个方面是主题识别。
主题识别是指从大量文本数据中自动地发现和提取其中的主题或话题,用于帮助用户进行新闻热点跟踪和分析。
主题识别算法包括传统的基于统计模型和基于机器学习的方法。
其中,LDA(Latent Dirichlet Allocation)是一种典型的基于统计模型的主题识别算法,可以识别出文本数据中的主题及其分布情况。
而基于机器学习的主题识别算法则需要先进行语料的标注和训练,然后通过分类模型来识别文本数据中的主题。
第二个方面是情感分析。
情感分析是指从文本数据中自动地识别、提取和分析文本中的情感信息,以帮助用户了解社会舆情和民意动向。
情感分析算法主要包括基于情感词典和基于机器学习的方法。
其中,基于情感词典的情感分析算法需要将文本中的词汇与情感词典中的词汇进行匹配和统计,以确定文本的情感倾向。
而基于机器学习的情感分析算法则需要进行语料的标注和训练,然后通过分类模型来识别文本数据中的情感信息。
第三个方面是新闻事件追溯。
新闻事件追溯是指通过分析和挖掘多个时间段内的新闻文本数据,来了解某一事件的演变和发展情况。
新闻事件追溯算法主要包括基于跨时间段的主题演化分析和基于时间序列的事件检测和跟踪。
其中,基于跨时间段的主题演化分析主要是通过对多个时间段内的文本数据进行主题识别和演化分析,来了解事件的演化和发展情况。
文本挖掘技术研究进展_袁军鹏

1 引言
据数据挖掘著名 网站 K dnuggቤተ መጻሕፍቲ ባይዱts的调查 , 已有 60%左右的 人在利用软件 工具进 行文 本挖掘 , 另 有 12%的人计 划在 六个 月内进行文本挖掘 , 如图 1所示 。
的结构数据为研 究目标所不同的是 , 文本挖掘所研究的文本数 据库 , 由来自各种数据源的大量文档组成 , 包括新闻文章 、研究 论文 、书籍 、期刊 、报告 、专利说明书 、会议文献 、技术档案 、政府 出版物 、数字图书馆 、技术 标准 、产品样本 、电子 邮件消息 、W eb 页面等 。 这些文档可能包含标题 、作者 、出版 日期 、长度等结构 化数据 , 也可能包含摘要和内 容等非 结构化的 文本成 分 [ 1] , 而 且这些文档的内 容是人类所使用的自然语言 , 计算机很难处理 其语义 。 因此传统的信 息检索 技术已不 适应日 益增加 的大量 文本数据处理的 需要 , 人们提出文本挖掘的方法进行不同的文 档比较 , 以及文档重要性和 相关性 排列 , 或找出 多文档 的模式 或趋势等分析 [ 2] 。
预处理技术主要包括 S temm ing(英文 ) /分词 (中文 )、特征 表示和特征提取 。 与数据库中 的结构化数据相比 , 文本具有有 限的结构 , 或者根本就没 有结构 。 此外 , 文档的 内容是 人类所 使用的自然语言 , 计算机很难处理其语义 。 文本信息源的这些 特殊性使得数据预处 理技术在文本挖掘中更加重要 。 3. 1. 1 分词技术
3 文本挖掘技术分析
文本挖掘不但要 处理大量的 结构化 和非结 构化的 文档数 据 , 而且还要处理其中复杂的语义关系 , 因此 , 现有的数据挖掘 技术无法直接应用于 其上 。对 于非结构化问题 , 一条途径是发 展全新的数据挖掘算 法直接对非结构化数据进行挖掘 , 由于数 据非常复杂 , 导致这种算法 的复杂 性很高 ;另一 条途径 就是将 非结构化问题结构化 , 利用 现有的 数据挖 掘技术进 行挖掘 , 目 前的文本挖掘一般采 用该途径进行 。 对于语义关系 , 则需要集 成计算语言学和自然 语言处 理等成 果进行分 析 。 我们 按照文 本挖掘的过程介绍其 涉及的主要技术及其主要进展 。 3. 1 数据预处 理技术
文本挖掘技术的研究与应用

文本挖掘技术的研究与应用第一章:概述文本挖掘技术是信息技术领域的一项重要技术,它是利用自然语言处理、数据挖掘、机器学习等技术,从文本中抽取出有用信息的一类技术。
文本挖掘技术在互联网信息处理、社交媒体分析、舆情监测、电子商务等领域得到了广泛应用,同时,也在学术研究、科技创新等领域发挥了重要作用。
第二章:文本挖掘技术的基本过程文本挖掘技术的基本过程包括文本预处理、特征提取、模型建立、模型评价等步骤。
其中,文本预处理是文本挖掘技术的重要基础,主要包括文本清洗、分词、去除停用词、词干化等步骤。
特征提取是指将文本转化为特征向量的过程,主要包括词袋模型、TF-IDF权重等方法。
在模型建立过程中,常用的文本分类模型包括朴素贝叶斯、支持向量机、决策树等。
最后,模型评价是需要通过训练集和测试集来评价模型的准确度、召回率、精确率等指标。
第三章:文本挖掘技术的应用3.1 互联网信息处理互联网上的信息量非常庞大,文本挖掘技术可以帮助人们更好地利用这些信息,提取出对他们有价值的信息。
例如,在电子商务领域中,文本挖掘技术可以发现商品的销售趋势、热门关键词等,从而帮助商家制定更好的营销策略。
在搜索引擎中,文本挖掘技术可以帮助人们更准确地搜索到他们想要的信息。
3.2 社交媒体分析随着社交媒体的飞速发展,人们在社交媒体上所发布的信息量越来越大,文本挖掘技术可以帮助人们更好地了解社交媒体中的情感倾向、热门话题等。
例如,在微博上,我们可以通过文本挖掘分析来了解某一话题的热度、人们对其的情感倾向等信息。
3.3 舆情监测对于政府和企事业单位来说,了解公众的情感倾向、热点话题等信息对于制定政策和营销策略非常重要。
文本挖掘技术可以帮助他们及时了解公众的反应,从而更好地回应公众关切,提高公众满意度。
3.4 学术研究文本挖掘技术也在学术研究中发挥了重要作用。
科学家们通过分析已有文献,探索尚未被发掘的知识点。
例如,在药物研发领域,通过文本挖掘技术可以挖掘出已有的药物研究成果,发现新的药物应用方向。
高职本科办学模式探析——以云南师大职教院为例

高教研究现代教育科学M O D E R N E D U C A T I O NS C I E N C E2014年第4期高职本科办学模式探析———以云南师大职教院为例张雅博 谢笑天[摘 要]高等职业教育作为高等教育发展中的一个类型,完整体系包括高职专科、高职本科、专业硕士、专业博士等。
而目前高职本科教育在我国还是一个新生事物,云南师大职教学院在实施高职本科试点学院五年多的实践探索中,初步形成了学历教育、职业技能培训与鉴定、社会服务相结合的“三位一体”办学模式。
[关键词]高等职业教育 高职本科 办学模式[中图分类号]G64 [文献标识码]A [文章编号]1005—5843(2014)04-0073-03[作者简介]张雅博,云南师范大学职业技术教育学院硕士生;谢笑天,云南师范大学职业技术教育学院院长、教授(云南昆明 650500)云南省从2009年开始率先在全国开展“高职本科试点院校”工作。
云南师大职教学院作为云南省三家试点单位之一,将学历教育、职业技能培训与鉴定、社会服务结合为“三位一体”,在相互支撑、相互促进中形成了有效的办学组织体系和运行机制,初步形成了职教特色鲜明的办学模式。
一、现状高职本科(高等职业本科)是全日制本科学历教育的一种,学位为专业学士。
高职本科与普通本科共同构成我国高等教育体系的全日制本科层次。
我国台湾省早已存在高职本科的办学类型,大陆部分省市也已经开始推行应用型高等职业本科层次教育。
高等职业教育作为高等教育中的一个类型,其完整体系包括高职专科、高职本科、专业硕士、专业博士等,肩负着培养面向生产、建设、服务和管理第一线需要的高素质的技术应用型和职业技能型高等专业人才的使命,在我国加快推进社会主义现代化建设进程中具有不可替代的作用。
随着我国城乡建设一体化进程、新型工业化道路的加快,建设社会主义新农村和创新型国家对高技能人才要求的不断提高,需要构建职业教育“立交桥”,以促进现代职业教育的发展。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
袁军鹏等 :文本挖掘技术研究进展
1
文本挖掘技术研究进展 *
袁军鹏1 , 朱东华2 , 李 毅3 , 李连宏 2, 黄 进 2
(1. 清华大学 公共管理学院 , 北京 100084;2. 北京理工大学 管理与经济学院 , 北京 100081;3. 空军济南四站 厂 , 山东 济南 250022)
3 文本挖掘技术分析
文本挖掘不但要 处理大量的 结构化 和非结 构化的 文档数 据 , 而且还要处理其中复杂的语义关系 , 因此 , 现有的数据挖掘 技术无法直接应用于 其上 。对 于非结构化问题 , 一条途径是发 展全新的数据挖掘算 法直接对非结构化数据进行挖掘 , 由于数 据非常复杂 , 导致这种算法 的复杂 性很高 ;另一 条途径 就是将 非结构化问题结构化 , 利用 现有的 数据挖 掘技术进 行挖掘 , 目 前的文本挖掘一般采 用该途径进行 。 对于语义关系 , 则需要集 成计算语言学和自然 语言处 理等成 果进行分 析 。 我们 按照文 本挖掘的过程介绍其 涉及的主要技术及其主要进展 。 3. 1 数据预处 理技术
用向量空间 模型得到的特 征向量的 维数往 往会达 到数十 万维 , 如此高维的特征对即 将进行 的分类 学习未 必全是 重要 、 有益的 (一般只选择 2% ~ 5%的最 佳特征 作为 分类依 据 ), 而 且高维的特征会 大大增加机器的学习时间 , 这便是特征提取所 要完成的工作 。
特征提取算 法一般是构造一个评价函数 , 对每个特征进行 评估 , 然后把特征按分值高 低排队 , 预定 数目分 数最高 的特征 被选取 。 在文本处理中 , 常用的评估函数有信息增 益 ( Info rm ation G ain)、期望交叉熵 (Expec ted C ro ss Entropy)、互信息 (M utua l In fo rm ation)、文本证据权 (The W e ight o f Ev idence fo r T ex t) 和词频 [ 17, 18] 。
1 引言
据数据挖掘著名 网站 K dnuggets的调查 , 已有 60%左右的 人在利用软件 工具进 行文 本挖掘 , 另 有 12%的人计 划在 六个 月内进行文本挖掘 , 如图 1所示 。
的结构数据为研 究目标所不同的是 , 文本挖掘所研究的文本数 据库 , 由来自各种数据源的大量文档组成 , 包括新闻文章 、研究 论文 、书籍 、期刊 、报告 、专利说明书 、会议文献 、技术档案 、政府 出版物 、数字图书馆 、技术 标准 、产品样本 、电子 邮件消息 、W eb 页面等 。 这些文档可能包含标题 、作者 、出版 日期 、长度等结构 化数据 , 也可能包含摘要和内 容等非 结构化的 文本成 分 [ 1] , 而 且这些文档的内 容是人类所使用的自然语言 , 计算机很难处理 其语义 。 因此传统的信 息检索 技术已不 适应日 益增加 的大量 文本数据处理的 需要 , 人们提出文本挖掘的方法进行不同的文 档比较 , 以及文档重要性和 相关性 排列 , 或找出 多文档 的模式 或趋势等分析 [ 2] 。
摘 要 :文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程 , 已经成为数 据挖掘中一个日益流行而重要的研究领域 。首先给出了文本挖掘的定义和框架 , 对文本挖掘中预处理 、文本摘 要 、文本分类 、聚类 、关联分析及可视化技术进行了详尽的分析 , 并归纳了最新的研究进展 。最后指出了文本挖 掘在知识发现中的重要意义 , 展望了文本挖掘在信息技术中的发展前景 。 关键词 :文本挖掘 ;中文分词 ;特征选取 ;文本摘要 ;文本分类 ;文本聚类 ;关联分析 ;数据可视化 中图法分类号 :TP311;TP18 文献标识码 :A 文章编号 :1001-3695(2006)02-0001-04
Survey of TextM ining Techno logy
YUAN Jun-peng1 , ZHU D ong-hua2, L I Y i3, L I L ian-hong2, HUANG Jin2 (1. S chool of Pub lic Po licy &Managemen t, Tsinghua Un iversity, B eijing 100084, C hina;2. S chool of Managemen t &E conom ics, B eijing In-
预处理技术主要包括 S temm ing(英文 ) /分词 (中文 )、特征 表示和特征提取 。 与数据库中 的结构化数据相比 , 文本具有有 限的结构 , 或者根本就没 有结构 。 此外 , 文档的 内容是 人类所 使用的自然语言 , 计算机很难处理其语义 。 文本信息源的这些 特殊性使得数据预处 理技术在文本挖掘中更加重要 。 3. 1. 1 分词技术
3. 2 挖掘 分析技术
基于词库的分词 算法包括 正向最 大匹配 、正向 最小匹 配 、 逆向匹配及逐词遍历 匹配法等 [ 4] 。 这类 算法的 特点是 易于实 现 , 设 计简 单 ;但 分词 的 正确 性 很大 程度 上 取决 于所 建 的词 库 [ 5] 。 因此基于词库的分词技术 对于歧 义和未 登录词 的切分 具有很大的困难 。 文献 [ 6] 在 分析了最大 匹配法 的特点后 , 提 出了一种改进的算法 。 该算法在 允许一 定的分 词错误 率的情 况 下 , 能 显著 提高 分词效 率 , 其速 度优于 传统 的最大 匹配 法 。 文献 [ 7] 中采用了基 于词典的正向逐词 遍历匹配 法 , 取 得了较 好的效果 。
stitu te of Technology, B eijing 100081, Ch ina;3. M anu fa ctory o f S izhan, J inan A ir Force, Jinan S handong 250022, Ch ina)
Ab stract:Tex tM ining, also known as inte lligent tex t ana ly sis, tex t data m ining or K now ledge-D iscovery in Tex t (KDT ), is a rapidly em erg ing field concerned w ith the ex traction o f concepts, re la tions, and imp licit know ledg e from tex ts. A sm ost info rm ation (over 80%) is stored as text, tex tm ining is believed to have a high comm ercia l po tentia l va lue. F irstly, th is rev iew paper discusses the resea rch status o f tex tm ining, then it lays ou t the framewo rk o f tex tm in ing and ana ly ses techniques of tex t m ining, such as fea ture se lec tion, au tom atic abstrac ting, tex t ca tego riza tion, tex t clustering, tex t association, da ta v isua lization. In the end, it show s the importance of tex tm ining in know ledge d iscove ry and highlights the upcom ing cha llenges of tex t m ining and the oppo rtunities it offers. K ey words:T extM ining;Cu tting Ch inese W ord;Fea ture Se lection;T ext A utom a tic A bstracting;Tex t Ca tego rization;Tex t C luste ring;Tex tA ssocia tion;D a ta V isualization
2 文本挖掘概述
图 1 文本挖掘使用经验调查 由此可见 , 文本挖掘已经成为数据挖掘中一个日益流行而 重要的研究领域 。 与一般数据 挖掘以关系 、事务和数据仓库中
收稿日期 : 2005-06-22;修返日期 : 2005-09-21 基金项目 :国家自然科学基金 资助项目 (70031010);北京 理工 大学学校基金项目 ;北京理工大学育苗基金项目
基于无词典的分 词技术的 基本思 想是 :基于词 频的统 计 , 将原文中任意前后紧 邻的两个字 作为一 个词进 行出现 频率的 统计 , 出现的次数越高 , 成为一 个词的可能性也就越大 , 在频率 超过某个预先设定的 阈值时 , 就将其作为一个词进行索引 。 这 种方法能够有效 地提取 出未 登录词 [ 8, 9] 。 文献 [ 10] 设计 了一
2. 1 文本 挖掘的定义
文本挖掘作 为数据挖掘的一个新主题 , 引起了人们的极大 兴趣 , 同时 , 它也是一个富 于争议的研究方向 , 目前其定义尚无 统一的结论 , 需要国内外学者开展更多的研究以便进行精确的 定义 。
借鉴 Choon Y ang Q uek对 W eb挖掘的定义 [ 3] , 我们给出文 本挖掘的定义 :
个基于无词典 分词 的算 法 , 能比 较准 确地 切分 出文 本中 的新 词 。 文献 [ 11] 基于层次隐马模型 , 设计开发了 “汉语 词法分析 系统 ” , 将分词 、词语排歧 、未登 录词的识 别三个 过程融 合到一 个相对统一的理 论模型中 。 3. 1. 2 特征表示
文本特征指的是关于 文本的元数 据 , 分为描 述性特征 (如 文本的名称 、日期 、大 小 、类型等 )和 语义 性特征 (如 文本 的作 者 、机构 、标题 、内容 等 )。 特征表 示是 指以 一定 特征 项 (如词 条或描述 )来代表文档 , 在文本 挖掘时只 需对这 些特征 项进行 处理 , 从而实现对非结构化的文本处理 。 这是一个非结构化向 结构化转换的处 理步骤 [ 12, 13] 。 特征表示的构 造过程就 是挖掘 模型的构造 过程 。 特征 表示 模型 有多 种 , 常用 的有 布尔 逻辑 型 、向量空间模 型 (V ector Space M odel, VSM )[ 14] 、概 率型 以及 混合型等 。 W 3C近来 制定的 XM L[ 15] , RDF[ 16] 等规范提供了 对 W eb文档资源进行描述的语言和框架 。 3. 1. 3 特征提取