基于向量空间模型的项目申报书查重系统设计

合集下载

向量空间算法在信息检索中的使用

向量空间算法在信息检索中的使用

向量空间算法在信息检索中的使用向量空间模型(Vector Space Model)是一种常见的信息检索模型。

它将文本数据表示为向量的形式,利用向量运算来比较文本的相似性,从而实现检索。

向量空间模型的基本思想是:将文本集合看作向量空间中的点集,每篇文本可以表示为一个向量,向量的每个维度表示一个特征,例如单词出现的频率。

这样,文本就可以用一个向量来表示了。

在这个模型中,可以用余弦相似度(Cosine Similarity)来计算两个文本向量之间的相似度。

余弦相似度是基于向量的夹角计算的,夹角越小,余弦相似度越大,相似度也就越高。

向量空间模型在信息检索中的应用非常广泛。

这里列举几个常见的应用场景:1. 文本分类向量空间模型可以用来实现文本分类。

每个类别可以看作一个向量,在训练过程中,根据文本特征的权重调整向量的取值,最终建立一个分类模型。

分类时,将待分类文本转换成向量形式,然后通过比较其与各个类别向量的相似度来确定其所属类别。

2. 相似文本查找向量空间模型可以用来寻找相似的文本。

首先将所有的文本转换成向量形式,然后计算待查找文本与数据库中各个文本向量的相似度,最后按照相似度进行排序,选取相似度较高的文本作为结果。

3. 关键词匹配向量空间模型可以用来实现关键词匹配。

将待匹配文本表示为向量形式,然后将关键词也表示为向量形式,最后计算两个向量之间的余弦相似度,根据相似度来决定是否匹配成功。

在以上三个场景中,向量空间算法都可以很好地发挥作用,实现高效的检索和分类。

当然,这只是该算法在信息检索中的一些应用,还存在着许多其他精彩的应用场景,需要不断地探索和实践。

总之,向量空间算法是一种巧妙的算法,它将复杂的文本数据转换为简单的向量形式,从而方便地进行处理。

在信息检索中,向量空间算法已经成为了一种基础工具,可以帮助我们处理各种复杂的问题。

信息检索技术——向量空间模型

信息检索技术——向量空间模型

信息检索技术——向量空间模型上次介绍了,布尔模型已经可以解决⼀个很重要的问题,就是找到和⽤户需求相关的⽂档(其中还需要很多处理,⽐如分词,归⼀化,去掉停⽤词等等,我们只是介绍主要的框架流程)。

但是这样找到的⽂档会有很多,也许上千个,也许上万个,这远远不是⽤户所要的。

⽤户也不会去从⼏万个⽂档中挑选⾃⼰要找的。

因此我们需要对结果进⾏排序,把最能满⾜⽤户需求的⽂档放在最上⾯显⽰给⽤户,就像google和baidu做的⼀样。

细⼼的朋友就能发现,其实信息检索是⼀个循序渐进的剪枝和筛选过程,最后留下的就是⽤户想要的。

因此,我们需要⼀种评分机制来进⾏排序,通过得分的⾼低排除top N的⽂档返回给⽤户。

这个评分通过什么来确定呢?当然是⽤户查询的query和返回⽂档的相似度了。

计算相似度有很多种⽅法:⽅法1 Jaccard coefficient此⽅法看上去很好理解,就是⽤query和⽂档共同出现的词的个数,除以⼀共的词数。

当然也有很多问题1 没有考虑⽂档中词出现的次数(没有考虑tf因素)2 没有考虑⽂档的频率(没考虑idf因素)3 没有考虑⽂档的长度,长⽂档和短⽂档计算相似度的差别会很⼤下⾯我们⼀起看看⼀个⾮常著名的模型——空间向量模型⽅法2 向量空间模型(VSM)⾸先介绍2个概念,tf和idftf即term frequency, 表⽰⼀个term t出现在document d中的次数,这是⽂档中⼀个很重要的概念。

出现次数更多意味着重要程度越⾼,但是需要注意的是,相关度的提⾼并不是和次数的提⾼成同⽐的。

因此通常tf需要做如下的处理w1= log10(tf+1)这样做就是要弱化次数对于相关度的影响df即document frequency,表⽰⼀个term在整个⽂档集中出现的频率。

与tf相反,⼀个term的重要程度是随着它在语料库中出现的频率成反⽐的。

⽐如and,or等词在⼏乎所有⽂档中都出现,那么这些词的意义就很弱,⽽⼀些专业词汇只在⼏篇⽂档中出现过,显然意义更加重要。

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用随着信息时代的快速发展,海量的信息给人们生活带来了极大的便利,但是在如此多的信息面前,如何高效地获取所需的信息是一个重要的挑战。

信息检索系统便应运而生,通过各种技术手段对海量信息进行处理和组织,实现了信息的快速检索和获取。

其中,在信息检索中广泛使用的一种技术为向量空间模型。

向量空间模型是一种基于向量空间的信息处理模型,它将文档和查询都表示成向量空间中的向量,将文本处理为向量形式。

在这种模型中,文本的矢量表示可以用数学运算进行表示和处理。

同时,向量空间模型还提供了一种基于相似性的文本检索算法,即根据查询向量与文档向量之间的相似性进行匹配,给出排序后的结果。

在向量空间模型中,文档和查询都被表示为向量,这些向量通常都是高维的,即包含大量的维度,例如每个词汇都对应一个维度。

这样,在向量空间中,每一个文档和查询都可以表示为一个高维空间中的点,点与点之间的距离就代表了它们在语义上的相似性。

通过计算点与点之间的距离,即可以得到文档与查询的相关性,从而进行信息检索。

通常,在向量空间模型中,经常使用余弦相似度来衡量文档或查询之间的相似性。

余弦相似度表示两个向量之间的余弦值,值越大表示两个向量之间的相似性越大。

在向量空间模型中,文档向量通常是由每个文档中的词汇的TF-IDF 值构成的,而查询的向量则由查询中的每个词汇的 TF-IDF 值构成。

TF-IDF (Term Frequency-Inverse Document Frequency)是一种经典的文本特征提取方法,在文本中不同的词汇具有不同的权重。

TF 代表词语在文章中出现的频率,IDF 则是反比重,代表在所有文本中出现的频率。

具有高权重的词对文本的影响较大,而出现频率过高的词对文本的影响较小。

通过计算每个词的 TF-IDF 值,可以得到文档和查询的向量表示。

在向量空间模型中,具体的计算过程包括以下几个步骤:1. 对文档集合进行预处理,例如去除停用词、对文本进行分词等。

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用一、前言信息检索是指用户通过检索系统,以关键词等方式请求得到相关的信息的过程。

在这个过程中,如何让计算机快速准确地找到用户需要的信息,成为了信息检索中最基本的问题。

而向量空间模型成为了信息检索中最常用的方法之一。

二、向量空间模型概述向量空间模型是一种用向量来表示文本,以向量之间的距离或角度作为相似度度量的信息检索模型。

在向量空间模型中,每篇文本表示为一个向量,该向量与文本中所有词汇的向量构成的向量空间的距离被用来度量文本之间的相似度。

在向量空间模型中,文本表示为向量,而每个词汇也被表示为向量。

可以使用不同的方法来构建向量空间模型。

其中,最常用的是词频-逆文档频率方法(TF-IDF)。

三、向量空间模型的构建(一)词汇的表示在构建向量空间模型之前,需要对文档中的每个词汇进行处理,将其转换为向量。

主要有以下两种方法:1. 二元词向量(Boolean Vector)每个词汇的向量只有两个取值:0 和 1。

0表示该词汇在文档中未出现,1表示该词汇在文档中出现。

2. 词频向量(Term Frequency Vector)每个词汇的向量取值为该词汇在文档中出现的次数。

(二)文档的表示在对文本进行处理之后,就可以将每篇文本表示为向量。

文本向量的构建可以采用以下方法:1. 词频-逆文档频率向量(TF-IDF Vector)在TF-IDF中,每个文档的向量由其包含的所有词汇的TF-IDF 值构成,其中TF值表示该词汇出现的次数,IDF值表示在语料库中包含该词汇的文档数目的倒数。

2. LSA(潜在语义分析)向量LSA是一种利用SVD技术对文档、词汇进行降维处理来求解文档相似度的方法。

四、向量空间模型的应用(一)文本分类向量空间模型可用于文本分类。

建立好文本与向量之间的对应关系后,可以用已知分类的文本数据训练分类器。

测试文本经过向量化之后,使用分类器进行分类,从而完成文本分类的任务。

(二)信息检索向量空间模型在信息检索中得到广泛应用。

基于向量空间模型的文本自动分类系统的研究与实现

基于向量空间模型的文本自动分类系统的研究与实现

基于向量空间模型的文本自动分类系统的研究与实现一、概述在信息爆炸的时代,文本数据呈现出海量增长的趋势,如何有效地对这些文本进行分类、整理和利用,成为了信息处理领域的重要课题。

基于向量空间模型的文本自动分类系统,作为一种有效的文本处理方法,受到了广泛关注。

该系统通过构建文本向量空间,将文本信息转化为数学向量,进而利用机器学习算法实现文本的自动分类。

向量空间模型(Vector Space Model,VSM)是一种经典的文本表示方法,它将文本视为一个向量,每个向量维度对应文本中的一个特征(如词汇、短语或主题等)。

通过计算文本向量之间的相似度,可以实现对文本的分类和聚类。

基于向量空间模型的文本自动分类系统,通过提取文本特征、构建文本向量、训练分类器等一系列步骤,实现对文本数据的自动分类。

本文旨在研究并实现基于向量空间模型的文本自动分类系统。

我们将对向量空间模型的基本原理和关键技术进行深入探讨,包括文本预处理、特征提取、向量表示以及相似度计算等方面。

我们将选择合适的机器学习算法作为分类器,并通过训练数据集对分类器进行训练和优化。

我们将通过实验验证该系统的性能和效果,并对其在实际应用中的可行性进行评估。

1. 文本自动分类的背景和意义随着互联网技术的迅猛发展,文本数据呈现出爆炸式增长的趋势。

无论是社交媒体上的帖子、新闻报道、学术论文还是商业文档,都构成了庞大的文本信息库。

面对如此海量的文本数据,如何高效地组织、管理和检索成为了一个亟待解决的问题。

文本自动分类技术应运而生,成为了解决这一问题的有效手段。

文本自动分类是指利用计算机技术对文本进行自动分类和标注的过程。

通过对文本进行特征提取和分类算法的应用,可以实现对文本内容的自动识别和归类。

这一技术具有广泛的应用场景,如新闻分类、垃圾邮件过滤、情感分析、主题建模等。

通过文本自动分类,可以大大提高文本处理的效率和准确性,为用户提供更加便捷和精准的信息服务。

在学术研究领域,文本自动分类也是自然语言处理和机器学习领域的重要研究方向之一。

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用

向量空间模型在信息检索中的应用信息检索是一种利用计算机技术来满足人们需求的系统化、精准化的方式。

在大数据时代的今天,信息检索已经成为人们获取信息的一种主要途径。

向量空间模型(Vector Space Model,VSM)是信息检索领域应用最广泛的一种模型。

本文将介绍向量空间模型及其在信息检索中的应用。

一、向量空间模型的原理向量空间模型是一种基于向量空间理论的模型。

这一模型是根据人们对原始文本的理解来建立的。

为了描述文本的意义,可以将文本转换成向量的形式,然后通过计算向量之间的相似度来进行信息检索。

向量空间模型的基本原理如下:将文本集合中的每篇文档表示成一个向量,将每个单词表示成一个维度,词频表示向量该维度上的数值。

例如,某篇文档包含5个单词“书籍”、“出版社”、“出版”、“图书”和“市场”,其中“书籍”、“出版社”、“出版”分别出现2次,“图书”出现3次,“市场”出现1次。

那么,这篇文档可以表示成一个5维向量:(2,2,2,3,1)。

在向量空间模型中,每个文档向量与查询向量之间的相似度可以用余弦相似度来衡量。

设 $d_1$ 和 $d_2$ 为两个文档向量,$s(d_1,d_2)$ 表示它们之间的余弦相似度。

则:$$s(d_1,d_2)=\frac{d_1 \cdot d_2}{\left|d_1\right| \times\left|d_2\right|}$$其中,$d_1 \cdot d_2$ 表示向量内积,$\left|d_1\right|$ 和$\left|d_2\right|$ 分别表示两个向量的模长。

二、向量空间模型在信息检索中的应用向量空间模型在信息检索中的应用主要包括词项权重计算、向量表示、查询解析和相似度计算。

下面我们将介绍一些具体的应用场景。

1.词频统计向量空间模型的底层处理需要将文档转化为向量表示。

这一过程需要统计文档中词汇的频率。

在进行词频统计时,为了避免出现噪声数据,通常会进行一些特殊处理。

向量空间模型在信息检索中的应用研究

向量空间模型在信息检索中的应用研究一、引言信息检索(IR)技术是一项重要的研究领域。

信息检索技术被广泛应用于搜索引擎、图书馆信息管理、商业智能等领域。

信息检索是一个涉及自然语言处理、文本挖掘、统计学等多种技术的复杂问题。

向量空间模型(VSM)是信息检索领域中最常用的模型之一。

本文将重点介绍向量空间模型在信息检索中的应用及其相关研究进展。

二、向量空间模型的基本原理向量空间模型是一种基于向量表示文本的模型。

在VSM中,每个文档被表示为一个向量,每个向量的维度对应一个特征。

特征可以是单词、短语、主题等。

VSM的基本假设是,两个文档之间的相似性可以通过它们在向量空间中的距离来衡量。

其距离通常用余弦相似度(cosine similarity)来度量。

余弦相似度是一个常用的相似性度量方法,它的数值在-1到1之间,数值越接近1,表示两个文档越相似。

假设有一个文档集合D={D1,D2,...,Dn}和一个查询q。

每个文档Di被表示为一个d维向量Vi=(wi1,wi2,...,wid),其中wij表示文档Di中特征j的权重。

查询q也被表示为一个向量q=(wq1,wq2,...,wqd)。

假设估计查询q与文档Di的相似性,可以使用余弦相似度计算:$s(q,D_i)=\frac{q . V_i}{|q| |V_i|}$其中“.”表示向量的点积。

$|q|$和$|V_i|$分别表示向量q和向量Vi的范数。

VSMS所采用的一般三个步骤训练,排练和测试三、向量空间模型的应用VSM是一种非常灵活的模型,在信息检索、文本分类、自然语言处理等领域都有广泛的应用。

以下列举一些VSM的应用场景。

1.信息检索信息检索是VSM最常用的应用之一。

在信息检索中,每个文档被表示为一个向量,每个查询也被表示为一个向量。

那么,查询的向量与每个文档向量之间的余弦相似度可以用来衡量查询与文档之间的相关性。

这种方法被广泛应用于搜索引擎中。

2.文本分类文本分类是另一个广泛应用VSM的领域。

向量空间模型在信息检索中的应用研究

向量空间模型在信息检索中的应用研究向量空间模型是信息检索中常用的一种模型,它的基本思想是将文档用一个向量来表示,然后将查询也用向量来表示,通过计算向量之间的余弦相似度来实现信息的匹配和检索。

向量空间模型与传统的布尔模型不同,它不再只考虑文档中是否存在某个关键词,而是将文档作为一个整体进行处理。

由于文档的向量表示具有较好的可拓展性和易于理解性,因此在信息检索中得到了广泛的应用。

一、向量空间模型的基本原理在向量空间模型中,每篇文档可以看做是一个向量,而向量中的每个维度则代表一个权重。

这个权重通常表示该文档中某个关键词的出现频率与重要性,如TF-IDF等。

查询也可以看做是一个向量,在查询向量中每个维度对应的权重则表示查询词的重要性。

在进行查询时,我们可以通过计算文档向量与查询向量之间的余弦相似度来确定文档与查询的匹配程度。

相似度越高的文档会被认为更加相关,因此也被排在检索结果的前面。

二、向量空间模型的优点与缺点向量空间模型具有以下几个优点:1. 可拓展性较好:向量空间模型能够较好地适应数据集的变化,因为它只需要添加新的向量或修改已有向量的权重即可。

2. 易于理解:向量空间模型中的向量表示是一种直观的方法,能够使用户更加容易地理解查询结果。

3. 可以处理长查询:向量空间模型可以处理长查询,因为相对于布尔模型,它对查询中的关键词的位置以及顺序并不敏感。

当然,向量空间模型也有不足之处:1. 需要事先处理:为了得到文档和查询的向量表示,我们需要对文档库进行处理。

这样需要花费一定的时间和计算资源。

2. 不够精确:由于向量空间模型只考虑了关键词的频率和重要性,因此无法判断文档中是否存在某些不相关或冗余的信息。

三、向量空间模型的应用研究在实际应用中,向量空间模型常常与其他技术相结合来实现更好的信息检索效果。

例如,我们可以使用奇异值分解来降维,以减少计算复杂度,还可以采用机器学习算法来优化权重计算方式,以提升检索结果的准确性。

向量空间模型在推荐系统中的应用

向量空间模型在推荐系统中的应用近年来,随着互联网的发展,我们生活中会得到越来越多的信息,比如社交媒体信息、搜索引擎反馈信息、历史记录信息等等。

如何让计算机根据我们的喜好,对这些信息进行筛选与推荐,是近年来至关重要的问题。

在这种背景下,推荐系统应运而生,当中向量空间模型崭露头角,成为推荐算法中的重要一员。

1. 向量空间模型简介向量空间模型(Vector Space Model,VSM),是文本检索中使用最为广泛的一种信息表示方法。

在向量空间模型中,文本通过一个向量表示,字词按一定规则映射到向量空间的维度中。

一般是根据单词在文本中的出现情况来计算每个文本的特征向量。

2. 应用场景——推荐系统推荐系统的任务是将个性化的推荐文章、音乐、电影等内容推荐给用户。

用户往往浏览的信息是众多而杂乱的,如何从中挖掘出与用户兴趣相关的信息,成为实现推荐系统的核心。

而向量空间模型则为推荐系统提供了一种解析用户兴趣的方式。

3. 推荐系统的实现方式推荐系统的实现方式主要可以分为基于内容过滤的推荐和基于协同过滤的推荐。

基于内容过滤的推荐主要是根据用户的浏览历史和已收藏的信息,筛选出一些与之相关的信息进行推荐,这种方法受到不同文本之间相似度的制约,很容易陷入“千篇一律”的情况。

而基于协同过滤的推荐依靠用户对相同内容的行为选择进行分类,并利用机器学习等技术来寻找这些数据之间的关联性,在近年的推荐系统领域中应用比较多。

向量空间模型可以融合基于内容过滤和协同过滤的方式,在计算向量的同时结合文本相似性度量模型进行推荐,从而使结果更加精准和个性化。

4. 向量空间模型推荐算法向量空间模型推荐算法的实现主要可以从以下角度来考虑:(1)为每篇文章、音乐、电影等数据,构建唯一的用户兴趣特征向量;(2)基于用户兴趣特征向量进行相似度计算,找到最接近用户兴趣的文章、音乐、电影等数据;(3)根据相似度排序,将排名前N的数据推荐给用户。

针对每个角度的实现,具体细节会有所不同,以下是一些常见方法的举例:(1)将每篇文章、音乐、电影等数据标签化,即将其特征向量中的各个元素映射到不同的标签中,以标签为维度来计算;(2)使用余弦相似度或欧几里得距离等方式来计算文章、音乐、电影等数据的相似度;(3)在结果推荐中,可以利用“协同过滤”技术来增强推荐的店体验质量。

向量检索在大模型应用场景的设计和实践

向量检索在大模型应用场景的设计和实践1. 应用背景随着互联网的快速发展和海量数据的产生,传统的文本检索方法已经无法满足用户对信息获取的需求。

传统的文本检索方法主要基于关键词匹配,存在着词义不准确、结果排序不合理等问题。

而向量检索作为一种基于语义相似度的检索方法,能够更好地解决这些问题。

向量检索是一种将文本表示成向量形式,并通过计算向量之间的相似度来进行文本检索的方法。

它可以将文本转化为高维向量空间中的点,并通过计算点之间的距离来衡量它们之间的相似度。

这种方法不仅可以解决传统文本检索中存在的问题,还能够更好地处理多语言、多模态等复杂场景下的信息检索需求。

2. 应用过程2.1 数据准备在应用向量检索之前,首先需要进行数据准备工作。

这包括构建一个合适规模和质量的训练集,并使用该训练集训练一个高质量的语义表示模型。

训练集可以包括大规模的文本语料库,如维基百科、新闻数据等。

语义表示模型可以选择使用预训练的深度学习模型,如BERT、GPT等。

2.2 文本向量化在得到训练好的语义表示模型后,需要将待检索的文本转化为向量形式。

这可以通过将文本输入到语义表示模型中,获取其对应的隐藏层表示来实现。

一般情况下,可以选择使用模型最后一层的输出作为文本的向量表示。

2.3 建立索引在得到文本向量之后,需要将其存储到一个高效的索引结构中。

常用的索引结构包括倒排索引和近似最近邻(ANN)索引。

倒排索引是一种将文档按照词项进行组织的数据结构,可以快速地定位包含特定词项的文档。

而ANN索引则是一种能够高效地找到与查询向量最相似的向量集合的数据结构。

2.4 检索过程在进行检索时,首先需要将查询文本转化为向量形式,并利用建立好的索引结构进行相似度计算和排序。

对于倒排索引来说,可以通过计算查询向量与每个文档向量之间的余弦相似度来进行排序。

对于ANN索引来说,可以通过计算查询向量与索引中的向量之间的距离来进行排序。

2.5 结果展示最后,在得到检索结果后,需要将结果按照一定的方式进行展示给用户。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
江苏南京 2 1 0 0 4 2 ) ( 江苏省生产力促进 中心 摘
要:随着 国家及地 方科研 财政 经费的增加 ,企事业单位 对科技 项 目日益重视 ,项 目申报数 量也逐年递增 。为避
免对类似项 目的重复 支持 ,造 成科研 经 费的浪 费,项 目查重就显得 尤为必要 。提 出 了基 于向量空 间模型的项 目申报 书查重 系统设计方法 。并介绍设 计流程 。
视 程

但 随着科研 项 目申报数量
的增加 , 科研 成果重 复 申报 、 多头 申报现 象 日益 突出 。 由于项
目分, 传
图 1 项 目申请书向量模型设计流程
F i g . 1 De s i g n f l o w o f t h e VS M p r o j e c t a p p l i c a t i o n f o r ms 2 . 1 申报 书预 处 理 为便 于将项 目申报 书 内容 进行分 词 , 可以通 过正则 表达
HU We i we i ,S UN Xun,W ANG Ti ng t i ng
( P r o d u c t i v i t y C e n t r e o f J a n g s u P r o v i n c e ,Na n j i n g 2 1 0 0 4 2 ,J i a n g s u P r o v i n c e ,C h i n a )
r a t e d.
Ke y w o r d s :p r o j e c t d u p l i c a t i o n c h e c k i n g ;V e c t o r S p a c e Mo d e l ( VS M) :wo r d s e g me n t a t i o n
p r o j e c t s h a v e a t t r a c t e d mo r e a t t e n t i o n f r o m e n t e r p r i s e s a n d p u b l i c i n s t i t u t i o n s a n d t h e n u mb e r o f p r o j e c t a p p l i c a t i o n s i s i n — c r e a s i n g y e a r b y y e r. a T o a v o i d r e p e t i t i v e s u p p o  ̄o f s i mi l r a p r o j e c t s a n d p r e v e n t he t wa s t e o f s c i e n t i i f c r e s e a r c h f u n d s , p r o j e c t d u p l i c a t i o n c h e c k i n g h a s b e c o me p a r t i c u l rl a y i m p o t r a n t nd a n e c e s s a r y . A d e s i g n me t h o d o f V e c t o r S p a c e Mo — d e l ( VS M) 一 b a s e d p r o j e c t a p p l i c a t i o n f o r m d u p l i c a t i o n c h e c k i n g s y s t e m wa s p r e s e n t e d nd a d e s i g n p r o c e d u r e s we r e e l a b o -
弟 4 Z雹
弟 8期




V b 1 . 4 2 NO . 8 Au g . 2 01 5
2 0 1 5年 8月
TI ANJ I N S CI ENCE & TE CHN0L 0GY
应用 技术
基于 向量空 间模 型 的项 目申报书查重 系统设计
胡 伟伟 ,孙 逊 ,王婷 婷
Ab s t r a c t :Wi t h t h e g r o wt h o f i f n a n c i  ̄ e x p e n d i t u r e s o n s c i e n t i i f c r e s e a r c h f r o m n a t i o n a l a n d l o c a l g o v e n me r n t s ,s c i e n c e
关 键 词 :项 目查 重 向 量 空 间模 型 分 词
中 图分 类 号 :T P 3 l 1 . 1
文 献标 志码 :A
文章 编 号 :1 0 0 6 . 8 9 4 5 ( 2 0 1 5 ) 0 8 . 0 0 3 3 — 0 2
D e s i g n o f VS M— b a s e d Du p l i c a t i o n Ch e c k i n g S y s t e m f o r P r o j e c t Ap p l i c a t i o n F o r ms
0 引 言
字提取等步骤, 大致流程如图 I 所示。
视 位 程 更 度 加 的 积 提 极 霁 升 地 , 申 各 报 级 各 政 类 府 科 科 研 研 项 经 目 费 投 入 逐 年 增 加 , 各 企 黧 事 业 单 I 匿 昙 H 申 报 书 分 词 瞧 匾 H I H 零 简
相关文档
最新文档