用对偶加权法求权重谭雁君

合集下载

组合赋权法计算权重

组合赋权法计算权重全文共四篇示例，供读者参考第一篇示例：组合赋权法是一种用于计算权重的方法，它被广泛应用于投资组合管理、风险管理和决策分析等领域。

在实际应用中，通过对不同资产或因素的历史数据进行分析和比较，可以得出各个因素对整体组合的贡献度，进而确定各个因素的权重，从而构建一个有效的投资组合。

在组合赋权法中，最常用的方法是基于历史数据的统计分析来确定各个因素的权重。

这种方法的优点在于可以客观地分析不同因素对整体组合的贡献度，避免主观因素的影响。

通过合理选择历史数据和样本周期，可以使得模型更加稳健和可靠。

在计算权重时，通常会先对各个因素的历史数据进行标准化处理，以消除不同数据之间的单位差异和量纲差异。

然后，利用统计分析方法如协方差矩阵、协方差矩阵的特征值和特征向量等，来计算各个因素的风险贡献度和相关性。

根据各个因素的风险贡献度和相关性，可以得出各个因素的权重，从而构建一个有效的投资组合。

除了基于历史数据的统计分析外，还可以采用专家调查、专家打分、层次分析法等方法来确定权重。

但这些方法存在较强的主观性和人为干扰，在实际应用中需要谨慎使用。

组合赋权法是一种有效的计算权重的方法，可以帮助投资者更加科学地构建投资组合，降低风险，提高收益。

在使用过程中，需要注意选择合适的历史数据和统计方法，以确保模型的有效性和可靠性。

也需要不断的更新和优化模型，以适应市场变化和环境变化，从而实现长期稳健的投资收益。

第二篇示例：组合赋权法是一种计算权重的方法，主要用于确定不同因素在一个组合中的相对重要性。

它通常用于投资组合的构建和风险管理，以确保投资组合的收益最大化或者风险最小化。

在实际应用中，组合赋权法可以根据不同的情况和需求，确定不同因素的权重，从而构建一个符合投资人需求的投资组合。

组合赋权法的计算过程包括确定因素、设定权重和计算权重三个步骤。

确定因素是指在投资组合中影响收益或者风险的因素，比如不同的资产类别（股票、债券、房地产等）、不同的行业（科技、金融、制造等）或者不同的地区（国内、国外）等。

确定权重系数的方法

确定权重系数的方法
确定权重系数的方法包括主观和客观两种。

主观方法是基于专家意见或个人经验来确定权重，通常使用问卷调查、专家访谈等方式。

客观方法则是基于数据分析和统计学方法来确定权重，包括层次分析法、熵权法、灰色关联度分析法等。

其中，层次分析法是一种常用的客观方法，它通过构建层次结构，将复杂的问题分解成若干个层次，再通过对比不同层级之间的相对重要性来确定权重系数。

熵权法则是一种基于信息熵原理的方法，它通过计算不同因素的信息熵，来确定不同因素对变量的影响程度。

灰色关联度分析法则是一种基于灰色系统理论的方法，它通过计算不同因素之间的灰色关联度来确定权重系数。

总之，确定权重系数的方法是一种重要的分析工具，可以帮助分析师们更准确地评估各项因素对于变量的影响，从而为决策提供更有力的支持。

- 1 -。

加权系数计算公式举例说明

加权系数计算公式举例说明在统计学和数学中，加权系数是一种用来衡量不同变量对总体影响的方法。

通过给不同变量赋予不同的权重，可以更准确地反映它们在总体中的贡献程度。

在本文中，我们将介绍加权系数的计算公式，并通过举例说明其应用。

加权系数的计算公式通常可以表示为：加权系数 = Σ（变量值权重） / Σ权重。

其中，Σ表示求和，变量值是指每个变量的取值，权重则是给定的权重值。

通过这个公式，我们可以计算出每个变量的加权系数，从而了解它们在总体中的重要程度。

举例来说，假设我们要评估一家公司的员工绩效，我们可以将销售额、客户满意度和工作效率作为评估指标。

而销售额的权重为0.4，客户满意度的权重为0.3，工作效率的权重为0.3。

那么，我们可以通过下面的公式来计算加权系数：加权系数（销售额）= Σ（销售额 0.4） / Σ0.4。

加权系数（客户满意度）= Σ（客户满意度 0.3） / Σ0.3。

加权系数（工作效率）= Σ（工作效率 0.3） / Σ0.3。

通过这些计算，我们可以得到每个指标的加权系数，从而了解它们在员工绩效评估中的重要程度。

比如，如果销售额的加权系数远高于其他指标，那么可以说明销售额在员工绩效中起着至关重要的作用。

另外，加权系数的计算还可以应用在投资组合的分析中。

假设我们有三种投资标的，分别是股票、债券和黄金，它们的年化收益率分别为10%、5%和3%，而我们对它们的风险分别赋予了权重0.5、0.3和0.2。

那么，我们可以通过下面的公式来计算加权系数：加权系数（股票）= 10% 0.5。

加权系数（债券）= 5% 0.3。

加权系数（黄金）= 3% 0.2。

通过这些计算，我们可以得到每种投资标的的加权系数，从而了解它们在整个投资组合中的贡献程度。

比如，如果股票的加权系数远高于其他标的，那么可以说明股票在整个投资组合中起着至关重要的作用。

除了上面的例子之外，加权系数的计算还可以应用在很多其他领域。

比如，在学校的绩效评估中，可以根据学生的考试成绩和平时表现来计算加权系数，从而更全面地评价他们的学业水平。

文本聚类中权重计算的对偶性策略

V ol.13, No.11 ©2002 Journal of Software 软件学报 1000-9825/2002/13(11)2083-07 文本聚类中权重计算的对偶性策略卜东波, 白硕, 李国杰(中国科学院计算技术研究所,北京 100080)E-mail: bdb@ 摘要: 在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果.关键词: 文本聚类;向量空间模型;特征抽取;对偶性;隐含概念空间中图法分类号: TP181 文献标识码: A文本聚类/分类的目标是将语义相近的文本聚成一堆,最理想的境界自然是能准确地揣测和摹拟人们所理解的语义,把人们认为语义相近的文本聚成一堆.要想进行文本聚类/分类,首要问题就是要对文本进行形式化表示.这种形式化表示应该尽可能多地反映文本所蕴涵的语义信息,同时应该是便于计算的,也就是说,从文本的形式化表示能比较容易地计算出文本所蕴涵的语义信息来.一个中文文本表现为一个由汉字和标点符号组成的字符串,由字构成词,由词构成短语,进而形成句、段、节、章、篇等结构.但是,直接使用整个字符串作为聚类/分类的原始输入是很不方便的,有必要寻找一种更精练的形式化表示方法.从文本所蕴涵的信息的角度来看,一个中文文本可以由字、词、短语等语义特征项的频率及其相互之间的顺序来完整表达.如果要表示文本中特征项之间的顺序信息,就必然要使用有向的指针结构,整个文本就变成了一个复杂的图结构,比如树或者网.然而信息检索和文本聚类/分类处理要求定义一种距离函数,以表示文本之间的相似程度.如果使用复杂的图结构表示文本,则很难定义一种合理的距离函数,因为存在这样的问题:怎样的两棵树才能说是很相似?又是什么样的两个网才能说是距离比较小呢?与使用复杂的网或树结构表示文本相反,向量模型仅仅使用文本中特征项的频率信息,使用一个向量来表示文本.在向量模型中不会遇到上述困难,因为数学中有很多种定义距离的方式可资使用,比如欧式距离、相关系数等.自然,仅仅采用这种频率信息是不能精确反映人们所理解的语义的,不可否认会存在一些特例,其语义是仅仅使用频率所无法精确描述的,然而这种方案却能够很方便地计算和操作,对于信息检索和聚类/分类等应用场合来说,其表达效果还是可以接受的.G. Salton 提出的VSM(vector space model)就是使用向量来表示文本的一种模型,并成功应用到SMART 系统中,是应用最广泛的模型[1,2].向量空间模型实际上是走统计的路线,研究从大规模语料库中发现出来的统计规律,利用文本在一些特征项集合上的分布来近似表达语义.因此,向量空间模型表达效果的优劣直接依赖于特收稿日期: 2001-04-13; 修改日期: 2001-07-13基金项目: 国家自然科学基金资助项目(69773008)作者简介: 卜东波(1973－),男,山东微山人,博士,助理研究员,主要研究领域为算法设计与分析,信息检索,生物信息学;白硕(1956－),男,辽宁沈阳人,研究员,博士生导师,主要研究领域为算法设计与分析,计算语言学,信息检索,人工智能;李国杰(1943－),男,湖南邵阳人,研究员,博士生导师,主要研究领域为并行处理,计算机体系结构,人工智能,组合优化,人工神经网,遗传算法.2084Journal of Software 软件学报 2002,13(11)征项的选择与抽取以及特征项权重的计算. 在聚类操作和特征项的权重的关系中,存在一个基本循环:要想得到好的聚类结果必须首先合理设置权重,而按照Ward 的观点,合理的特征抽取和权重设置应当使得样本类内方差尽量小,同时类间方差尽量大,这样就要求必须首先知道聚类的结果.也就是说,聚类和特征抽取及权重设置互为因果,两者构成一个循环[3].本文使用迭代的策略来打破这种循环,并且这种迭代操作是收敛的,特征项的权重最终稳定于一个矩阵的特征向量上.为每个特征项赋予迭代计算出的权重,实际上就得到了文本的隐含概念.和直接采用特征项仅仅反映了文本的表层信息相比,这种隐含概念能够更深刻地反映出文本的深层结构.实验结果表明,和直接在特征项空间中表示文本相比,在概念空间中表示文本能够更好地表达文本的语义信息.1 权重计算中的对偶性策略文献[3,4]认为,在整个聚类操作中,存在一个基本循环(basic cycle),即要想聚类必须首先进行特征抽取和设置权重,聚类结果的好坏直接依赖于特征抽取和权重设置的合理与否;而合理的特征抽取和权重设置应当使得样本类内方差尽量小,同时类间方差尽量大,这样就要求必须首先知道聚类的结果.也就是说,聚类和特征抽取及权重设置互为因果,两者构成一个循环.这种循环反映在文本聚类中,就是文本聚类和词聚类之间的循环关系——要想把文本聚类做得好,就要首先知道构成文本的词之间的聚类关系,哪些词语义比较相近,哪些词经常共同出现等;而要想把词聚类做好,又必须首先知道包含这些词的那些文本之间的聚类关系,一些文本涉及同一个话题,抱成一团,那么文本所使用的词也被认为比较相近.上述的循环关系提示我们在文本和词之间可能存在某种对偶性,这种对偶性在以下的权重计算中表现得更为明显:假设共有m 篇文本,使用n 个词.我们为每个文本和每个词都定义一个权值.文本f i 的权值Wf i 表示该文本对整个文本集语义的反映程度和概括程度,权值越大的文本越重要,概括程度越强.词t j 的权重Wt j 表示该词对于整个文本集语义的反映程度,权值越大的词就越重要,其反映整个文本集主题的能力也就越强.文本和词的重要性之间存在着这样的一种对偶关系:• 一个重要的文本就是包含许多重要词的文本;• 一个重要的词就是经常出现在重要文本中的词.这种对偶关系实际上是对重要性的一个循环定义,无法各自独立地定义文本和词的重要性.如何由这种循环定义来定量地计算出文本和词的重要性呢?文献[6]对超文本进行链接分析的技巧给我们以很大的启发:对付这种循环,迭代方法是一件利器.开始时赋予Wf ,Wt ,随机值,这里我们使用Wf 表示文本权重向量的单位向量,Wt 表示词权重向量的单位向量,即),...,,(21′=m Wf Wf Wf Wf ,),...,,(21′=n Wt Wt Wt Wt .然后,进行如下的两步迭代过程:① 使用当前对词权重的估计值Wt 来改进对文本权重的估计值Wf ,找出当前比较重要的词,包含这些词的文本就是比较重要的文本,因此相应地增加这些文本的权重.具体来说,每个文本更新后的权重Wf i 等于它包含的所有词的词频和词权重乘积的总和,也就是词权重向量Wt 和词频矩阵第i 行向量的内积.直观地看,包含重要词较多的文本将获得较高的得分.② 使用当前对文本权重的估计值Wf 来改进对词权重的估计值Wt ,找出当前比较重要的文本,经常在这些文本中出现的词就是比较重要的词,因此相应地增加这些词的权重.具体地说,每个词更新后的权重Wt j等于所有含有这个词的文本的权重与词频乘积的总和,也就是文本权重向量和词频矩阵第j 列向量的内积.直观地看,在那些重要文本中经常出现的词将获得较高的得分.反复进行以上的两步迭代过程,文本权重向量Wf 和词权重向量Wt 将稳定在一个不动点上,这个不动点仅仅和m 行n 列的词频矩阵A m ×n 相关.卜东波等:文本聚类中权重计算的对偶性策略2085 上述对权重向量的求解过程可以使用算法语言描述如下:算法1. 求解权重向量的迭代算法.使用随机值初始化Wf , Wt ;Repeat/* 执行迭代过程 */ for=1 to do i n∑==m i i ij j Wf A Wt 1* for j = 1 to m do∑==nj j ij i Wt A Wf 1* 求出Wf 和Wt 的单位向量,并以其代替Wf 和Wt .Until 向量Wf 和Wt 稳定.我们使用Wf (0)和Wt (0)分别表示向量Wf 和Wt 的初始值,使用Wf (k )和Wt (k )分别表示经过k 次迭代之后得到的改进值,Wf *和Wt *表示最终的稳定值,图1形象地描述了迭代求解的过程.*... ... ... ... )()2()1()0(Wf Wf Wf Wf Wf k *... ... ... ... )()2()1()0(Wt Wt Wt Wt Wt k Fig.1 The iteration process of the vector图1 向量迭代过程使用线性代数可以更清楚地分析迭代过程,每次迭代操作实际上是在做向量和矩阵的乘法运算,即.,)()1()1()()1(+×+×+×=×=k n m k k T n m k Wt A Wf Wf A Wt对于任意给定的初始值,这种迭代过程都是收敛的,并且最后的稳定值恰好分别是矩阵T A A ∗和A A T ∗的某个特征向量.对于权重向量的方向,即单位权重向量求解方面,文献[6]中证明了如下定理和推论:定理1. 矩阵T A A ∗和矩阵A A T ∗有相同的非零特征值.这个看起来不起眼的定理的作用却很重要.在很多应用场合下,我们需要求出T A A ∗的特征值或者特征向量,但是有时方阵T A A ∗的维数特别高,而求特征向量过程的时间复杂度是O 的,非常耗时.如果方阵)(3n A A T ∗的维数较低的话,一个变通的方法就是先求出A A T ∗的特征值或特征向量,然后再依据此定理求出T A A ∗的特征值或特征向量.这样不仅能够节省大量的时间,更重要的是可以避免大规模运算带来的误差累积,使得结果更加准确.定理2. 对于任意给定的初始向量Wf 和Wt ,迭代过程都是收敛的.Wf 将稳定于矩阵)0()0(T A A ∗的某个特征向量上,Wt 将稳定在A A T ∗的某个特征向量上.熟悉线性代数的人马上就可以看出,上述过程就是幂法求矩阵特征值和特征向量的过程.推论1. 和Wt 的稳定值Wf 和Wt 满足下面的关系式:Wf **.***,***Wt A Wt A Wf Wf A Wf A Wt T T ××=××=2086 Journal of Software 软件学报 2002,13(11)上述推论实际上说明了这样一种关系:文本集合在词向量空间中表现成一群点,每个文件在这个空间中的坐标构成矩阵A 的一个行向量,而表示词向量空间中的一个方向,Wf 表示的则是这些文件在这个方向上的投影.*Wt **Wf 是文本权重向量,它的各个分量表示相应的文本对整个文本集合语义的概括程度,权重越大的文本越重要,然而,这种重要性只是从某个侧面看的结果,因为Wf 是这些文件在Wt 方向上的投影,它仅仅反映了从方向上对各个文件重要性的衡量.Dumais 提出的LSI(latent semantic index)***Wt [6,7]技术中将这种方向称为“隐含的概念”,这种概念不是仅由某一个词就能完整表达的,而是由一类词共同拥有的语义或者经常共同出现来表达的.因此,只是反映了文本集合中的某一个“隐含的概念”,或者说某一个主题,Wf 则表示了各个文本对这个主题的贡献的大小,从这个主题来看各个文本的重要与不重要.*Wt *在Clever 系统中使用这种技巧来进行超文本的链接分析.但是和我们在这里的应用不同的是,在Clever 系统中为每个页面赋予两个权重,分别表示页面内容的权威程度和引用程度,它处理的矩阵仅仅是m 个节点之间的关联矩阵,是一个m 阶方阵;而且,矩阵的每一个元素都是0/1二值,以表示两个节点之间是否有链接关系[6]. 2 概念空间以及特征选择很少会出现仅仅有一个主题的文本集,通常的文本集都会有多个主题或曰“隐含的概念”.比如,随着Wt 选取不同的初始值,会得到不同的稳定值*Wt r ξξξ,...,,.21.1ξ反映了文本集合中的一个概念,2ξ则反映了1ξ所不能表达的另一个概念,而3ξ则反映了1ξ和2ξ都不能表达的某个概念…每个i ξ都反映了文本集各不相同的主题.任意两个稳定值i ξ和j ξ都是两两正交的,直观地说,某个i ξ对文本集合主题的反映作用是不能被其他的j ξ所完全代替的.针对某个特定的主题i ξ,可以定义各个文件对这个主题的反映程度,也就是文本的重要程度.对于一个文本,我们使用其在i ξ方向上的投影来定量地刻画该文本对主题i ξ的反映程度,投影为正数的文件可以看作是对这个主题的赞同,投影为负数的文本可以视为对这个主题的否定,而投影的绝对值大的那些文本对反映这个主题的作用也比较大,绝对值小的文本的反映力也较小.所有文本的权重合起来恰好就是与i ξ对应的向量i η.各个“隐含概念”i ξ有着不同的重要性,即概念之间也有主次之分.这种重要性可以使用所有文本在概念方向i ξ上投影的方差来定量刻画,方差越大则该概念越重要,反之,方差越小则该概念越不重要.从信息的角度来看,方差的大小表达了概念i ξ蕴涵的信息量的多少.它表示投影的散布情况,散布越大,蕴涵的信息量就越大;散布越小,蕴涵的信息量就越小.设隐含概念i ξ对应的特征值为i λ,即,且i i i T A A ξλξ∗=∗∗)(i ξ为单位向量.对于所有文本在隐含概念方向上的投影向量,即i A ξ∗的模长和方差方面,我们证明了如下定理成立:定理3. i i A λξ=∗.证明:()()()(),2i iT i i ii T i iT T i iT T i iTi i A A A A A A A λξξλξλξξξξξξξξ=∗∗=∗∗=∗∗∗=∗∗∗=∗∗∗=∗ 故有i i A λξ=∗成立.推论2. ).()(i i i D A D ηλξ∗=∗卜东波等:文本聚类中权重计算的对偶性策略 2087如果我们以各个“隐含概念”i ξ为坐标轴,一个文本的坐标是其在概念方向上的投影,定义一个新的坐标系来表示所有文本,这个新的空间可以称为概念空间.图2表示了一个概念空间,我们对于包含15个文本的文本集,求出各个隐含概念向量,并在隐含概念空间中重新表示各个文本,为了绘图方便起见,我们只使用两个特征向量,只描绘了二维概念空间.Fig.2 The map of text in the concept space图2 文本在概念空间中的投影在从词空间转化到概念空间的过程中,我们可以忽略一些不重要的概念.那些重要性特别低的概念不是整个文本集合意图的重点,蕴涵的信息量比较小,忽略掉并不会影响大局,因此可以作为噪声过滤掉.这里概念的重要性度量采用文本集合在该概念方向上投影的方差来表示.我们首先求出A *A T 的所有特征值i λ以及相应的特征向量(设共有i ηr 个特征向量),然后按照)(i i ηD ∗λ由大到小排列.可以只选择前k 个重要的方向,使用如下准则进行k 的选取:求最小的k 满足.)()(11t ηD ηD i r i i i k i i ≥∗∗∑∑==λλ其中t 是一个预先设定的阈值,表示信息损失的多少,一般取90.0~80.0=t .也就是说,忽略掉一些重要性特别低的概念会造成信息的损失,如果损失不超过0.10~0.20这个限度,我们则认为是可以接受的.使用概念空间代替原始词空间有如下几个好处:(1) 概念空间的各维是正交的,这和直观上是一致的,而各个词之间大量地存在着线性相关关系,词空间不是一个正交空间.另外,由于概念空间是一个正交空间,因此可以使用欧式距离来定义各个样本之间的远近关系.(2) 使用深层的概念而不是仅仅使用表象的词,能够更深入地描述文本之间的关系,有利于挖掘文本集的深层结构.(3) 能够过滤噪声.在概念空间的某些维上,所有文本的表现大致相同,差别很小以至于可以作为噪声被忽略掉.(4) 可以降维.原始的词频矩阵是一个m 行n 列的矩阵,而我们只选取了前k 个主要概念构成概念空间,变换后的矩阵是m 行k 列的.在我们的实验中,取信息损失上限为0.15,常常能够将数千维的原始词空间降低到数十维,从而使后续处理步骤大为简化.3 概念空间在文本聚类中的应用如上所述,文本聚类/分类的目标就是将语义相近的文本聚成一堆,最理想的境界自然是能准确揣测和摹拟2088 Journal of Software软件学报2002,13(11)人们所理解的语义,把先验知识规定的同类文本聚成一堆.先验知识把文本分成几类,对这个文本集合聚类的结果就应当是几类.然而在实际计算中很少达到这么精确的结果,常常出现的情形是把先验知识规定的类拆分成一些子类,这些子类都是聚类操作得到的相互之间最相似的一团文本.因此,子类数目的多少就能表示聚类结果与先验知识的协调程度.特征项选择得越好,对先验知识摹拟得越准确,子类数越少;反之,就会把先验知识规定的类拆分得很碎,子类数目就越多.我们对5个样本集合进行实验.对于每一个测试文本集,首先求出原始词频矩阵,使用上述迭代过程获取各项的权重,然后忽略掉那些不重要的概念,求出文本集在概念空间中的表示,最后在概念空间中进行聚类操作,得到的结果见表1.Table 1Results of clustering in the concept space表1在概念空间中的聚类结果Term space④ Conceptspace⑤Test set①Number of documents②Number of categories③Number ofdimensions⑥Number ofcategories⑦Number ofdimensionsNumber ofcategoriesTest 1 19 4 1 231 5 7 5Test 2 40 4 3 094 4 4 4Test 3 66 4 2 703 7 5 4Test 4 214 12 3 728 29 42 18Test5 403 5 2890394133①测试集,②文档数目,③先验知识规定的类数,④原始项空间,⑤概念空间,⑥维数,⑦子类数目.从表1中可以看出,采用迭代操作得到的概念不仅能够大幅度地降低维数,而且能够减小选取特征和先验知识之间的不协调性,更好地表示和摹拟人们所理解的语义,换句话说,在求得的概念空间中进行聚类,聚类结果更贴近先验知识,即求得的概念能够更好地表示先验知识.4 结束语无论是对于文本聚类/分类,还是针对文本的信息检索,特征项的选取都是一个基础性的工作.特征选取的优劣将直接决定最终结果的好坏.从实验结果中可以看出,相对于原始的词空间而言,使用迭代加权过程挖掘出的文本集蕴涵的概念,能够更加有效地反映出文本集的主题,进而有助于文本的聚类/分类和文摘.References:[1] Salton, G. Automatic Text Processing. Addison-Wesley Publishing Company, 1988.[2] Huang, Xuan-jing. Research on retrieval, classification and summarization for large scale text [Ph.D. Thesis]. Shanghai: FudanUniversity, 1998 (in Chinese).[3] Fang, Kai-tai, Pan, En-pei. Clustering Analysis. Beijing: Geography Press, 1982 (in Chinese).[4] Hartigan, J.A. Clustering Algorithms, Yale University, John Wiley&Sons, New York, London, 1975.[5] Kleinberg, J. Authoritative sources in a hyperlinked environment, In: Proceedings of the ACM-SIAM Symposium on DiscreteAlgorithms. 1998. /home/kleinber/.[6] Dumais, S.T. LSI meets TREC: a status report. In: Harman, D., ed. Proceedings of the 1st Text Retrieval Conference (TREC1).National Institute of Standards and Technology, 1993. 137~152.[7] Dumais, S.T. Latent semantic indexing (LSI) and TREC-2. In: Harman, D., ed. Proceedings of the 2nd Text Retrieval Conference(TREC2). National Institute of Standards and Technology, 1994. 105~116.附中文参考文献:[2] 黄萱菁.大规模中文文本的检索、分类与摘要研究[博士学位论文].上海:复旦大学,1998.[3] 方开泰,潘恩沛.聚类分析.北京:地质出版社,1982.卜东波等:文本聚类中权重计算的对偶性策略2089 The Duplex Strategy of Term Weighting in Text ClusteringBU Dong-bo, BAI Shuo, LI Guo-jie(Institute of Computing Technology, The Chinese Academy of Sciences, Beijing 100080, China)E-mail: bdb@Abstract: An important step in text mining is to find a reasonable representation of the text. In the popular VSM (vector space module), where a text is represented as a vector, the coral problem is to term extraction, selection and weighting. An iteration method is proposed to deal with the duplex phenomena found in term weighting and compute out the latent concept. Experimental results show that the latent concept could help to get better clustering results.Key words: text clustering; vector space module; term extraction; duplex; latent conceptReceived April 13, 2001; accepted July 13, 2001Supported by the National Natural Science Foundation of China under Grant No.69773008全国搜索引擎和网上信息挖掘学术研讨会征文通知随着网络在全社会的普及和应用的不断发展，有关搜索引擎技术和Web信息挖掘的研究已成为Internet 领域的一个新的研究热点。

加权平衡方法

加权平衡方法介绍加权平衡方法是一种用于决策分析和问题求解的数学方法，通过赋予不同因素或变量不同的权重，将它们综合考虑，从而做出合理决策或解决问题的过程。

它是一种常用于多因素决策和综合评价的方法，能够对不同因素的重要性进行量化，并将其作为决策或问题求解的依据，有助于提高决策的科学性和准确性。

应用领域加权平衡方法在各个领域都有广泛的应用。

下面将分别介绍其在工程管理、市场营销和医学研究等领域的应用。

工程管理在工程项目中，往往需要考虑多个因素，如成本、时间、质量、风险等。

加权平衡方法可以通过对这些因素进行权重赋值，得出最终的决策方案。

例如，工程项目管理人员可以根据项目特点和需求，给予时间因素较高的权重，以确保项目按时完成；给予质量因素适当的权重，以保证项目质量符合要求。

市场营销在市场营销中，加权平衡方法可以用于评估产品或服务的市场竞争力。

市场营销人员可以将不同因素，如产品质量、品牌知名度、价格等，进行加权平衡，从而确定如何调整市场策略和产品定位。

例如，如果产品质量是消费者购买的主要考虑因素，就应该给予产品质量较高的权重，以提升产品竞争力。

医学研究在医学研究中，加权平衡方法可以用于评估治疗方法的效果。

医学研究人员可以将生存率、疾病缓解率、副作用等因素进行加权平衡，从而确定最佳的治疗方案。

例如，针对某种疾病，如果生存率和疾病缓解率被认为是最重要的指标，就应该给予这两个指标较高的权重，以评估治疗方法的效果。

加权平衡方法的步骤使用加权平衡方法进行决策或问题求解通常需要以下几个步骤：1. 确定决策目标或问题首先，需要明确决策的目标或所面临的问题。

只有明确了目标或问题，才能有针对性地考虑相关因素和权重。

2. 选择评价指标根据决策目标或问题的特点，选择适当的评价指标。

评价指标应能够全面反映决策的多个方面，涵盖关键性的因素。

3. 确定权重对于每个评价指标，需要确定其相对重要性，即给予其权重。

权重可以通过专家咨询、问卷调查等方式获得，也可以通过层次分析法等数学方法进行计算。

对偶加权法

对偶加权法
对偶加权法是一种解决线性规划问题的数学方法，主要用于优化求解。

该方法于20世纪50年代由苏联数学家Dantzig提出，并被广泛应用于各个领域。

在应用对偶加权法进行线性规划求解时，需要根据业务需求确定优化目标和约束条件。

一般来说，优化目标是最大化或最小化某个指标，而约束条件则是满足某些约束条件的限制。

对偶加权法的基本思想是将原问题转化为对偶问题，并通过求解对偶问题来得到原问题的最优解。

在求解对偶问题时，需要使用权重来优化求解。

这些权重可以根据实际情况来确定，常用的方法是根据实际数据或者模型进行计算。

对偶加权法在实际应用中具有一些独特的优点。

首先，它可以很好地处理复杂问题，并在一定程度上提高了问题的求解效率。

其次，它可以更好地反映实际业务需求，从而得到更为准确的优化方案。

此外，对偶加权法还可以进行多次迭代，从而在不断优化的过程中逐步得到更为优化的方案。

然而，在应用对偶加权法时，我们也应该注意一些问题。

首先，对偶加权法对初始条件非常敏感，因此在实际应用中需要进行适当的预处理。

其次，对偶加权法需要较高的计算能力，因此在大规模问题的求解中需要采用高效的计算方法。

综上所述，对偶加权法作为一种重要的优化方法，具有广泛的应用前景。

但在实际应用中，我们应该仔细分析问题的性质和特点，从而选择合适的方法进行求解，并结合实践经验进行适当的优化。

权重分析系统

(X0(k)——
指标 K 的权重)
对 n 个专家给出的区间经处理后（根据
三种准则），可得到原始的评价结果（共 n
个序列）为：
X1 (1)，X1(2)，…,X1 (m) X2 (1), X2 (2) , …,X2(m)
…… …
Xn(1) ,Xn(2) , …,Xn(m)
其中 Xi(k)——第 i 个专家对指标 K 的原始评价结果。
验法往往不符合实际，层次分析法又易产生提供了一个合适的工具；同时我们有把加权
循环从而不满足传递性公理。为此我们根据统计的思想引入到了集值统计中。
集值统计和模糊区间分析，并考虑到专家权
集值统计是一种新的统计思想，它是经
重中的“权威质量”，“熟悉度”，“谨慎度” 典统计和模糊统计的一种拓广，在普通的概
采用平均准则，各指标权重如下：
e1=0.20, e2=0.125, e3=0.08,e4=0.075, e5=0.12,e6=0.05, e7=0.065 ,e8=0.15, e9=0.095,e10=0.05.
归一化后各指标权重为（F1~F10）： e1’ =0.20,e2’ =0.12,e3’ =0.08,.e4’ =0.07 e5’ =0.12, e6’=0.05,e7’=0.06, e8’ =0.15, e9’ =0.09,e10’=0.05.
μ
1
u e
图3
μ
1
2.当 m 个指标无法定量计算，各专家只能给出一个区间，若这些区间比较集中，说明个专家对所评价的指标把握比较大，评价结果可用图 4 表示，其图像相比较“尖瘦”。
3．当评价区间很不集中时，则说明评价专家对指标的把握程度较小，评价结果可用图 5 表示，其图像比较扁平。

计算实对称矩阵特征值特征向量的幂法________

标对应的权重。

按照熵值法的相关步骤[18],可得“营运能力”评价指标下各项二级指标权重向量为W 1=[0.1295　0.2001　0.0766　0.5938]T 。

综上所述,“营运能力”评价指标的评价结果矩阵为R 1=W T 1F 1=[0.4677　0.4975　0.8762]重复上述步骤,我们可计算得出“盈利能力”、“创新能力”、“国际化能力”和“应变能力”等评价指标的评价结果矩阵为:表1　电子信息企业财务竞争力评价指标体系一级指标二级指标评价内容电子信息企业财务竞争力评价指标体系营运能力集资能力筹集资本的速度和规模投资能力项目投资的成功率和风险承受能力收益分配能力股利支付政策和限制,公积金的数量资本营运能力存货、固定资产和总资产的周转率等能力盈利能力销售净利率年均净销售收入成本费用率固定成本和可变成本的消耗比率资产净利率年均净利润和资产平均总额的比率盈余现金保障倍数年均经营现金净流量同净利润的比值创新能力决策能力决策者各方面的素质和能力研发能力技术改造和研发人员投入比率成果转化能力专利产品、新产品的销售比率控制、分析能力控制和分析方法的完善性和可行性计划能力制定计划的可行性和完善性国际化能力出口能力出口产品销售情况海外经营能力海外生意的收入情况应变能力学习能力后续新出现状况的学习能力信息处理能力处理信息的手段、时间、程序和共享能力协调能力沟通交流的能力风险管理能力财务风险的控制、预警能力 R 2=W T 2F 2=0.16890.37090.30110.1591 T 10.3750.42860.478310.33330.33330.333310.647110.5=(0.5496　0.6937　0.5767)R 3=W T 3F 3=0.34920.17300.10490.29670.0761 T 0.33330.333310.333310.38460.333310.62510.39130.33330.6250.42861=(0.5533　0.5430　0.6564)R 4=W T 4F 4=0.2430.757 T 110.33330.33330.33331=(0.4953　0.4953　0.838)R 5=W T 5F 5=0.32060.42370.06120.1945T0.391310.40.333310.7510.333310.473710.4615=(0.42　0.9592　0.597)表2　电子信息企业财务竞争力算例研究数据一级指标二级指标A 1企业A 2企业A 3企业营运能力集资能力0.640.580.66投资能力0.520.610.59收益分配能力0.720.680.65资本营运能力0.450.530.60盈利能力销售净利率0.800.750.72成本费用率0.760.820.70资产净利率0.720.770.83盈余现金保障倍数0.580.610.55创新能力决策能力0.560.520.61研发能力0.710.760.68成果转化能力0.550.600.57控制、分析能力0.750.680.65计划能力0.810.790.85国际化能力出口能力0.530.590.56海外经营能力0.630.590.71应变能力学习能力0.740.810.71信息处理能力0.540.630.60协调能力0.720.680.71风险管理能力0.670.720.652.1　计算电子信息企业财务竞争力一级评价指标评判矩阵R 和其对应的权重向量W综上可得评价矩阵为:R =(R 1,R 2,R 3,R 4,R 5)T =0.46770.49750.87620.54960.69370.57670.55330.5430.65640.49530.49530.8380.420.95920.597最优指标集为R max =(0.8762,0.6937,0.6564,0.838,0.9592)T R 转化为评判矩阵F =0.54960.333310.900910.607510.625410.60870.355910.460810.3333利用Mathematical 软件计算可得一级指标权重向量为·993·第4期谭菊华等:基于灰熵绝对关联分析的电子信息企业财务竞争力综合评价W=(0.3046　0.0365　0.0264　0.2339 0.3986)T对目标层电子信息企业财务竞争力进行综合评价可得:N=W T F=(0.5527　0.636　4　0.7199)很明显,在A1、A2和A3三家电子信息企业中,A3的财务竞争力最强。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

指标
指标
财务知识
(A)
税收知识
(B)
计算机知识
(C)
金融知识
(D)
公司知识
(E)
财务知识(A)
4
2
3
2
税收知识(B)
3
2
2
1
计算机知识(C)
2
2
2
0
金融知识(D)
3
2
1
1
公司知识(E)
2
3
2
3
总分
10
11
7
10
4
二级指标——能力要求
指标
指标
计划能力
(A)
理解能力
(B)
决策能力
(C)
沟通能力
(D)
创新能力
(E)
计划能力(A)
3
4
3
2
理解能力(B)
4
2
3
1
决策能力(C)
3
3
3
2
沟通能力(D)
2
4
3
1
创新能力(E)
1
3
2
3
总分
10
13
11
12
6
二级指标——职业素养
指标
指标
团队精神(A)
服务意识Байду номын сангаасB)
责任感(C)
进取心(D)
团队精神(A)
3
4
2
服务意识(B)
2
3
2
责任感(C)
3
3
4
进取心(D)
2
2
3
总分
7
8
10
8
三级指标——公司知识
指标
指标
公司文化（A）
组织结构(B)
规章制度(C)
公司文化（A）
3
4
组织结构(B)
2
2
规章制度(C)
3
3
总分
5
6
6
三级指标——团队精神
指标
指标
合作意识（A）
忠诚度(B)
合作意识（A）
3
忠诚度(B)
4
总分
4
3
三级指标——责任感
指标
指标
廉洁自律（A）
严谨求实(B)
廉洁自律（A）
对偶加权法求——谭雁君
填表注意事项：
如果A比B重要得多，则A记为4分，B记为0分；
如果A比B略重要些，则A记为3分，B记为1分；
如果A与B同等重要，则A与B各记为2分。
一级指标
指标
指标
知识要求（A）
能力要求(B)
职业素养(C)
知识要求（A）
3
2
能力要求(B)
3
2
职业素养(C)
3
2
总分
6
5
4
二级指标——知识要求
4
严谨求实(B)
3
总分
3
4