向量空间模型中特征加权的研究

合集下载

基于特征加权的模糊聚类算法研究

基于特征加权的模糊聚类算法研究
维普资讯
第 1卷 第 2 5 期
V 1 1 o 2 o .5 N .
北京电子科技学院学报
Ju n lo e jn lc r n cS in e a d Tc n lg n t tt o r a fB i ig E e to i c e c n e h o oy I si u e
传统的 F M算法中 ,聚类样本 的指标权重是人 为给定 C 的. 因此在聚类过程中必然会受到主观 因素的影 响。考虑到 各维数据特征对 聚类 的贡献不 同. 需要从中确定一个合 理的 权重计 算公式 .从而对数据 的各维特征进行加权及模糊 聚 类 . 引入基于特征加权的 F M算法。 于数据集中的某 因此 C 对
特征值 ,按 c个类别进行分类或识别 ,则模糊识别矩阵为
( ; ) 模糊聚类中心矩阵为 s ( ) ,t =s ~ S为类别 h i l 指标
i 的特征值 的规格化数 , s 1 0 。 在模糊 聚类与模糊识别 中考虑不同指标 的权重 , 设指标

表 明其分类效果优于传统 的 F M算法 。 C
A a u e W eg t d F z y Cls e i g Alo i m Fe t r ih e u z u trn g rt h
U 商l C Omn b;C O Y e L i J i I A -o A l l I . , Q
【 Xda i ri, i nS a x 1 0 1 C ia 2 N r e s ini iesy Ji i 3 0 2 1 iinUnv sl X’ h n i 0 7. hn ; . o t a t a lUn ri , i Ji 1 2 1 . . e y a 7 h D v t l l n n C ia hn )

大规模MIMO-NOMA下行系统可达吞吐量研究

大规模MIMO-NOMA下行系统可达吞吐量研究

大规模MIMO-NOMA下行系统可达吞吐量研究朱翠涛;鲁经纬【摘要】非正交多址系统的可达吞吐量与用户分簇策略、预编码方法、功率分配算法等有关.为了提高系统可达吞吐量,提出了一种改进的k-means用户分簇算法,该算法利用空间相关性对用户进行分簇,从而降低簇间干扰;然后利用块对角化预编码对发送给各簇的信息进行预处理,使得每簇的预编码向量与其它簇等效信道向量近似正交,进一步消除簇间干扰;同时构建最优功率分配优化问题,并利用Karush-Kuhn-Tucker(KKT)条件求得簇内每个用户的最佳功率分配系数,降低簇内用户间的干扰.实验结果表明:所提出的方法能有效提高系统的可达吞吐量.【期刊名称】《中南民族大学学报(自然科学版)》【年(卷),期】2019(038)001【总页数】7页(P81-87)【关键词】非正交多址;大规模MIMO;吞吐量;用户分簇;预编码【作者】朱翠涛;鲁经纬【作者单位】中南民族大学电子信息工程学院,武汉430074;中南民族大学电子信息工程学院,武汉430074【正文语种】中文【中图分类】TN911非正交多址接入(NOMA)技术相比于传统的正交多址接入(OMA)技术,能够显著提高系统的频谱效率,是第5代移动通信(5G)关键技术之一.然而,由于NOMA系统中多个用户可共享同一资源块,会产生更多的干扰因素而导致NOMA系统性能下降.为了提高NOMA系统的性能,人们做了大量研究工作.文献[1]证明了在用户随机分布的5G系统中,针对不同用户选取合适传输速率和功率分配因子,NOMA可以获得比传统正交多址更大的系统容量;文献[2]提出了一种基于相关性的用户聚簇算法,分析了迫零预编码和随机预编码在NOMA中的性能,并结合簇内功率分配算法提高了系统和速率;文献[3]和[4]分析并比较了NOMA系统中固定功率分配算法和分数阶发射功率分配算法性能:固定功率分配算法按照固定的比例来分配功率,计算复杂度较低,分数阶发射功率分配考虑了用户信道条件及用户的公平性具有较好的系统性能;文献[5]通过求解NOMA系统总吞吐量最大化问题,分别得出上行和下行的低复杂度用户分簇方案和簇内用户最优功率的闭式解,证明合理的用户分簇和功率分配方法能够提高系统吞吐量;文献[6]基于FDD的大规模MIMO-NOMA系统,先利用统计信道信息对用户分簇,再进行选择构成NOMA用户组,有效降低了簇间和簇内干扰;文献[7]提出一种新型的MIMO-NOMA系统模型,即簇间使用OMA方式,簇内采用NOMA方式,提出一种低复杂度用户分簇算法,然后利用每簇的等效信道增益提出一种新的迫零预编码以消除簇间干扰,并分两步进行功率分配;簇内各用户功率采用文献[5]下行最优功率的闭式解求得,提高了系统的频谱效率.大规模MIMO与NOMA相结合能进一步提高系统的容量,但随着基站发射天线数的增加,会加剧簇间干扰,从而影响系统的性能.为此,本文针对大规模MIMO -NOMA下行系统的可达吞吐量开展相应研究工作.首先,利用空间相关性提出一种改进的k-means用户分簇算法,将空间相关性较大的用户分为一簇,降低簇间干扰.然后,采用块对角化预编码使各簇之间信道近似正交,进一步消除簇间干扰,并形成了功率约束下的系统可达吞吐量的优化问题模型,通过求解得到最优的用户功率分配系数,提高接收端连续干扰消除(SIC)的可靠性,达到降低簇内用户间干扰的目的.1 系统与信号模型单基站多用户FDD下行系统中,设基站配置由N根天线组成的均匀线性阵列,服务K个单天线用户,N>K,将所有用户分为G簇,每簇中有L个用户分布在同一个单散射环内,且同簇用户的信道增益有较大差异,小区内采用基于功率域的非正交多址方式,系统模型如图1所示.图1 系统模型Fig.1 System model第g(g∈{1,…,G})簇中用户l(l∈{1,2,…,L})表示为ug,l,其信道向量Hg,l∈1×N 可分解为:(1)其中,Ag,l表示大尺度衰落矩阵,其主对角元素包含大尺度衰落系数为用户ug,l 到基站的距离,且用户到基站的距离各不相同:dg,1<dg,2<…<dg,L,γ为路径损耗指数,c为参考距离下的路径损耗.为小尺度衰落矩阵,其各元素间满足独立同分布,且服从均值为零,方差为1的复高斯分布.Rg,l为ug,l用户在基站侧的信道协方差矩阵.假设基站配置大规模均匀线性阵列,并采用单环散射模型,用户ug,l 的信道协方差矩阵Rg,l,可由下式计算得到[8]:(2)式(2)中,[Rg,l]a,b表示天线a,b间的相关性,g簇方位角为θg,角度扩展为Δg,Ω为相邻天线间的距离,λ是载波波长,φ表示波束的到达角.同一簇内用户属于同一散射环,由于散射环境相同,故信道协方差矩阵大致相同,统一表示成Rg,可分解为是Rg的非零特征值对应的特征向量矩阵,∑g是Rg非零特征值组成的对角矩阵.假设第g簇预编码向量为vg,基站发射总的信号为簇用户总的信号为:分别表示用户ug,l的功率分配系数和传输信号,αg,l∈[0,1],Pg为第g簇总功率,用户ug,l接收信号为:yg,l=Hg,lχ+zg,l=(3)式(3)中,zg,l为高斯噪声,均值为0,方差为由(3)式可知用户接收的信号中除有用信号外,还包括簇间干扰,簇内用户间干扰及高斯噪声.用户ug,l的信干噪比SINRg,l为:SINRg,l=(4)用Wg,l表示归一化的信道增益,且:(5)式(5)中,B表示每个发送波束的带宽,则(4)式可简化为:(6)用户ug,l可达吞吐量为:(7)则系统可达吞吐量表示为:(8)由(8)式可知,系统可达吞吐量主要与最优用户分簇方法、预编码以及功率分配方法有关,本文将分别从这三个方面进行研究.2 联合空间相关性的用户分簇根据(6)-(8)式可知在一定范围内系统的吞吐量随SINR的增大而增大,合理的用户分簇方法能有效降低簇间干扰,提高用户的SINR.本文提出了一种改进的k-means分簇算法,利用空间相关性对用户分簇.算法的改进包括初始簇中心的选取和迭代分簇两个部分.基本思想为:先采用最大距离法从K个用户中找出G个用户作为初始中心点,然后再采用加权似然准则进行迭代分簇,直到算法达到终止条件.根据用户的空间相关性来划分用户,度量用户之间信道特性相似程度的准则如下:准则1 欧氏距离,欧氏距离函数表达式如下[8]:(9)式(9)中,Ug,l是用户ug,l的特征矩阵,Vg为第g个用户簇中心点对应的特征矩阵,D(Ug,l,Vg)≥0,仅当Ug,l=Vg时D(Ug,l,Vg)=0,此时,用户ug,l为第g簇的中心点,‖·‖F表示Frobemius范数.簇用户的中心特征子空间为:(10)式(10)中,eig{·}表示求解矩阵的主要特征矢量的运算,每簇传输的数据流数目为Kg.准则2 加权似然函数[9]加权似然函数利用各用户的特征向量在各簇中心点的特征向量空间中的投影,将用户划分到不同簇,加权似然值表示为:(11)由(11)式可知,如果用户ug,l离簇的中心比较近,则Ug,l≈Vg,根据酉矩阵的性质,的值较大;如果用户ug,l离簇中心比较远,由于酉矩阵的正交性,的值比较小.簇中心点计算公式为:(12)总的似然值计算式为:改进的k-means算法具体步骤如下:第一步:找出K个用户中距离最远的两个用户,作为初始用户的中心点:此时用户簇个数g=2;第二步:以为初始中心点,将所有用户分为g=2个簇;第三步:从已分好的每个簇中分别找出与各自中心点相似性最弱的一个用户(即距离最大的点),然后依次计算这些用户中每个用户与各簇中心点距离之和,将距离之和最大的用户确定为第g+1个簇的初始中心点.接着,将所有用户重新划分成g+1个簇.第四步:判断当前簇的个数g+1是否大于等于G,满足则执行第五步,否则重复执行第三步;第五步:按照公式(11)计算每个用户到各簇中心点的加权似然相似度系数将每个用户分配到相似度系数最大的簇中,n为迭代次数;第六步:按照公式(12)更新第七步:若(ε值是控制分簇算法收敛的阈值)成立,分簇完成,执行第八步;否则令n=n+1,返回第五步继续执行;第八步:得到分簇结果.3 簇间预编码为了进一步消除簇间干扰本文采用块对角化预编码,通过SVD分解,获得每簇相对于其它簇干扰为零的正交基.第g簇总的信道矩阵为Hg=[Hg,1,Hg,2,…,Hg,L],预编码向量vg需要满足:Hμvg=0,μ∈{1,2,…,G}且μ≠g,(13)要实现(13)式的条件,vg应该在其它所有簇的联合信道矩阵的零空间内,即:(14)(15)为求矩阵的零空间,要对其进行SVD分解:(16)式(16)中,是的前个右奇异向量矩阵,为剩余右奇异向量构成的矩阵,构成了零空间的一个标准正交基,因此:(17)即∀μ≠g.(18)通过信道矩阵Hg在零空间的投影得到投影后的信道矩阵,在投影后的协方差矩阵的主特征值方向上进行波束成型.对g簇的投影信道及进行SVD分解,为的个主特征向量;最终得到的预编码矩阵为:(19)4 最优簇内功率分配本系统模型涉及簇间和簇内两层功率分配.由于各簇用户数目相等,为方便计算,簇间采用等功率分配,若基站发射总功率为Pt,则每簇的总功率为Pt/G.为了保证SIC的性能,降低簇内用户间干扰,最优的簇内功率分配是必要的.第g簇总功率Pg=Pt/G,簇内各用户离基站的距离满足dg,1<dg,2<…<dg,L,由(1)和(5)式可知离基站近的用户信道条件优于离基站远的用户,归一化信道增益满足:Wg,1>Wg,2>…>Wg,L,根据NOMA功率分配原则,信道条件好的用户应分配较低的功率,信道条件差的分配较高的功率,因此簇内各用户的功率分配系数需要满足αg,1<αg,2<…<αg,L.此外,各用户功率之间还需满足保证接收端SIC 性能的约束条件[5]:(20)对(20)式整理得:为用户功率间需满足的最小差值,为保证服务质量,用户的最小传输速率为r0,令τ=ptol/Pg,τ为常数.根据系统模型构建簇内功率分配系数的优化问题模型如下:(21)式(21)中,第一个约束条件是指簇内功率分配系数之和不大于1,第二个约束条件表示每个用户的传输速率必须大于最低速率r0,此外,簇内各用户功率之间要存在一定的差值,即要满足第三个约束条件.分析上述优化问题可知,该优化问题为非凸问题,本文利用KKT条件进行求解.由拉格朗日函数可得:(22)式(22)中,为拉格朗日乘子,ρ=r0/B为常量,根据KKT条件可得:(23)(24)(25)(26)若拉格朗日乘子的集合依次表示成:且每簇用户数不少于2个,则拉格朗日函数的解Ψ是由这三个集合中的元素所构成的集合,例如每簇2个用户时,满足KKT条件的解有2种,为:每簇3个用户时,有4种:以此类推.假设簇内用户均满足最小速率条件,当每簇L个用户时,设满足条件的一种解为,则:(27)(28)(29)(30)根据(27)-(28)式解得当每簇用户数目分别为2,3,4时簇内用户的功率分配系数,如表1所示,得到的功率分配系数需要满足式(29)-(30).表1 每簇用户数为2,3,4时对应的最优功率分配系数Tab.1 Optimal transmission power allocation coefficient for 2-,3-,and 4-users in each cluster每簇用户数目最优功率分配系数L=2αg,1=12-τ2Wg,lαg,2=12+τ2Wg,lL=3αg,1=14-τ2Wg,1+τ4Wg,2()αg,2=14+τ2Wg,1-τ4Wg,2αg,3=12+τ2Wg,1L=4αg,1=18-τ2Wg,1-τ4Wg,2-τ8Wg,3αg,2=18+τ2Wg,1-τ4Wg,2-τ8Wg,3αg,3=14+τ2Wg,2-τ4Wg,3αg,4=12+τ2Wg,3当簇内有L个用户时,由数学归纳法得到各用户的功率分配系数为:求解得到的最优解必须满足KKT条件,以每簇4个用户的情况为例,验证解集为时,是否满足条件,令(23)式等于0,经整理得:(31)由等式(31)两边同类项系数对应相等可得:ζl-1Wg,l-2, l=3,4,而Wg,l-1>Wg,l,所以都大于零,因此解Ψ={δ,ζ2,ζ3,ζ4}满足KKT条件,其它解可同理进行验证.分析优化问题的约束方程及求解过程可知,每簇有L个用户时,求解时有2L个拉格朗日乘子,满足KKT条件的组合方式有22L种,但是本文的优化变量为用户的功率分配系数满足αg,l∈[0,1],l∈{1,2,…,L},当有L个优化变量时,只需L个方程来求解,所以22L种组合方式不必全部验证,通过对每簇2,3,4个用户的情况求解可知,KKT条件个数依次为2,4,8个,由数学归纳法可得簇内L个用户的组合方式为2L-1种.5 实验与分析本系统模型中基站配置均匀线性天线阵列,天线间距为,用户天线数为1,用户均匀分布在的扇区内,单环散射模型的角度扩展为,其它参数设置如下表2:表2 仿真参数配置Tab.2 Simulation parameters参数取值基站最大发射功率46dBm簇内用户之间功率差10dBm系统带宽8MHz每簇带宽B180kHz基站天线数N128高斯白噪声功率0.1W比较改进k-means算法与传统k-means的收敛性能,阈值ε=0.01,K=15,G=3,中心角依次为θ1=-45°,θ2=0° ,θ3=45°,角度扩展Δ=10°,假设簇与簇之间不重叠,当前后两次迭代总的似然值之差DΓtot小于阈值时,算法收敛.两种分簇算法的收敛性能如图2所示,横坐标为迭代次数,纵坐标为DΓtot的值,两种算法都能快速达到收敛,但改进k-means算法收敛更快,只需6次迭代就达到收敛,传统k-means需要16次才能收敛.另外,改进的k-means算法选取的各簇中心点之间距离较远,使得用户簇之间相关性更弱,更有利于降低簇间干扰.图2 收敛性能比较Fig.2 Comparison of convergence performance对本文分簇算法与随机分簇、按用户信道状态排序分簇算法[5]进行性能仿真和比较.当总用户数为15,使用不同算法将用户分为3个簇,簇间使用块对角化预编码,接收端采用SIC接收信号.系统可达吞吐量随信噪比变化规律如图3所示.所提算法减弱了簇间的相关性,降低了簇间干扰,从图3中可以看出,系统可达吞吐量性能最优,而且低信噪比时吞吐量性能较好,其次是按用户信道状态排序分簇算法,分簇时利用了用户间信道条件的差异,但未充分考虑簇间的相关性,随机分簇系统性能最差,主要原因是随机分簇没有考虑用户自身的信道条件,具有随机性,系统的吞吐量得不到保证.图3 不同分簇算法下系统可达吞吐量比较Fig.3 Comparison of achievable throughput by different clustering algorithm versus SNR为研究簇内功率分配对系统可达吞吐量的影响,将本文最优功率分配算法与固定功率分配、分数阶发射功率分配进行仿真和比较.先用改进k-means算法分簇,并用块对角化对发送信息做预处理,接收端采用SIC.设固定功率分配因子为0.1,分数阶发射功率分配因子为0.7,仿真结果如图4所示.图4 不同功率分配方法对系统可达吞吐量的性能比较Fig.4 Comparison ofachievable throughput by different power allocation algorithm versus SNR 低信噪比时本文算法吞吐量性能与分数发射阶功率分配很接近,前者略高,随着信噪比的增大,本文算法优于分数阶发射功率分配算法,而固定功率分配系统可达吞吐量较低.由此看出,固定功率分配算法虽实现复杂度低,但系统吞吐量性能较差,分数阶发射功率分配相比于固定功率分配吞吐量性能更好,本文的功率分配算法满足最小传输速率和SIC性能约束条件,能有效保证每个用户的服务质量,并且降低用户间干扰,提高低信干噪比用户的信号质量,从而提高系统的吞吐量,在三种方法中性能最优.6 结语为了提高大规模MIMO-NOMA下行系统的可达吞吐量,本文依据空间相关性提出改进的k-means算法对用户分簇以降低簇间干扰,然后采用块对角化预编码对各簇信息进行预处理,进而消除簇间干扰,并利用KKT条件求解簇内最优功率分配问题,得到簇内各用户最优功率分配系数,提高了接收端SIC性能,降低簇内用户间干扰,仿真结果表明本文的方法提高了系统的可达吞吐量.但是,随着用户数的增加,k-means分簇算法的复杂度也会随之增大,下一步研究将对分簇算法进一步优化.参考文献【相关文献】[1] DING Z, YANG Z, FFAN P, et al. On the performance of non-orthogonal multiple access in 5G systems with randomly deployed users [J]. IEEE Signal Processing Letters, 2014,21(12):1501-1505.[2] KIM B, LIM S, KIM H, et al. Non-orthogonal multiple access in a downlink multiuser beamforming system[C]// IEEE. Military Communications Conference. San Diego: IEEE,2014:1278-1283.[3] BENJEBBOUR A, LI A, SAITO Y, et al. System-level performance of downlink NOMA for future LTE enhancements[C]// IEEE .GLOBECOM Workshops. Atlanta: IEEE, 2014:66-70. [4] SAITO Y, BENJEBBOUR A, KISHIYAMA Y, et al. System-level performance evaluation of downlink non-orthogonal multiple access (NOMA)[C]//IEEE.International Symposium on Personal Indoor and Mobile Radio Communications. London:IEEE,2013:611-615.[5] ALI M S,TabASSUM H, HOSSAIN E. Dynamic user clustering and power allocation for uplink and downlink non-orthogonal multiple access (NOMA) systems [J]. IEEE Access, 2017,4:6325-6343.[6] YONG I C, LEE J W, RIM M, et al. On the performance of beam division non-orthogonal multiple access for FDD-based large-scale multi-user MIMO systems [J]. IEEE Transactions on Wireless Communications, 2017, 16(8):5077-5789.[7] ALI M S, HOSSAIN E, DONG I K. Non-orthogonal multiple access (NOMA) for downlink multiuser MIMO systems: user clustering, beamforming, and power allocation [J]. IEEE Access, 2016, 5:565-577.[8] ADHIKARY A, CAIRE G. Joint spatial division and multiplexing: opportunistic beamforming and user grouping [J]. IEEE Transactions on Information Theory, 2013,59(10):6441-6463.[9] XU Y, YUE G, PRASAD N, et al. User grouping and scheduling for large scale MIMO systems with two-stage precoding[C]//IEEE International Conference on Communications. Sydney: IEEE, 2014:5197-5202。

arcgis中加权叠加赋值和权重_概述说明

arcgis中加权叠加赋值和权重_概述说明

arcgis中加权叠加赋值和权重概述说明1. 引言1.1 概述在地理信息系统(GIS) 中,加权叠加赋值和权重是一种常用的空间分析方法。

该方法通过对不同属性或者空间数据进行加权处理,将多个图层叠加到一起,并根据各属性的重要性或者空间特征的影响程度,给予不同权重值进行综合评价或者分析。

通过加权叠加赋值和权重分析,我们可以对地理现象进行深入研究,提取有用的信息并做出合理的决策。

1.2 文章结构本文将从以下几个方面来介绍ArcGIS中的加权叠加赋值和权重分析方法。

首先,在第2节中我们会详细讲解加权叠加赋值的定义以及如何使用ArcGIS中的工具进行操作。

其次,在第3节中我们将介绍基于属性数据和基于空间数据两种不同的加权叠加赋值方法,并探讨选择合适的权重分析方法应用于不同场景的指导原则。

然后,在第4节中我们会借助实例和案例研究来展示应用实践过程,并探讨在土地利用规划、环境风险评估以及城市规划等领域中如何应用加权叠加赋值和权重分析方法。

最后,在第5节中我们将对全文进行总结,归纳主要发现结果,并展望未来的研究方向和发展趋势。

1.3 目的本文的目的是介绍ArcGIS中加权叠加赋值和权重分析方法,探讨该方法在地理信息系统应用中的意义和作用。

通过本文的阐述,读者将能够了解到加权叠加赋值的概念、ArcGIS工具的使用以及权重在分析过程中的重要性。

同时,本文还旨在帮助读者理解基于属性数据和基于空间数据两种不同的加权叠加赋值方法,并引导读者选择合适的权重分析方法以应用于不同场景。

最后,通过实例应用与案例研究,本文将进一步展示加权叠加赋值和权重分析方法在土地利用规划、环境风险评估以及城市规划等领域中的具体应用价值。

2. 加权叠加赋值和权重2.1 加权叠加赋值的定义在地理信息系统(GIS)中,加权叠加赋值是一种用于分析多个输入数据层的方法。

它通过为每个输入数据层分配一个权重,并根据这些权重对不同输入数据的像元进行组合,生成最终的输出结果。

【信息检索技术习题答案(2016版)】

【信息检索技术习题答案(2016版)】

答案******************************* 一 ********************************************填空1.数值型文字型(字符)语音型图像型2.原料成品3.信息4.自然人为5.数据文本声音图像6.语义差异传递载体7.外表整体内容8.收集传输加工储存(存储)9.信息形式信息内容10.内在的信息需要外在刺激11.标题词单元词叙词关键词12.线性结构非线性结构树形结构网状结构13.数据预处理索引生成查询处理检索14.信息需求信息集合15.出发点依据16.人工赋予自动生成名词解释1.数据:是指记载下来的事实,是客观实体属性的值,它是由原始事实组成的。

2.信息加工:是指对获取的信息进行判别、筛选、分类、排序、分析、计算和研究等一系列过程,使收集到的信息成为对我们有用的信息资源。

3.信息组织:即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。

4.检索标识:就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。

5.信息检索:可以从广义和狭义两个角度理解。

广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程,其中包括存与取两个方面。

狭义的信息检索仅指信息查找过程。

6.信息检索系统:是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系,是表征有序的信息特征的集合体。

7.检索效果:是指利用检索系统(或工具)开展检索服务时所产生的有效结果。

简答题1.简述了解用户信息需求的作用答:用户信息需求是信息系统发展的动力,也是制定信息政策的出发点和依据。

了解用户需求的特点、心理规律、查询行为及需求方式,有助于系统制订合理的信息搜集方针和信息资源的合理布局,从而提高服务效益和质量。

一种基于特征加权的K Nearest Neighbor算法

一种基于特征加权的K Nearest Neighbor算法

缺 点 :1 ( )计 算 复杂 度高 , 度慢 : 速 由于该算 法 需要 大量 的已知类 别 数据 , 一个 新 的待分 类样 本进 行 对 计算时 , 每一 次都 要进 行 全局搜 索 , 导致 收敛 速度 慢 . 2 ( )准 确度 不 高 : 由于通 常使 用 欧式 距离 度量 样本 间 的距 离 , 于 高维 空 间上 的数据 , 计算 复 杂 度 高 , 且 样本 特 征 属 性 之 间 如果 存 在相 关 关 系 , 式距 离 对 其 并 欧
1 K NN算 法
K N算 法最 早 是 由 Cvr H r提 出 的一种 非参 数分 类算 法 , 已广 泛应 用于 模 式识 别 和 数据 挖 掘 N oe 和 at 现 的各个 领域 . 分类 思想 是 : 其 给定 一个 待分 类 的样本 x, 先 找 出与 x最 接 近 的 或最 相 似 的 k个 已知 类别 首 标 签 的训 练集 样本 , 后根 据这 k个训 练样 本 的类别 标 签确 定样 本 X的类 别 . 然 算 法 步骤 j : 1 )构 建训 练样 本集 合 D .
邻”一般由欧式距离来度量. 设第 个样本X =( , )C 其中 ; , …, - , 表示第 个样本第 z R 个特征属
性 值. 么 , 样 本 X 和 , 间的欧 式距 离定 义 为 那 2个 之 ■——_
d x ,f ( )= / (; ). 一
文章 编 号 i04—12 (0 8 0 0 5 0 10 79 2 0 )4— 3 2— 4

种 基 于特 征 加 权 的 K N ae tN ih o 算 法 e rs eg b r
桑应宾 , 刘琼荪
( 重庆大学 数理学 院 , 重庆 40 4 ) 0 04

特征融合方法

特征融合方法

特征融合方法特征融合方法是指将来自不同数据源或者不同特征提取方法的特征进行有效的整合和融合,以提高模型的性能和泛化能力。

在机器学习和模式识别领域,特征融合方法起着至关重要的作用,它可以帮助我们更好地利用数据信息,提高模型的准确性和稳定性。

本文将介绍几种常见的特征融合方法,并对它们进行简要的分析和比较。

首先,特征级融合是指将来自不同特征提取方法的特征进行直接拼接或加权求和。

例如,假设我们有两种特征提取方法分别提取出了100维的特征向量,那么特征级融合就是将这两个100维的特征向量直接拼接成一个200维的特征向量。

另外一种常见的特征级融合方法是加权求和,即对不同特征的权重进行学习或者手动设定,然后将它们加权求和得到最终的特征向量。

特征级融合方法简单直接,易于实现,但它忽略了不同特征之间的相关性和依赖关系。

其次,模型级融合是指将来自不同模型的特征进行整合和融合。

在集成学习中,模型级融合是非常重要的一环,它可以帮助我们充分利用不同模型的优势,提高整体模型的性能。

常见的模型级融合方法包括Stacking、Bagging和Boosting等。

Stacking是一种将不同模型的输出作为新特征输入到另一个模型中的方法,它可以有效地整合不同模型的预测结果,提高模型的泛化能力。

Bagging和Boosting则是通过对训练数据进行不同的采样和权重调整,得到不同的基模型,然后将它们整合得到最终的模型。

模型级融合方法可以充分挖掘不同模型的优势,提高模型的性能,但它需要更多的计算资源和时间成本。

最后,特征选择和降维是特征融合的重要环节。

在特征融合之前,我们需要对原始特征进行选择和降维,以减少特征之间的冗余信息和噪声,提高特征的表达能力和稳定性。

常见的特征选择和降维方法包括PCA、LDA、特征过滤、特征包裹和特征嵌入等。

这些方法可以帮助我们选择最具代表性的特征,并且降低特征空间的维度,提高模型的训练效率和泛化能力。

综上所述,特征融合方法是机器学习和模式识别领域中非常重要的一环,它可以帮助我们更好地利用数据信息,提高模型的性能和泛化能力。

支持向量机

支持向量机

支持向量机支持向量机模型选择研究摘要: 统计学习理论为系统地研究有限样本情况下的机器学习问题提供了一套比较完整的理论体系。

支持向量机(suPportvectorMachine,SVM) 是在该理论体系下产生的一种新的机器学习方法它能较好地解决小样本、非线性、维数灾难和局部极小等问题, 具有很强的泛化能力。

支持向量机目前已经广泛地应用于模式识别、回归估计、概率密度估计等各个领域。

不仅如此, 支持向量机的出现推动了基于核的学习方法(Kernel-based Learning Methods)的迅速发展, 该方法使得研究人员能够高效地分析非线性关系, 而这种高效率原先只有线性算法才能得到。

目前, 以支持向量机为主要代表的核方法是机器学习领域研究的焦点课题之一。

众所周知, 支持向量机的性能主要取决于两个因素:(1) 核函数的选择;(2) 惩罚系数(正则化参数)C的选择。

对于具体的问题,如何确定SVM中的核函数与惩罚系数就是所谓的模型选择问题。

模型选择,尤其是核函数的选择是支持向量机研究的中心内容之一。

本文针对模型选择问题,特别是核函数的选择问题进行了较为深入的研究。

其中主要的内容如下:1. 系统地归纳总结了统计学习理论、核函数特征空间和支持向量机的有关理论与算法。

2. 研究了SVM参数的基本语义,指出数据集中的不同特征和不同样本对分类结果的影响可以分别由核参数和惩罚系数来刻画,从而样木重要性和特征重要性的考察可以归结到SVM的模型选择问题来研究。

在对样本加权svM莫型(例如模糊SVM分析的基础上,运用了特征加权svM莫型, 即FWSVM本质上就是SVM与特征加权的结合。

3,在系统归纳总结SVM莫型选择。

尤其是核函数参数选择的常用方法(例如交叉验证技术、最小化LOO M差及其上界、优化核评估标准)。

关键词:机器学习;莫式分类;支持向量机;莫型选择;核函数; 核函数评估支持向量机基础引言机器学习的科学基础之一是统计学。

基于机器学习的情绪分析研究

基于机器学习的情绪分析研究

基于机器学习的情绪分析研究——智能模型设计和实现摘要互联网技术的迅速发展使得社交平台逐渐成为热点事件中社会情感的枢纽。

社会热点事件的舆论监管的其中一个重要环节就是能够准确分析民众的社会情绪。

本文旨在探索可以基于文本大数据彻底分析民众对热点事件的社会情绪的模型和方法。

先是从社交平台上借助文本大数据、对数据进行提前处理以及用python自然语言处理包等方法建立能够分析社会情绪的模型,其次找到最佳的机器学习算法,再次用机器学习的方法对模型进行训练,获得一个情感分类器。

最后用热点事件“冠状病毒”的真实数据在情感分类器上进行社会情绪分析验证,证明了模型和方法的有效性。

关键词:网络文本大数据;机器学习;情绪分类器;社会情绪分析;1前言:1.1设计目的及意义近来,社交媒体和电子商务平台发展迅速,Twitter、微博、MSN、微信等社交网络正逐渐地改变着人们的生活,越来越多的人习惯于通过网络平台表达自己的态度和情感,这些网络文本是客户流露的真实情感。

对网络文本大数据热门事件的情绪进行分析可以使人们获得更多关于内心世界的知识,因此,从这些文本信息中自动准确的识别客户的情感类别,对政府舆情监控、企业管理与决策来说是一个很大的支持,它也成为学术界近来持续关注的研究热点,同时极大地促进了情绪分析技术的发展。

1.2本课题国内外现状及存在问题文本情感分析也可以说是挖掘文本意见的方法。

简而言之,它是分析,处理,总结和推断具有情感色彩的主观文本的过程[1]。

目前海内外关于文本情绪分析研究的方向主要有两个:一个是判断主观信息的细粒度,另一个是判断文本的主客观性。

前者强调将情感词作为中心去分析文本级的情绪倾向,而文本的情绪倾向是通过贬值情感词的线性加权值来实现的。

熊德兰等人[2]基于How Net语义词典中词汇语义相似度的计算方法。

意在基于语义词典,充分想到词语组成在一起之后语义可能改变,直接影响到情感褒贬判断的偏向结果,于是用各个词语义进行权重计算结果来判断从而避免受影响。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基金项目:国家自然科学基金资助(编号:60673089)。

作者简介:林永民,女,1972年生,硕士,讲师,研究方向为文本分类与机器学习;吕震宇,男,1976年生,硕士,讲师,研究方向为数据挖掘和模式识别;赵 爽,女,1982年生,硕士,研究方向为信息检索;朱卫东,男,1960年生,副教授,研究方向为数据挖掘和信息处理。

向量空间模型中特征加权的研究*Research on Feature Weighting in VS M林永民1 吕震宇1 赵 爽1 朱卫东2(1.河北理工大学经济管理学院 唐山 063009;2.北京交通大学计算机与信息技术学院 北京 100044)摘 要 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。

常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用T F I DF 方法对特征加权。

但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。

针对T F IDF 方法存在的问题,提出了一种基于特征基尼指数的特征加权方法T F G IN I 。

实验结果显示,这种加权方法具有很好的分类性能。

关键词 文本分类 特征选择 基尼指数 特征加权 向量空间模型 自动文本分类是一个有监督的学习任务,通过对已分配好类标签的训练文档集的学习,为新文档分配类标签。

文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。

现有的特征选择方法主要是基于统计理论和机器学习方法,比较著名的有信息增益(Information G ain)、期望交叉熵(Expected Cross Entroy)、文本证据权(the Weight o f Evidence of T ext)、 2统计等,很多研究者都已经通过实验证明它们是很好的文本特征选择方法。

特征选择后最常用向量空间模型来表示文本,将文本看作特征空间的一个向量,其坐标系所采用的测度主要使用Saltond 在1988年提出的T F IDF 值,词频T F 为单词在该文档中出现的次数,逆文本频数I DF=log (N /N t ),其中t 代表单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。

以词频T F 和逆文本频数IDF 的乘积作为特征的加权方案,具有简单直观、处理速度快等优点,因此在文本分类中被广泛使用。

但由于T F IDF [1-3]这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,这种简单的结构使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。

本文研究的重点不是特征选择,而是特征选择后应如何对特征进行加权。

T F IDF 特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑,提出了一种基于基尼指数的特征加权方案T F GI NI ,根据含有特征样本的类分布概率,计算特征的基尼指数G IN I,以词频T F 与特征的基尼指数GIN I 的乘积作为特征的权重,在没有增加计算复杂度的情况下,充分考虑了特征区别不同类别的能力。

通过在Reuters-21578文档集和复旦大学计算机与信息技术国际数据库中心提供的中文语料集上与T F IDF 方法的对比实验,结果显示采用T F G IN I 方法的分类性能超过T F IDF ,且并没有增加算法的时间复杂度。

1 TF IDF 加权方法的分析向量空间模型是目前最简便高效的文本表示模型之一。

其基本思想是:给定一自然语言文档D =D (t 1,w 1;t 2,w 2; ;t N ,w N ),其中t i 是从文档D 中选出的特征项,w i 是特征项的权重,1 i N 。

为了简化分析,通常不考虑t k 在文档中的先后顺序并要求t k 互异(即没有重复)。

这时可以把t 1,t 2, ,t N 看成一个N 维的坐标系,而w 1,w 2, ,w N 为相应的坐标值,因而D (w 1,w 2, ,w N )被看成是N 维空间中的一个向量。

其坐标系的测度主要采用Salton 在1988年提出的T F I DF,词频T F 为单词在该文本中出现的次数,而逆文本频数IDF=log (N /N t ),其中t 代表此单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。

陆玉昌等在文献[3]中分析了T F IDF 思想的两条基本假设:a.在一个文本中出现次数很多的单词,在另一个同类文本中出现的次数也很多,反之亦然。

所以取词频T F 作为测度的一部分来体现同类样本的特点。

这条假设是可以接受。

b.一个单词出现的文本频数越少,它区别不同类别的能力就越大。

所以引入逆文本频数IDF 的概念,以T F 和IDF 的乘积作为特征空间坐标系的测度。

文献[3]从单词加权和向量旋转的角度,解释了I DF的简单结构不可能很好地反映单词的有用程度。

提出了采用去掉信息增益、文本证据权等公式中的P(W)后,对单词加权,并通过实验验证了改进的有效性。

T horsten在文献[2]中运用概率理论分析了T F IDF的乘积作为特征空间坐标系测度不一定能得到高的分类精度,并成功地提出了一种介于传统T F IDF法和朴素贝叶斯模型之间的一种分类模型。

我们从特征对分类的有用程度角度出发,发现T F IDF 加权可能会将大权重赋给稀有词,而不管它的类分布特征如何。

这些稀有词可能导致无效的分类。

可以通过一个简单的实例来分析T F IDF的缺陷。

考虑如下情况:训练文档集中的文档总数为300篇,其中属于A类的文档数为100,属于B 类的文档数为200,单词t1与t2当且仅当出现在B类文档中,且N t1=200,N t2=100,文档D B类,单词t1与t2都出现在文档D中,且T F(t1)=T F(t2)。

使用T F IDF方法对两个单词加权后得到,T F(t1)*log(N/N t1)< T F(t2)*log(N/N t2),词t1因为稀有而具有较高的T F IDF。

但是在这种情况下,t2显然具有更强的类别区分能力,对分类的贡献更大。

T F IDF简单地采用倒文本频数对特征进行加权,而没有考虑特征的类分布,是导致加权后分类精度低的主要原因。

2 基于基尼指数的文本特征加权方法基尼指数是一种不纯度分裂方法,它能适用于类别、二进制、连续数值等类型的字段,是Br eiman等人于1984年提出的,被广泛应用在CART算法、SL IQ算法、SPR INT算法和Intelligent M iner(IBM公司的数据挖掘工具)的决策树算法中,并获得了非常好的分类精度。

2.1 基尼指数原理 具体算法思想:假设S是s个数据样本的集合,其类标号属性具有m个不同值,定义m个不同类(C i,i=1,...,m)。

根据类标号属性值的不同可将S划分为m个子集(S i,i=1,...,m),设S i是属于类C i的样本集,s i 是集合S i中的样本数。

则集合S的基尼指数为:Gini(S)=1- m i=1P2i(1)其中P i是任意样本属于C i的概率,并用s i/s估计。

当G ini(S)最小为0时,即在此集合处所有记录都属于同一类别,表示能得到最大的有用信息;当此集合中的所有样本对于类别字段来讲均匀分布时,Gini(S)最大,表示能得到最小的有用信息。

基尼指数的最初形式是测量属性对于分类来说的 杂度 ,数值越小,即 杂度 越小,属性越好;如果采用Gini(S)= m i=1P2i(2)则是测量属性对于分类的 纯度 ,数值越大,即 纯度 越大,属性越好。

2.2 基于基尼指数的文本特征加权方案 基尼指数是一个用于集合纯度评测的优秀测度。

特征对于分类的有用程度可以用特征的纯度来度量,特征应尽可能是纯的。

一个特征是纯的,出现这个特征的所有文档都属于同一个类别[4]。

因此我们采用特征的纯度来代替倒文档频数,提出T F GIN I加权方法。

具体方法是在文本特征选择之后,先求出现特征t 的文档集中每个类的发生概率P(C i|t),然后根据(3)式计算特征的基尼指数G ini(S)= m i=1P(C i|t)2(3)采用T F GIN I为特征t k加权并进行归一化的公式如下:w ik=tf ik gini(t k)mj=1[tf jk gini(t k)]2(4)其中w ik表示词条t k在文档D i中的权重;tf ik表示词条t k 在文档D i中的出现频数。

Shankar等在文献[5]中也讨论了应用基尼指数原理进行文本特征选择及权值调整的问题,即首先根据T F-IDF从原始特征空间的所有的词中形成类中心向量,再根据所有的类中心向量计算所有特征的基尼指数,最后根据预定的数目选择基尼指数大的特征。

并且讨论的范围仅限于质心法分类。

但我们在本文中所用的方法与其完全不同,我们重点讨论的是在特征选择之后,对特征的加权,且加权方案不仅适合质心法分类,而且适合于已有其他的文本分类器。

3 实验结果与分析为了进一步考察算法的效果,我们采用了V C++6.0实现本算法,部分源代码采用了复旦大学计算机与信息技术系李荣陆提供的文本分类器源代码。

3.1 数据集 在实验中我们使用了两个语料集:一个是公认的英文标准分类语料R euters-21578;另一个是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。

Reuter新闻语料集是在文本分类研究中被最广泛使用的语料集,1987年修订的R euters-21578共有21578个文档。

在实验中我们使用了其中最普通的10个类,训练集7951个文档,测试集2726个文档,词根还原和去停用词后有23281个单词。

实验集中类的分布是不均匀的,属于最大类的文档有2875个,占总训练文档数的40.762%;属于最小类的文档有170个,仅占总训练文档数的2.41%。

实验采用的第二个数据集是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。

共有19637篇文档,分为20个类。

取其中的10类,训练文集中共有1882篇文档,测试集900篇,经分词且去停用词后共获得35028个词。

训练集中类分布相对不均匀,其中政冶类文档338篇,占到了训练文档集的17.96%,而环境类的文档134篇,仅占到文档集的7.12%。

3.2 分类器 分类器采用fkN N,其判别函数采用我们在文献[6]提出的F SW F规则:j(X)= k i=1 j(X i)sim(X,X i)(1-sim(X,X i))2/(b-1)/k i=11(1-sim(X,X i))2/(b-1)(5)其中j=1,2,...,c, j(X i)sim(X,X i)为已知样本X对第j类的隶属度值,如果样本X属于j类则 j(X i)为1,否则为0。

相关文档
最新文档