基于概率潜在语义分析模型的自动答案选择
em算法的应用场景和案例

em算法的应用场景和案例EM算法(Expectation Maximization Algorithm)是一种常用的统计学习方法,主要用于估计含有隐变量的概率模型的参数。
以下是EM算法的一些应用场景和案例:1.K-Means聚类:这是EM算法的硬聚类应用案例。
在K-Means聚类中,我们试图将数据划分为K个不同的簇,其中每个簇的中心是所有属于该簇的数据点的平均值。
EM算法在这里被用来迭代地更新簇的中心和分配数据点到最近的簇。
2.GMM(高斯混合模型)聚类:这是EM算法的软聚类应用案例。
高斯混合模型是一种概率模型,它假设所有的数据点都是由几个高斯分布混合而成的。
EM算法在这里被用来估计每个高斯分布的参数以及每个数据点属于每个高斯分布的概率。
3.PLSA(概率潜在语义分析)模型:在文本挖掘和信息检索中,PLSA模型被用来发现文档和单词之间的潜在主题。
EM算法在这里被用来估计模型中的参数,包括每个文档的主题分布和每个主题中的单词分布。
4.硬币投掷实验:这是一个简单的EM算法应用案例。
假设有三枚硬币A,B,C,我们不知道它们投掷出正面的概率。
在实验中,我们首先投掷硬币A,如果A出现正面,我们就选择硬币B投掷,否则选择硬币C。
我们只观察到了所选择的硬币的投掷结果(正面或反面),而没有观察到硬币A的投掷结果。
EM算法在这里可以被用来估计三枚硬币投掷出正面的概率。
5.在自然语言处理中的应用:EM算法还可以用于词义消歧和主题模型中,例如隐含狄利克雷分布(LDA)。
在这些模型中,EM算法用于估计话题的分布和文档中单词的主题分配。
6.图像处理和计算机视觉:EM算法也广泛应用于图像处理和计算机视觉领域,例如用于混合高斯模型(GMM)来分割图像,或者用于隐马尔可夫模型(HMM)来进行图像序列分析等。
7.在生物信息学中的应用:EM算法在生物信息学中也有广泛的应用,例如在基因表达数据的分析、蛋白质分类和基因序列分析等领域。
基于概率潜在语义分析的中文文本分类研究

不 同概 念被 划 归为 同 一 个类 别 , 一 种是 两 篇 文 另
档 的某 特征 项分 别为 两个词但 表 达 了同一 概念被
划 归 为不 同的类别 . 因此 , 现“ 发 暗含” 在应 用文本
词 语之 间潜 在 的语 义关 系是 提高分 类系统性 能 的
一
存 储 的电子 文档 的数 目急剧 增 长 , 特别 是 随 着 互
潜 在 的概 率 语 义 空 间 , 将 文 档 和词 映 射 到 同一 个 语 义 空 间 . 文 将 概 率 潜 在 语 义 分 析 模 型 用 于 中 文 文 本 分 并 该 类 , 方 面 较 好 地处 理 了 自然 语 言 中的 同 义 、 义 问 题 ; 一 方 面 通 过 计 算 概 率 潜 在 语 义 空 间 中 向量 的 距 离 来 一 多 另 获得 文档 间 的类 别 信 息 从 而 达 到 文 本分 类 的 目的 . 验 结 果 表 明 , 分类 器具 有 良好 的 分类 性 能 . 实 该
关 键词 : 文文 本 分 类 ; 率 潜 在 语 义分 析 ; 义 空 间 中 概 语
中 图分 类 号 : 3 1 TP 9 文献标识码 : A
0 引 言
近十年 来 , 于 人 工智 能 的 自动文 本 分 类 技 基 术获 得 了长 足 的发 展 , 主 要 是 因 为 以数 字 形 式 这
L A)引, S 认 为 词 语 在 文 本 中 的使 用 模 式 内 S  ̄ L A 存在 着潜 在 的语义 结 构 , 同义 词 之 间应 该具 有 基
简单 地说 , 自动 文本 分 类 就 是 在 给定 的分 类
体 系下 , 根据文 本 的 内 容 自动地 确 定 文 本关 联 的
人工智能基础(习题卷62)

人工智能基础(习题卷62)第1部分:单项选择题,共50题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下说话正确的是()A)一个机器学习模型如果有较高准确率,总是说明这个分类器是好的B)如果增加模型复杂度,那么模型的测试错误率不一定会降低C)如果增加模型复杂度,那么模型的训练错误率总是会降低答案:C解析:一个机器学习模型如果有较高准确率,不能说明这个分类器是好的。
对于不平 衡的数据集进行预测时,正确率不能反映模型的性能。
模型越复杂,在训练集上越容易表现 好,在测试集上越容易表现不好。
2.[单选题]关于卷积层的说法,错误的是()A)卷积核的尺寸是由人为指定的B)卷积核的参数值是人为指定的C)卷积层可以作为神经网络的隐藏层D)特征图是为卷积层的最终输出答案:B解析:3.[单选题]有两个样本点,第一个点为正样本,它的特征向量是(0, -1);第二个点为负样本,它的特征向量是(2, 3),从这两个样本点组成的训练集构建一个线性SVM 分类器的分类面方程是()。
A)2x+_y=4B)x+2y=5C)x+2y=3D)2x-y=0答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。
斜率是 两点连线的斜率的负倒数。
即-1/ (-1-3)/(0-2)=-1/2,可得戶-(l/2)x + C.过中点(0+2) /2, (-1+3)/2)= (1, 1),可得 c=3/2,故方程为 x+2戶3。
4.[单选题]在具体求解中,能够利用与该问题有关的信息来简化搜索过程,称此类信息为( )A)启发信息B)简化信息C)搜索信息D)求解信息答案:A解析:5.[单选题]下列哪个不是RPA实施回报率的评估因素?()A)成本节省B)生产力提升C)质量改进D)劳动力需求有规律答案:DA)人机交互系统B)机器人-环境交互系统C)驱动系统D)控制系统答案:A解析:7.[单选题]下面不属于人工智能研究基本内容的是()A)机器感知B)机器思维C)机器学习D)自动化答案:D解析:8.[单选题]大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的()A)新一代技术平台B)新一代信息技术和服务业态C)新一代服务业态D)新一代信息技术答案:B解析:9.[单选题]梯度下降算法中,损失函数曲面上轨迹最混乱的算法是以下哪种算法?A)SGDB)BGDC)MGDD)MBGD答案:A解析:10.[单选题]当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A)分类B)聚类C)关联分析D)隐马尔可夫链答案:B解析:11.[单选题]线性判别分析常被视为一种经典的()技术。
第18章 概率潜在语义分析

• 概率潜在语义分析受潜在语义分析的启发,前者基于概率模型,后者基于非 概率模型
基本想法
• 给定一个文本集合,每个文本讨论若干个话题,每个话题由若干 个单词表示。
• 对文本集合进行概率潜在语义分析,就能够发现每个文本的话题, 以及每个话题的单词。
• 话题是不能从数据中直接观察到的,是潜在的。
基本想法
• 文本集合转换为文本-单词共现数据,具体表现为单词-文本矩阵
• 文本数据基于如下的概率模型产生(共现模型):
• 首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给 定条件下单词的条件概率分布。
• 概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。
• 随机变量w取值于单词集合 • 随机变量d取值于文本集合 • 随机变量z取值于话题集合
生成模型
• 概率分布P(d)、条件概率分布P(zld)、条件概率分布P(w|z)皆属 于多项分布
• P(d):生成文本d的概率 • P(zId):文本d生成话题z的概率 • P(wIz):话题z生成单词w的概率
• 直观上,语义相近的单词、语义相近的文本会被聚到相同的“软的类别”中,而话 题所表示的就是这样的软的类别。
基本想法
• 假设有3个潜在的话题,图中三个框各自表示一个话题。
生成模型
• 假设有单词集合 • 文本(指标)集合 • 话题集合
,其中M是单词个数 ,其中N是文本个数 ,其中 K是预先设定的话题个数
第十八章 概率潜在语义分析
概率潜在语义分析
• 概率潜在语义分析(probabilistic latent semantic analysis, PLSA), 是一种利用概率生成模 型对文本集合进行话题分析的无监督学习方法。
基于潜在语义分析的信息检索

基于潜在语义分析的信息检索
盖杰;王怡;武港山
【期刊名称】《计算机工程》
【年(卷),期】2004(030)002
【摘要】潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义.文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法.
【总页数】3页(P58-60)
【作者】盖杰;王怡;武港山
【作者单位】南京大学计算机科学与技术系,软件技术研究所国家重点实验室,南京,210093;南京大学计算机科学与技术系,软件技术研究所国家重点实验室,南京,210093;南京大学计算机科学与技术系,软件技术研究所国家重点实验室,南京,210093
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于概率潜在语义分析的中文信息检索 [J], 罗景;涂新辉
2.基于潜在语义分析的藏文Web不良信息检索算法研究 [J], 普措才仁
3.一种基于概率潜在语义分析的专利主题标引方法研究 [J], 包翔;刘桂锋
4.一种基于概率潜在语义分析的专利主题标引方法研究 [J], 包翔;刘桂锋
5.社交网络内容生产中"标准偶像"现象与机理
——基于潜在语义分析的微博文本挖掘 [J], 徐翔
因版权原因,仅展示原文概要,查看原文内容请购买。
利用机器学习解决无监督学习问题

利用机器学习解决无监督学习问题摘要:本文的目的在于研究利用机器学习方法解决无监督学习问题。
无监督学习是一种特殊的机器学习任务,其没有明确定义的标签和正确答案,而是利用给定的输入数据来发现未知的结构,或者说潜在的联系。
为了解决无监督学习问题,我们将使用一系列机器学习技术,包括聚类、密度估计、概率潜在语义分析和隐式因子模型。
这些技术都具有基于距离的正则化方法和增强式学习方法,这些方法可以有效的帮助我们解决无监督学习的问题。
本文中的实验结果表明,利用机器学习解决无监督学习问题是可行的,它可以比传统方法更快地找出潜在的结构和联系。
1. 无监督学习简介无监督学习是一种特殊的机器学习,它没有明确定义的标签和正确答案,而是利用给定的输入数据来发现未知的结构,或者说潜在的联系。
例如,通过分析大量的图像数据,可以识别出多种不同的对象,并对它们进行分类。
此外,无监督学习也可以用于自然语言处理,例如文档分类和自动文摘生成。
2. 机器学习方法为了解决无监督学习问题,我们将使用一系列机器学习技术,包括聚类、密度估计、概率潜在语义分析和隐式因子模型。
聚类是一种基于距离的正则化方法,它将原始数据分成不同的簇,即相似的对象集合。
密度估计是一种基于已有数据的统计技术,用于模拟和估计数据分布,以发现潜在的结构和联系。
概率潜在语义分析是一种半监督聚类方法,它使用距离度量和聚类分析技术来发现潜在的结构。
此外,隐式因子模型是一种基于增强式学习算法的无监督学习方法,它以一系列的隐状态来发现潜在的结构。
3. 实验结果为了验证本文提出的方法的有效性,我们进行了一系列的实验,其中使用了真实的数据集。
实验结果表明,利用机器学习解决无监督学习问题是可行的,它可以比传统方法更快地找出潜在的结构和联系。
4. 结论本文将机器学习引入了无监督学习中,以解决无监督学习问题。
实验结果表明,利用机器学习技术可以有效解决无监督学习问题,并能够在更短的时间内发现潜在的结构和联系。
人工智能基础(试卷编号2101)

人工智能基础(试卷编号2101)1.[单选题]语义网络表达知识时,有向弧 AKO链、ISA链是用来表达节点知识的()A)无悖性B)可扩充性C)继承性答案:C解析:2.[单选题]随机生成的卷积核,个别一些卷积核A特征提取几乎无贡献,但不影响运算。
A、正确A)错误B)正确C)错误答案:A解析:3.[单选题]无人驾驶汽车通过车载( )感知道路环境。
A)雷达B)传感器C)摄像头D)音响答案:B解析:4.[单选题]锐化(高通)滤波器的作用( )。
A)能消减或削弱傅里叶空间的低频分量,但不影响高频分量B)能消减或削弱傅里叶空间的高频分量,但不影响低频分量C)对傅里叶空间的低、高频分量均有削弱或消除作用D)对傅里叶空间的低、高频分量均有增强作用答案:A解析:高通滤波与低通滤波正好相反,是频域图像的高频部分通过而抑制低频部分。
在 图像中图像的边缘对应高频分量,因此高通滤波的效果是图像锐化。
5.[单选题]二项分布的数学期望为()A)n(1-n)pB)np(1-p)C)npD)n(1-p)答案:C6.[单选题]一副照片在存放过程中出现了很多小的噪点,对其扫描件进行( )操作去噪效果最好。
A)中值滤波B)高斯滤波C)均值滤波D)拉普拉斯滤波答案:A解析:7.[单选题]( )是PMS3.0的核心,是公司业务中台建设的重要组成部分。
A)技术中台B)物管平台C)电网资源业务中台D)财务中台答案:C解析:8.[单选题]()是指数据减去一个总括统计量或模型拟合值时的残余部分A)极值B)标准值C)平均值D)残值答案:D解析:9.[单选题]x={"xm":"张三","xb":"男"}把姓名改成"李四"的代码是:A)x[xm]="李四"B)x["xm"]="李四"C)x["xm"]=李四D)x["张三"]="李四"答案:B解析:10.[单选题]智能的特征包括 ( )A)感知能力、记忆与思维能力、学习能力、行为能力(表达能力)B)感知能力、创新能力、学习能力、行为能力(表达能力)C)记忆能力、创新与思维能力、学习能力、行为能力(表达能力)D)感知能力、记忆与思维能力、行为能力(表达能力)、分析能力答案:A解析:,是深度学习算法的一种,现主要运用于人脸识别与商品识别。
混合推荐系统方法

混合推荐系统方法浅析【摘要】随着internet的迅速发展,各种信息以指数级的速度增长,类型也愈来越多。
如何有效的解决信息过载带来的种种问题,如何满足各种不同用户的需求,成为新的研究课题。
本文提出一种基于混合方法的推荐系统方法,经验性的比较了混合算法与单纯贴近算法之间的表现,并且说明了混合方法较纯贴近方法可以提供更准确的推荐效果。
【关键词】混合推荐系统;内容算法;人工智能0.引言在互联网的迅猛发展下,随着信息过载问题的逐年升温,互联网用户对信息需求的日益膨胀,推荐系统在各个领域的数字化进程中扮演着越来越重要的角色.在过去的数十年中,推荐系统在学术研究、工业界各种应用上取得了长足的进步.然而,现有的推荐算法仍然存在特征提取、冷启动、过拟合、稀疏问题,需要不断完善和解决.一些推荐系统通过混合使用协同方法和基于内容的方法,来避免单纯使用基于内容的方法或协同算法中的某些局限[1]。
将协同方法和基于内容的方法混合应用至推荐系统有很不同方式,大概可以分为以下几类:(1)单独分开执行协同方法和基于内容的方法并将其预测合并。
(2)将一些基于内容算法的特征应用于协同方法中。
(3)将一些协同方法的特征应用于基于内容方法中。
(4)建立一个将协同算法和基于内容算法特征结合应用的模型。
上述方法已经被推荐系统的研究者所采用,下面将展开介绍。
构建混合推荐系统的一种方法是单独执行协同算法和基于内容的方法。
然后,我们可以得到两种情况。
首先,我们可以将从各自的推荐系统中得到的结果(评级)采用线性组合或者投票机制的方法进行处理,以获得一个最终的结果。
此外,我们可以采用其中某一种推荐系统,也即在任何情况下都采用一种比其他推荐系统都要好的系统,当然,这里的好是建立在一定的“质量”评价标准之上的。
比如,每日学习系统选择了一个可以对推荐给出高置信区间值的推荐系统,同时这个系统能够选择出那些与用户过去的评价更加一致的推荐。
1.混合推荐系统概念与特征一些混合型推荐系统,包括schwaighofer[2]和rashid [3]里描述的“通过内容的协同”,都基于一些传统的协同技术,但是也能够为每个用户保留基于内容的文件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计 算 机 工 程 Computer Engineering
文章编号: 文章编号:1000—3428(2011)14—0070—03 文献标识码: 文献标识码:A
பைடு நூலகம்
2011 年 7 月 July 2011
中图分类号: 中图分类号:TP393
Automatic Answer Selection Based on Probabilistic Latent Semantic Analysis Model
ZHANG Cheng1, QU Ming-cheng2, NI Ning3, QIU Guang2, BU Jia-jun2
(1. China Disabled Persons’ Federation Information Center, Beijing 100034, China; 2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China; 3. College of Information Technology, Zhejiang Vocational College of Commerce, Hangzhou 310053, China) 【Abstract】A novel answer selection method based on topic modeling techniques is proposed to mitigate the issue of question asker’s burden of selecting the best answer stemming from too many candidate answers in question answering communities. Aiming at the problem, this paper presents an automatic answer selection based on Probabilistic Latent Semantic Analysis(PLSA) in question answering communities, and accordingly rank candidate answers based on similarity of interest between answers and questions. Experimental results show that the method can effectively excavation user interest and improve the accuracy of answer selection. 【Key words】answer selection; question & answering community; Probabilistic Latent Semantic Analysis(PLSA); topic modeling DOI: 10.3969/j.issn.1000-3428.2011.14.022
Pr(u , w) = ∑ Pr( w | z ) Pr( z | u ) Pr(u )
z
其中,Pr(z|a)表示给定答案 a 中主题 z 的概率,其初始值为随 机数, 并通过以式 (10)、 式 (11) 反复迭代得出最后结果; c (a , w) 表示答案 a 中词语 w 的出现频率;Pr(a)表示答案 a 的先验概 率,计算如下:
3
由于 用户根据自 己的兴趣主题选择 相应的问题 进行回 答, 因此问题的主题与回答用户的兴趣需要有较高的相关度。 同时,候选答案自身的主题与问题主题应保持一致。综合以
基于概率潜在语义分析的答案选择
第 37 卷 第 14 期
张
成,曲明成,倪 宁,等:基于概率潜在语义分析模型的自动答案选择
71
目通常很少。为解决稀疏性问题,本文采用 <用户 , 词语 > 对 的共现信息进行主题建模,其中共现数据为用户在回答某问 题时输入的词语。类似于式 (1) ,用户和词语的联合概率表 示为:
z
(13)
将问题 q 中包含的词语概率累乘并进行归一化得到:
1
(3)
q Pr(a, q ) = ∏ Pr( a, wi ) i
(14)
4
4.1
(4) (5)
实验与结果
(2)最大化步骤
Pr( z | u ) ∝ ∑ c(u, w) Pr( z | u , w)
w
Pr( w | z ) ∝ ∑ c(u , w) Pr( z | u , w)
上考虑,本文利用问题主题与候选答案主题及问题主题与用 户兴趣的相似度对候选答案进行综合排序。 用户兴趣建模 在一个典型的问答周期中,由于用户在回答问题时已隐 式地选择了主题,因此用户所回答的问题所属的主题能反映 用户的兴趣。尽管目前的问答社区已对每个问题提供了显式 的主题类别信息,但这些显式的主题存在粒度过粗、类别局 限等问题,不适合对用户的细粒度进行兴趣建模。对用户进 行聚类只可以捕捉到用户最主要的兴趣主题,不能有效描述 用户的所有兴趣。本文采用的概率潜在语义分析模型 [4] 可自 动挖掘文档集中的潜在主题,无需对主题的类别进行预先定 义,同时能全面描述用户兴趣。在对用户 u 进行建模时,以 PLSA 中的潜在变量 z∈ { z1 , z2 , … , zk} 表示 u 所回答的问题集 的潜在主题。用户 u 回答问题 q 的隐含过程是先选择主题 z, 再根据主题选择问题 q。 因此, u 和 q 的联合概率可以表示为: 3.1
Pr( z | u, w) = Pr( w | z ) Pr( z | u ) Pr(u ) ∑ Pr( w | z ') Pr( z ' | u ) Pr(u )
z'
∑ c( a ', w)
a ', w
(12)
答案和词语的联合概率可表示为:
Pr(a, w) = ∑ Pr( w | z ) Pr( z | a ) Pr(a )
基于概率潜在语义分析模型的 基于概率潜在语义分析模型的自动答案选择
张 成 1,曲明成 2,倪 宁 3,仇 光 2,卜佳俊 2
(1. 中国残联信息中心,北京 100034;2. 浙江大学计算机科学与技术学院,杭州 310027; 3. 浙江商业职业技术学院信息技术学院,杭州 310053) 摘 要:问答社区中候选答案过多会增加提问用户选择最佳答案的负担。为此,提出一种基于概率潜在语义分析(PLSA)模型的自动答案选 择方法。在主题建模思想的基础上,利用问答社区中的用户资料,以 PLSA 模型表达问答社区中的用户兴趣分布,依据答案和问题之间的 主题匹配度对候选答案进行排序。实验结果表明,该方法可有效挖掘用户兴趣,提高答案选择的准确率。 关键词: 关键词:答案选择;问答社区;概率潜在语义分析;主题建模
Pr(u , q ) = ∑ Pr(q | z ) Pr( z | u ) Pr(u )
z
2
近年来,问答社区逐渐成为互联网数据挖掘领域的研究 热点。文献 [1] 采用分类框架整合问答社区中的各类文本信 息, 研究问答社区中的文本质量预测和用户满意度预测问题。 文献 [2]采用翻译模型学习词语间的语义相似度,并以此寻找 相似问题。文献 [3]研究了问答社区中的用户链接结构,并提 出用 HITS 算法预测用户权威度的方法。本文将研究问答社 区中的答案自动排序选择方法。基于统计的主题建模广泛地 应用于文档集的主题挖掘任务 [4-5]。 文献 [5]采用概率潜在语义 分析 (Probabilistic Latent Semantic Analysis, PLSA)方法,构建 一个中文信息检索框架。文献 [6]采用 PLSA 方法实现问答系 统中的问题推荐功能。 本文将采用 PLSA 方法挖掘用户兴趣, 辅助问答系统中的答案选择。
相关工作
(1)
其中,u∈ u1 , u2 ,… , um 表示问题集合中的用户;q∈ { q1 , q2 , … , qn } 表示问题集中的问题。 然而,在真实的问答社区中,每个用户所回答问题的数
基金项目: 基金项目:国家科技支撑计划基金资助项目(2008BAH26B00) 作者简介: 作者简介:张 成(1970-),男,硕士,主研方向:数据挖掘,语义 分析;曲明成,硕士;倪 宁,副教授;仇 光,博士;卜佳俊, 教授 收稿日期: 收稿日期:2011-02-14 E-mail:bjj@
u
其中, Pr(u)的值为用户 u 所回答的词频总和在所有用户的词 频总和中所占的比例,计算如下:
Pr(u ) = ∑ c(u , w)
w
∑ c(u ', w)
u ', w
(6)
实验准备 本文从 Yahoo! Answers 问答社区中抽取 3 个类别的问题 作为实验数据集,包括天文学 (Astronomy)、温室效应 (Global 哲学 (Philosophy), 并剔除仅包含一个答案的问题。 Warming)、 在数据集中每个问题的最佳答案都已标注。表 1 为数据集的 统计信息。在每个类别中,选取 85%的问题作为 PLSA 模型 的训练数据,剩余 15%作为测试数据。
1
概述
随着互联网的迅猛发展,交互式问答社区已成为信息获 取和知识分享的一个重要平台。然而,随着问答社区参与用 户的日益增多,候选答案数目增长迅速,导致提问用户选择 最佳答案的负担加大。因此,对候选答案的自动排序成为问 答社区的一个迫切需要。本文通过对问答社区用户交互特征 的研究,提出一种基于主题建模思想的答案排序选择方法。
Scoreq ,a = α Pr( a | q) + (1 − α ) Pr(u | q )