基于社交关系与无监督学习的大数据推荐算法

合集下载

基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究

基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究

基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究作者:吕垚向华伟王林何映军来源:《中国科技纵横》2019年第02期摘要:云南电网有限责任公司信息中心(以下简称云南电网公司)拥有多个不同厂商IT 监控系统,由于运维监控数据没有统一的标准和规范,导致监控数据的利用率不高,尤其是各种硬件设备、网络、中间件和数据库等指标数据存在时间序列异常等问题,对监控告警和分析服务造成了很大的影响,通过基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究,实现IT运维监控数据的标准化和规范化,提高了IT运维监控数据的质量,为运维监控数据的关联分析、根因分析和告警提供有力的支撑,从而实现云南电网公司IT端到端的全链路监控能力。

关键词:有监督算法;无监督算法;运维监控;数据治理中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2019)02-0040-020 引言云南电网公司IT运维监控有多个IT监控系统。

但每个系统相对独立,并且数据种类繁多和数据格式不统一,存在网络数据、应用性能数据、机房数据、服务器数据、平台性能数据、数据库性能数据和终端数据等,存在着数据分散、数据量大和数据标准和规范不统一等特点,造成数据共享困难等实际问题,导致运维监控数据的开发利用满足不了运维监控业务的需要。

通过基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究,从数据采集、治理、存储和分析服务四个步骤分析处理监控数据,重点阐述了结合了机器学习算法的数据治理技术和方法,实现了数据质量的提高。

1 机器学习算法本文涉及到的机器学习算法分为有监督学习算法和无监督学习算法,根据运维监控数据的特点,采用One Class SVM算法和Random Forest相结合的方法来处理数据,One Class SVM 算法特点是不需要人工干预,但是可能导致和实际不匹配的结果,Random Forest可以不断标注样本,使得结果更加准确,需要人工干预,所以结合两种算法的优点来实现数据的处理,具体两种算法如下:1.1 One Class SVM算法One Class SVM由SVM算法演化而来,为了正确应用One Class SVM,简单介绍SVM的主要原理:在线性可分条件下直接进行分箱,如果是在线性无法分解的情况,通过非线性关系映射,从低维线性不可分解的样本变为输出空间的高维特征空间,进而达到使其线性可分的目的,最后对高维特征空间采用线性算法,并且对所有样本的非线性特征样本进行线性分析[1]。

多维标签数据无监督学习算法研究与应用

多维标签数据无监督学习算法研究与应用

多维标签数据无监督学习算法研究与应用第一章引言随着社交网络和互联网应用的快速发展,大量的多维标签数据被产生和积累。

这些数据包含了丰富的信息,如用户之间的连接关系、兴趣爱好、所在地区等。

传统的有监督学习算法在处理这些数据时受到了一定的限制,因为需要手动标注大量的训练样本,而且标注的主观性会导致一定的误差。

因此,无监督学习算法成为处理多维标签数据的重要研究方向。

第二章多维标签数据的特点与挑战2.1 多维标签数据的特点多维标签数据具有以下特点:数据量大、维度高、标签不平衡、标签噪音等。

这些特点给多维标签数据的处理带来了很大的挑战。

2.2 多维标签数据的挑战在处理多维标签数据时,我们面临着许多挑战。

首先,数据量大,需要高效的算法来处理海量的标签数据。

其次,维度高,需要降维技术来减少算法的计算复杂度。

此外,由于标签不平衡和标签噪音的存在,算法需要具备一定的鲁棒性和稳定性。

第三章无监督学习算法综述3.1 聚类算法聚类算法是无监督学习中最常用的算法之一,它将相似的数据样本划分到同一个类别中。

在处理多维标签数据时,聚类算法可以将具有相似标签的数据样本聚集在一起,从而发掘数据的潜在结构。

3.2 主题模型主题模型是一种用于挖掘文本数据中潜在主题的无监督学习算法。

在处理多维标签数据时,主题模型可以提取标签之间的关联关系,从而揭示数据的隐藏规律。

3.3 异常检测算法异常检测算法用于发现与大多数样本不同的异常数据。

在处理多维标签数据时,异常检测算法可以识别标签分布异常的数据样本,并对其进行进一步的分析与处理。

第四章多维标签数据无监督学习算法研究4.1 基于密度的聚类算法基于密度的聚类算法是一类基于样本的密度分布来进行聚类的算法。

在处理多维标签数据时,该算法可以根据标签之间的相似度来对数据进行聚类,从而实现数据的有效组织与分析。

4.2 潜在语义分析算法潜在语义分析算法是一种基于矩阵分解的主题模型算法,可以发现数据中的隐藏主题。

社交网络分析中的推荐系统算法研究

社交网络分析中的推荐系统算法研究

社交网络分析中的推荐系统算法研究随着互联网和社交媒体的迅速发展,人们的社交行为也从传统的线下活动转移到了线上社交网络平台。

这些社交网络平台积累了大量的用户信息和社交关系,为用户提供了许多新的交流和社交机会。

然而,随着用户数量的增加,社交网络中信息过载的问题也日益凸显。

这就需要推荐系统的帮助来解决用户在海量信息中获取感兴趣内容的问题。

社交网络分析中的推荐系统是指利用社交网络中的用户行为和社交关系信息来为用户推荐合适的内容和社交伙伴。

研究社交网络分析中的推荐系统算法,可以帮助我们更好地理解用户的兴趣以及社交网络中的群体结构和信息传播规律。

社交网络分析中的推荐系统算法可以分为基于内容的推荐和基于社交关系的推荐两种。

基于内容的推荐算法主要通过分析用户对内容的兴趣和评价来推荐相似的内容给用户。

这类算法可以利用文本挖掘和数据挖掘的技术来分析用户的文本历史记录和评价,从而更好地理解用户的兴趣和需求。

基于内容的推荐算法在社交网络分析中可以帮助用户发现新的有趣内容,并且可以通过提取用户兴趣的关键词或特征来进行个性化推荐。

而基于社交关系的推荐算法则主要通过分析用户在社交网络中的社交关系和交互行为来进行推荐。

这类算法可以通过挖掘用户之间的社交关系,比如好友关系、共同兴趣等来推荐适合用户的内容和社交伙伴。

基于社交关系的推荐算法在社交网络分析中可以帮助用户发现和扩大社交圈子,增强用户与其他用户之间的交流和合作。

除了基于内容和社交关系的推荐算法,还有一种常见的推荐算法是基于混合方法的推荐算法。

这类算法结合了基于内容和社交关系的推荐算法的优点,通过综合考虑用户的兴趣、社交关系和历史行为等信息来进行推荐。

基于混合方法的推荐算法在社交网络分析中可以帮助用户更全面地获取感兴趣的内容和社交伙伴。

在社交网络分析中,推荐系统算法研究的一个重要问题是如何准确地捕捉用户的兴趣和需求。

为了解决这个问题,研究者们提出了许多不同的推荐算法和技术。

无监督学习的使用案例分析(十)

无监督学习的使用案例分析(十)

无监督学习的使用案例分析近年来,无监督学习作为一种重要的机器学习方法,被广泛应用于各种领域。

与监督学习相比,无监督学习不需要标记好的数据作为训练集,因此更适用于一些特殊情况。

在本文中,我们将通过几个实际案例来分析无监督学习的使用。

案例一:社交网络分析社交网络是一个充满着隐含关系和信息的复杂系统,如何从中挖掘出有用的信息一直是一个挑战。

无监督学习中的聚类算法可以帮助我们在社交网络中找到具有相似特征的用户群体,从而进行更精准的推荐、定向广告等工作。

另外,无监督学习中的异常检测算法也可以帮助我们找到在社交网络中具有异常行为的用户,从而及时发现潜在的安全问题。

案例二:医学影像分析在医学影像分析中,无监督学习可以帮助医生从大量的影像数据中挖掘出有用的信息。

例如,通过聚类算法可以将患者的影像数据分成不同的类别,帮助医生更好地理解疾病的发展规律和患者的特征。

另外,异常检测算法也可以帮助医生及时发现一些罕见病变或者异常情况,为诊断和治疗提供更多线索。

案例三:市场营销分析在市场营销领域,无监督学习也有着广泛的应用。

通过对用户行为数据的聚类分析,我们可以发现用户群体之间的不同特征和行为模式,从而更有针对性地进行产品推广和定价策略。

同时,异常检测算法也可以帮助我们及时发现市场中的异常情况,从而有效地保护企业的利益。

通过以上几个案例的分析,我们可以看到无监督学习在各个领域都有着重要的应用价值。

当然,无监督学习也并非没有局限性,例如在数据质量较差或者数据分布不均匀的情况下,无监督学习的效果可能不尽人意。

因此,在实际应用中,我们需要充分考虑数据的特点和问题的需求,选择合适的机器学习方法。

综上所述,无监督学习在社交网络分析、医学影像分析、市场营销分析等领域都有着重要的应用。

随着数据的不断增长和机器学习算法的不断发展,相信无监督学习的应用领域将会更加广泛,为各行各业带来更多的价值。

大数据分析中的社交网络分析算法

大数据分析中的社交网络分析算法

大数据分析中的社交网络分析算法在大数据时代,社交网络分析(Social Network Analysis,SNA)算法在大数据分析中扮演着重要的角色。

社交网络分析算法通过对社交网络中的关系、连接和交互进行挖掘和分析,帮助我们理解个体之间的关系、网络结构以及信息传播等现象。

本文将介绍几种常用的社交网络分析算法,并探讨其在大数据分析中的应用。

一、节点中心性算法节点中心性算法用于衡量社交网络中的节点在整个网络中的重要性程度。

其中比较常用的算法有度中心性、接近中心性、特征向量中心性等。

1. 度中心性算法:度中心性是指节点在网络中的连接数量,即节点的度。

度中心性算法可以通过计算节点的度来衡量节点的重要性,度越高则节点越重要。

在大数据分析中,通过计算整个社交网络中每个节点的度中心性,可以找出网络中最重要的节点。

2. 接近中心性算法:接近中心性是指节点与其他节点之间的距离,距离越近则节点的接近中心性越高。

接近中心性算法可以通过计算节点与其他节点之间的距离来衡量节点的重要性,距离越小则节点越重要。

在大数据分析中,通过计算整个社交网络中每个节点的接近中心性,可以找出网络中最关键的节点。

3. 特征向量中心性算法:特征向量中心性是指节点在网络中的重要性和它在网络中相连节点的重要性之间的关系。

特征向量中心性算法可以通过计算节点和相邻节点之间的关系来衡量节点的重要性。

在大数据分析中,通过计算整个社交网络中每个节点的特征向量中心性,可以找出网络中最核心的节点。

二、连通性算法连通性算法用于研究社交网络中的群组结构和信息传播现象。

其中比较常用的算法有最大连通子图算法、最长路径算法、聚类系数算法等。

1. 最大连通子图算法:最大连通子图是指网络中具有最多节点连通的子图。

最大连通子图算法可以通过在网络中找到具有最多节点的子图来研究网络的连通性。

在大数据分析中,可以通过最大连通子图算法来发现社交网络中具有高度相互关联的节点群组。

2. 最长路径算法:最长路径是指网络中两个节点之间最长的连接路径。

基于无监督学习的模式识别算法

基于无监督学习的模式识别算法

基于无监督学习的模式识别算法无监督学习是机器学习领域中的一种重要方法,它的目标是从未标记的数据中发现隐藏在数据背后的模式和结构。

相比于有监督学习,无监督学习不需要事先标记好的数据集,因此更加灵活和适用于更多实际应用场景。

在模式识别领域,基于无监督学习的算法在发现数据中隐藏模式和结构方面具有重要意义。

一种常见的基于无监督学习的模式识别算法是聚类。

聚类算法旨在将相似样本归为一类,不同类之间具有较大差异。

聚类算法可以应用于各种领域,比如图像分割、文本分类、社交网络分析等。

其中最常见且广泛应用的聚类算法是K-means算法。

K-means算法是一种迭代优化方法,它通过最小化样本与其所属簇中心之间距离之和来确定簇中心位置。

具体而言,在K-means算法中,首先随机选择K个样本作为初始簇中心;然后将每个样本分配到离其最近簇中心的簇中;接着更新簇中心为所属簇内所有样本的平均值;最后重复以上两个步骤直到收敛。

K-means算法的时间复杂度为O(tKn),其中t为迭代次数,K为簇的个数,n为样本个数。

虽然K-means算法在实际应用中表现出良好的性能,但它有一些缺点,比如对初始簇中心敏感、收敛到局部最优解等。

除了K-means算法外,还有一些其他聚类算法被广泛应用于无监督模式识别任务。

比如层次聚类算法(Hierarchical Clustering)将样本逐步合并或分割形成层次结构;密度聚类算法(Density-Based Clustering)通过样本密度来确定簇边界;谱聚类算法(Spectral Clustering)通过图论方法将数据转化成图结构进行聚类。

除了聚类,无监督学习还可以应用于降维和异常检测等任务。

降维是将高维数据映射到低维空间以减少特征数量和减小计算复杂度的过程。

主成分分析(Principal Component Analysis, PCA)是一种常用的无监督降维算法,它通过线性变换将原始数据映射到低维空间,使得映射后的数据具有最大的方差。

无监督学习的主要算法(五)

无监督学习的主要算法一、介绍无监督学习是机器学习的一种重要方法,它主要用来处理没有标签的数据。

与监督学习不同,无监督学习不需要输入输出对应的训练数据,而是通过对数据的内在结构和特征进行学习和发现。

在无监督学习中,主要有聚类、降维和关联规则挖掘等任务。

本文将介绍无监督学习的主要算法,包括k均值聚类、自组织映射、主成分分析和Apriori算法。

二、k均值聚类k均值聚类是一种常见的聚类算法,它的目标是将数据集划分成k个不相交的子集,使得每个数据点都属于与其最近的均值所对应的子集。

这个算法的基本思想是通过不断迭代更新簇的均值,直到收敛为止。

k均值聚类的优点是简单、容易理解和实现,适用于大规模数据集。

然而,它也有一些缺点,比如对初始值敏感,对异常值敏感,以及需要事先确定簇的个数。

三、自组织映射自组织映射是一种用于降维和可视化高维数据的无监督学习算法。

它的基本思想是在输入空间中找到一个低维网格,使得输入数据点在这个网格上能够形成拓扑结构。

自组织映射的优点是能够保持数据的局部性和拓扑结构,适用于高维数据的可视化和分析。

然而,它也有一些缺点,比如对参数的敏感性,需要事先确定网格的大小和形状,以及对初始权重的敏感性。

四、主成分分析主成分分析是一种常见的降维算法,它的目标是通过线性变换将高维数据映射到低维空间,使得映射后的数据具有最大的方差。

主成分分析的基本思想是找到一组正交基,使得数据在这组基上的投影具有最大的方差。

主成分分析的优点是能够保持数据的信息量和结构,适用于数据的降维和特征提取。

然而,它也有一些缺点,比如对线性关系的假设,对异常点和噪声的敏感性,以及对非线性结构的处理能力。

五、Apriori算法Apriori算法是一种用于挖掘关联规则的无监督学习算法。

它的基本思想是通过迭代搜索频繁项集,然后生成关联规则,并根据支持度和置信度进行筛选。

Apriori算法的优点是能够发现数据中的潜在关联和规律,适用于市场分析和推荐系统。

社交网络中的影响力评估与推荐算法

社交网络中的影响力评估与推荐算法引言:社交网络在当今数字时代中具有巨大的影响力和作用。

人们可以通过社交网络平台与朋友、家人和同事保持联系,获取信息和分享资源。

然而,随着社交网络的快速发展,用户面临着过多信息和信息过载的问题。

因此,社交网络平台需要评估用户的影响力,并利用推荐算法为用户提供个性化的内容,使得社交网络能够更好地满足用户的需求。

一、社交网络中的影响力评估社交网络中的影响力评估是通过分析用户在社交网络中的活动、交互和内容来衡量用户的影响力大小。

以下是几种常用的影响力评估指标和方法。

1. 节点度中心性节点度中心性是指一个用户在社交网络中被其他用户连接的频率或度数。

节点度中心性高的用户往往代表着在社交网络中有更广泛的影响力和更多的社交联系。

2. PageRank算法PageRank算法最初用于评估网页的重要性,现在也被应用于社交网络中。

该算法通过分析用户节点之间的连接关系,将高度连接的节点评估为更具影响力的节点。

PageRank算法可以衡量用户在社交网络中的影响力和重要性。

3. 社群检测算法社群检测算法能够识别社交网络中具有相似兴趣和行为的用户群体。

对于一个社交网络平台来说,社群检测算法可以帮助识别潜在的领域专家和影响力用户,进而促进内容的分享和传播。

4. 用户活跃度评估用户活跃度评估是通过分析用户在社交网络中的活动频率和交互行为,来评估用户的活跃度和社交网络的影响力。

用户活跃度评估指标包括发布内容的频率、与其他用户的互动和参与度等。

以上方法和指标可以组合使用,以综合评估用户在社交网络中的影响力和重要性。

二、社交网络中的推荐算法社交网络中的推荐算法旨在为用户提供个性化的内容和推荐。

1. 基于用户的协同过滤算法基于用户的协同过滤算法通过分析用户的历史行为和偏好,找到具有相似兴趣的其他用户,进而推荐这些用户喜欢的内容。

该算法可以帮助用户发现更多的有趣和相关的内容。

2. 基于内容的推荐算法基于内容的推荐算法主要通过分析用户的行为和偏好,并结合内容特征,为用户推荐与其兴趣相关的内容。

大数据中的无监督学习方法研究

大数据中的无监督学习方法研究大数据通常涉及处理大量的数据,这些数据通常是多维度和高维度的。

传统的机器学习方法在处理大数据时可能会遇到计算和存储的限制。

因此,无监督学习方法的研究对于有效地处理大数据变得至关重要。

无监督学习方法的一个重要应用是聚类分析。

聚类分析的目标是将相似的对象分组到同一聚类中,不同的聚类之间具有明显的差异。

聚类分析可以用于数据挖掘、图像处理、社交网络分析等领域。

谱聚类是一种常用的聚类方法,它将数据看作是一个图的节点,节点之间的相似性由边的权重表示。

谱聚类通过计算数据的特征向量和特征值,将数据对象划分为不同的聚类。

谱聚类的优点是可以处理非线性的数据关系,并且适用于多维度和高维度的数据。

另一种无监督学习方法是关联规则挖掘。

关联规则挖掘的目标是从大规模数据集中发现项集之间的相关性。

关联规则可以用于市场篮子分析、推荐系统等领域。

Apriori算法是一种常用的关联规则挖掘算法,它通过挖掘频繁项集来发现关联规则。

除了聚类分析和关联规则挖掘,无监督学习还包括降维、异常检测、图分析等方法。

降维是用于将高维数据映射到低维空间的一种方法,可以用于可视化和特征选择。

异常检测是识别数据中与正常模式不一致的对象,可以用于安全监测和欺诈检测。

图分析是一种用于分析网络数据的方法,可以用于社交网络分析和推荐系统。

为了克服这些挑战,研究人员正在继续改进和发展无监督学习方法。

一些研究方向包括开发更高效的算法来处理大数据、设计更准确的评估指标来评估无监督学习算法的性能,以及利用深度学习和神经网络等新技术来改善无监督学习方法的效果。

综上所述,无监督学习方法在大数据分析中具有重要的研究意义。

聚类分析、关联规则挖掘、降维、异常检测和图分析等方法为从大数据中发现模式、结构和关系提供了有效的工具。

然而,无监督学习方法仍然面临一些挑战,需要进一步的研究和改进。

数据分析知识:数据挖掘中的监督学习和无监督学习

数据分析知识:数据挖掘中的监督学习和无监督学习在数据分析领域,数据挖掘技术被广泛运用于从数据中挖掘出有意义的信息和规律,以帮助企业和个人做出更明智的决策。

而数据挖掘主要分为监督学习和无监督学习两种方式。

本文将详细介绍这两种学习方式的概念、算法、应用场景和优缺点。

一、监督学习监督学习是指基于已知结果的数据样本,通过建立一个映射函数,将输入数据映射到输出结果,从而实现对未知数据进行预测或分类的过程。

在监督学习中,我们通常将输入数据称为自变量,输出结果称为因变量。

监督学习的核心是建立一个有效的模型,这个模型需要能够对未知数据进行良好的预测或分类。

目前常用的监督学习算法包括决策树、神经网络、支持向量机、朴素贝叶斯分类和随机森林等。

1.决策树算法决策树算法是一种基于树型结构的分类算法,它通过对数据样本的分类特征进行判断和划分,最终生成一棵树形结构,用于对未知数据进行分类或预测。

决策树算法具有易于理解、易于实现和可解释性强等优点,适合于处理中小规模的数据集。

2.神经网络算法神经网络算法是一种基于人工神经网络的分类算法,它通过多层神经元之间的相互连接和权重调整,学习输入数据和输出结果之间的复杂非线性关系,从而实现对未知数据的分类或预测。

神经网络算法具有适应性强、泛化能力好等优点,但也存在学习速度慢、容易陷入局部最优等缺点。

3.支持向量机算法支持向量机算法是一种基于核函数的分类算法,它通过定义一个最优超平面,将不同类别的数据样本分隔开来,从而实现对未知数据的分类或预测。

支持向量机算法具有泛化性能强、对于样本噪声和非线性问题具有较好的处理能力等优点,但也存在计算量大、核函数选择过程较为困难等缺点。

4.朴素贝叶斯分类算法朴素贝叶斯分类算法是一种基于概率统计的分类算法,它通过统计样本数据中各个特征值出现的概率,并根据贝叶斯公式计算出对于给定数据属于每个类别的概率,从而实现对未知数据的分类或预测。

朴素贝叶斯分类算法具有计算速度快、对于高维数据具有处理优势等优点,但也存在对于样本分布不平衡和假设独立性等问题的限制。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Vol. 36 No. 5May 2019第36卷第5期2019年5月计算机应用与软件Computer Applications and Software基于社交关系与无监督学习的大数据推荐算法李淑霞I 杨俊成"蔡增玉2'(河南工业职业技术学院电子信息工程学院 河南南阳473000)气郑州轻工业学院计算机与通信工程学院 河南郑州450002)摘要 针对大数据推荐系统中推荐准确率与效率较低的问题,设计一种基于社交关系与多上下文因素的大数据推荐系统。

基于活动用户的社交网络,构建一个社交关系的张量模型;通过张量分解获得用户的上下文因 素;基于候选集的相似性产生一个推荐列表。

基于用户的反馈预测社交关系的范围,有效地减少推荐系统的计算量。

真实数据集的实验结果证明,该算法提高了推荐系统的推荐精度,有效地缓解了稀疏性问题与冷启动问题,并且实现了较快的响应时间。

关键词 社交网络大数据推荐系统稀疏性问题冷启动问题灰羊问题中图分类号 TP391 文献标识码 A DOI : 10. 3969/j. issn. 1000-386x. 2019.05.051BIG DATA RECOMMENDATION ALGORITHM BASED ON SOCIALRELATIONSHIP AND UNSUPERVISED LEARNINGLi Shuxia 1 Yang Juncheng 1 * Cai Zengyu"1 ( College of Electronics and Information Engineering , Henan Polytechnic Institute , Nanyang 473000, Henan, China)2 ( School of Computer and Communication , Zhengzhou University of Light Industry , Zhengzhou 450002 , Henan , China )Abstract To address the problem of the low accuracy and efficiency in big data recommendation systems , weproposed a big data recommendation system based on social relationship and multi-context factors. A tensor model of social relationship was constructed based on the social network of the active user. We obtained the contextual factors bytensor factorization. A recommendation list was generated based on the similarity of the candidate sets. The range of social relationship was predicted based on the feedback of users , so that the computational complexity of recommendationsystem was reduced effectively. Experimental results on the real dataset show that the proposed algorithm improves the accuracy of recommendation systems , effectively alleviates the sparsity and cold start problems , and achieves a fasterresponse time.Keywords Social network Big data Recommendation system Sparsity problem Cold start problem Grey sheepproblemo 引言私人定制化的推荐系统已经成为了各大商业网站的必备系统,能够有效地提高用户获取目标信息的效 率,并且改善用户的浏览体验⑴。

推荐系统的推荐精 度与响应时间均为关键指标,目前的大型商业网站中项目与用户的数据量十分庞大,使得推荐系统的推荐精度与响应时间成为了一个挑战⑵O基于协同过滤的推荐算法CF( Collaborative Filte-ring)是诸多推荐算法中最为普及的一个,然而对于用户数量不足以及用户评分不足的情况,存在严重的冷 启动问题与稀疏性问题卩虫。

CRSC ⑸技术对CF 进行 了改进,解决了推荐系统的稀疏性问题。

其主要思想收稿日期:2018-10-19o 全国高等院校计算机基础教育研究会纵向课题(2016GHB02003);河南工业职业技术学院青年骨干 教师培养计划。

李淑霞,讲师,主研领域:智能规划与规划识别,移动互联网,杨俊成.副教授。

蔡增玉,副教授。

第5期李淑霞等:基于社交关系与无监督学习的大数据推荐算法305是对相似上下文的用户偏好进行分类,从而解决推荐 系统的冷启动问题与稀疏性问题。

矩阵分解⑷是一种 实现隐语义模型(Latent Factor Model )的方案,通过矩阵分解模型实现用户对项目的评分。

CMFCAR ⑺是一种基于卷积矩阵分解的推荐系统,该系统通过卷积矩 阵分解技术保留了项目与用户的细节信息,并且有效地实现了数据降维处理,对推荐系统的推荐精度与计 算效率均做出了较大的改进。

许多研究人员成功地将张量分解技术应用于推荐系统中,当前的方案主要为用户的上下文建立张量模型,通过上下文信息解决推荐的稀疏性问题与冷启动问题,从而提高推荐精度与鲁棒性。

RBCDR ⑻是近期一种交叉域的推荐系统,该 系统将附属结构域的知识融入目标域,该研究中已经 证明其有效性。

rcatf 〔9〕算法对时间上下文与位置上下文建立了张量模型,并借助时间上下文的知识对位 置进行推荐。

该算法实现了较高的推荐准确率,但是 其中包括了时间上下文的学习算法,需要学习所有的用户信息,导致时间效率较低,无法实现实时的推送服务。

当前基于张量的推荐系统均将用户的上下文建模 为张量模型,这些方案在一定程度上缓解了推荐系统的冷启动与稀疏性问题,也有效地提高了推荐的精度 与鲁棒性,但是也表现岀了性能的瓶颈['°-,,]o 为了解 决上述问题,本文引入了用户的社交关系,将社交网络 引入张量中,本推荐系统考虑了 5个因素,分别为:用户、项目、时间上下文、空间上下文与社交关系。

本文 的贡献主要有以下两点:设计了社交关系的张量模型,实时地完成张量的再生与分解;推荐系统支持多上下 文环境的推荐。

1动机与研究意义本系统考虑了丰富的上下文环境,不仅能够缓解稀疏性问题与冷启动问题,而且能够提高系统的推荐 准确率。

以常用的电影场景为例:电影为项目,电影观众为用户,考虑时间上下文与空间上下文。

考虑一个 电影场景的简单实例,如图1所示。

、_________—______—、 “(彫院),(周末晚上) i 家),(工作百龜丄亍(影院),(周末下午)(家),(周末晚上)I .周末険上,家,〈罗马假日》,小丽I .周末下午,够院,〈泰坦尼克号〉,小丽I,工作日晚上,家.〈哈利波特〉.无 L 周末晚上,家,(大话西游〉,无------»I .周末晚上,家,〈东邪西毒〉,小刚 I,工作日規上,家,〈超人〉,小刚图1 一个电影场景的简单实例根据小明、小刚与小丽的历史记录,小明有4个时间与空间域的上下文。

从图1可发现三个依赖关系, 如下所示:(1) 小明晚上独自在家,偏爱在家看电影。

(2) 小明与小丽看电影,偏爱去电影院看爱情类电影。

(3) 小明与小刚看电影,偏爱在家看动作类电影。

从上述三个依赖关系可看出,用户的社交关系与 时间、空间上下文之间存在互相依赖的情况,为了分析与利用社交关系与上下文之间的依赖关系,首先需要解决以下三个问题:(1)如何将社交关系与张量模型 关联;(2)如何通过引入社交关系解决推荐系统的稀疏性问题与冷启动问题;(3)如何设置合适的数据结构,提高推荐的性能。

2格式说明为了将张量应用于社交关系的分析中,提出了一个关于社交关系-张量的模型。

首先,为社交关系-张量的模型提岀一些定义。

2.1定义本文的张量模型考虑了上下文信息与社交关系。

定义1(张量)给定/个用户,•/个项目、K 个 上下文,组成一个三阶张量八张量的值为仏"*,张量丁表示第i 个用户在第%个上下文对第j 个项目的评分。

其他基于张量的推荐系统中,大多数通过一个总A张量T 计算出一个近似张量这会引起稀疏性问题与冷启动问题。

为了避免上述的稀疏性问题与冷启动问题,本文的张量模型中不包含项目,原因在于项目的 数量较大,增加了近似张量的计算难度。

但模型中增 加了与活动用户具有社交关系的一部分用户,通过网络的社交关系减少张量模型的用户数量,该方案大幅度缩小了社交张量S 的大小。

为了简化分析,考虑一个单一上下文的简单案例, 社交网络中仅有一个活动用户,以及该活动用户相关的社交网络。

图2是社交张量生成与分解的示意图。

活动用户u,存在两种情况:一种是u,已经存在于系统 中,另一种是为新用户。

活动用户表示为张量的一个灰色立方体与灰色圆形,新用户表示为虚线立方体与黑色圆形。

306计算机应用与软件2019年图2社交关系张量的产生与分解为了将社交关系引入张量模型中,基于社交网络G建立两个网络图G;与G'”。

图G构建一个社交张量,基于社交“亲和力”生成G'a0给定用户吗与勺,使用方法I⑵计算两者的社交“亲和力”(亀e[0, 1])。

在图1的例子中,亲和力表示两个用户一起观看电影时两人之间的相互影响,亲和力的条件为4“+ 4,,=1。

图2中图G的灰色箭头表示亲和力,如果箭头是无向箭头,那么说明两个用户亲和力相等(即4,2=4+2.,=0.5)。

亲和力可替换为其他的社交关系,例如:信任关系或者社交连接。

初始化社交张量模型之后,通过传播技术基于图G生成最终的完全图G'”,解决张量分解的稀疏性问题。

在构建社交张量的过程中,首先初始化模型设为一个活动用户的图G与一个距离。

距离“跳”表示两个用户u,与幻之间最短路径的边数量,表示为砧八其作用是调节社交网络的范围,使其匹配一个张量结构。

在图2的例子中,图G表示一个社交网络,由一个活动用户",及其两跳距离的社交网络组成。

相关文档
最新文档