基于大数据挖掘的虚拟身份关联分析算法模型的制作方法

合集下载

大数据分析师如何进行数据挖掘和关联分析

大数据分析师如何进行数据挖掘和关联分析

大数据分析师如何进行数据挖掘和关联分析一. 数据挖掘的概念和流程数据挖掘是通过运用统计分析、机器学习和模式识别等技术,从大量的数据中发现有用的模式、规律和知识。

数据挖掘的过程通常包括数据收集、数据预处理、特征选择、模型构建、模型评估和模型应用等步骤。

1. 数据收集数据挖掘的第一步是收集相关的数据。

数据可以来自各种来源,如数据库、文本文件、传感器、社交媒体等。

大数据分析师需要了解业务需求,确定需要收集的数据类型和来源,并采用合适的方法获取数据。

2. 数据预处理数据预处理是数据挖掘中非常重要的一步,它包括数据清洗、数据集成、数据转换和数据规约。

数据清洗是指去除数据中的噪声和异常值,确保数据的质量和准确性。

数据集成是将多个数据源的数据整合到一起,方便后续分析。

数据转换是对数据进行规范化和变换,以适应挖掘算法的需要。

数据规约是对数据进行简化和压缩,减少数据存储和计算的开销。

3. 特征选择特征选择是从大量的特征中选择出最具有代表性和区分性的特征。

通过特征选择可以减少数据维度,提高模型的训练和预测效率。

大数据分析师需要运用统计方法、信息论和机器学习等技术,对特征进行评估和选择。

4. 模型构建模型构建是数据挖掘的核心步骤,它根据业务需求选择合适的挖掘算法和模型。

常用的挖掘算法包括关联规则挖掘、分类和回归分析、聚类分析和时序分析等。

大数据分析师需要根据业务场景和数据特点选择合适的算法,并对模型进行建立和调优。

5. 模型评估模型评估是对挖掘模型进行性能评估和验证。

通过评估可以判断模型的准确性、稳定性和可信度。

评估方法包括交叉验证、混淆矩阵、ROC曲线等。

大数据分析师需要对模型进行评估,识别潜在的问题和改善的方向。

6. 模型应用模型应用是将挖掘模型应用到实际业务中,为决策提供支持和指导。

大数据分析师需要将挖掘结果进行解释和可视化,以便业务人员理解和接受,并根据反馈信息对模型进行迭代和优化。

二. 关联分析的方法和应用关联分析是一种常见的数据挖掘方法,它用于发现数据中的相关性和依赖关系。

数据分析模型建立方法详解

数据分析模型建立方法详解

数据分析模型建立方法详解数据分析模型是指为了解决特定问题而建立的数学模型,通过对已有数据的分析和处理,可以找出其中的规律、趋势和关联,从而对未来的情况进行预测和决策支持。

数据分析模型的建立是数据分析的重要环节,以下将详细介绍数据分析模型的建立方法。

1.确定建模目标:首先要明确数据分析的目标是什么,是预测销售额、识别异常行为还是优化生产流程等。

明确建模目标有助于明确需要收集和处理的数据类型,以及建立何种数学模型。

2.收集和整理数据:收集所需数据,并对数据进行整理和清洗。

数据的质量直接影响到模型的准确性,因此需要排除数据中的噪声、缺失值和异常值,同时对数据进行归一化或标准化处理等。

3.数据探索性分析:通过数据的可视化和统计分析方法,对数据进行探索,找出数据之间的关联和规律。

可以使用统计图表、频率分布、相关性分析等方法进行数据探索性分析。

4.选择适当的模型:根据建模目标和数据的特点,选择适当的模型进行建模。

常见的数据分析模型包括回归分析模型、分类模型、聚类模型、关联分析模型等。

5.数据建模和参数估计:利用已有的数据对所选模型进行建模,并进行参数估计。

建模过程需要选择合适的算法和技术来推断模型的参数,并使用训练数据进行模型拟合。

6.验证模型:通过验证模型的准确性和鲁棒性来评估模型的质量。

可以使用交叉验证、留置法等方法对模型进行验证。

如果模型的预测结果与实际结果相符,则说明模型的准确性较高。

7.应用模型:将建立好的模型应用于实际问题之中,并进行实际数据的预测和决策支持。

通过应用模型来辅助决策,可以提高决策的效率和准确性。

8.模型优化和改进:根据实际应用中的反馈和调整需求,对模型进行优化和改进。

优化模型的目标是提高模型的准确性、鲁棒性和效率,可以通过调整参数、改进算法等方法来优化模型。

在实际应用中,常常需要反复迭代上述建模过程,以不断完善模型的准确性和适应性。

数据分析模型的建立是一个动态的过程,需要不断地根据实际需要和数据情况进行调整和优化,才能得到应用价值较高的模型。

大数据分析中的关联规则挖掘和预测模型建立方法探讨

大数据分析中的关联规则挖掘和预测模型建立方法探讨

大数据分析中的关联规则挖掘和预测模型建立方法探讨随着互联网的迅猛发展和大数据技术的不断成熟,大数据分析已经成为许多企业和组织日常运营的重要工具。

在大数据分析的过程中,关联规则挖掘和预测模型的建立是关键步骤。

本文将探讨大数据分析中关联规则挖掘和预测模型的建立方法。

一、关联规则挖掘方法关联规则挖掘是大数据分析中常用的方法之一,主要用于发现数据集中的关联关系和特征。

在关联规则挖掘中,通常采用Apriori算法和FP-growth算法。

Apriori算法是一种经典的关联规则挖掘算法。

该算法首先构建候选项集,然后通过扫描数据集计算支持度,进而生成频繁项集。

最后,根据频繁项集生成关联规则。

Apriori算法的优点是简单易懂,但在处理大规模数据时效率较低。

FP-growth算法是一种基于频繁模式树(FP-tree)结构的关联规则挖掘算法。

该算法首先构建FP-tree,然后通过递归分支和条件模式基来生成频繁项集。

最后,根据频繁项集生成关联规则。

FP-growth算法相较于Apriori算法具有更高的效率,特别适用于大规模数据集的关联规则挖掘。

二、预测模型建立方法在大数据分析中,预测模型的建立是实现数据驱动决策的重要手段。

常见的预测模型包括回归模型、分类模型和聚类模型。

回归模型是一种用于预测连续型因变量的模型。

通过建立自变量与因变量之间的关系,可以用回归模型对未知的连续型数据进行预测。

常见的回归模型有线性回归、逻辑回归和多项式回归等。

选用合适的回归模型需根据具体的数据特征和预测目标。

分类模型是一种用于预测离散型因变量的模型。

通过建立自变量与离散型因变量之间的关系,可以用分类模型对未知的离散型数据进行预测。

常见的分类模型有决策树、朴素贝叶斯和支持向量机等。

分类模型的选择需要考虑数据类型和特征之间的关系。

聚类模型是一种用于将数据集分成相似组的模型。

聚类模型旨在寻找数据集中的内在结构和模式。

常见的聚类模型有K-means、DBSCAN和层次聚类等。

大数据分析的模型构建

大数据分析的模型构建

大数据分析的模型构建随着大数据时代的到来,越来越多的企业开始关注和利用大数据分析来提高业务决策的准确性和效率。

而构建适合大数据分析的模型成为大数据分析的核心任务之一、本文将从以下几个方面介绍大数据分析的模型构建。

首先,大数据分析的模型构建需要有合理的数据集。

在大数据分析中,数据作为模型构建的基础,其质量和完整性对模型的准确性有着重要影响。

因此,模型构建前需要进行数据收集和预处理。

数据收集可以通过数据仓库、数据湖等手段来获取,同时需要对数据进行清洗、去重、缺失值处理等预处理操作,确保数据的高质量。

其次,大数据分析的模型构建需要选择合适的模型算法。

根据不同的业务需求和数据特征,选择适合的模型算法是模型构建的核心。

大数据分析中常用的模型算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机、聚类分析等。

在选择模型算法时,需要考虑模型的性能表现、计算复杂度、适用场景等因素,以选取最合适的算法。

然后,大数据分析的模型构建需要进行特征工程。

特征工程是指对原始数据进行处理,提取出适合模型算法处理的特征。

在大数据分析中,可以使用特征选择、特征编码、特征正则化等手段对原始数据进行特征工程。

通过合理的特征工程,可以提高模型的准确性和泛化能力。

另外,大数据分析的模型构建需要进行模型训练和优化。

在模型训练过程中,需要将数据集划分为训练集和验证集,利用训练集对模型进行训练,然后使用验证集来评估模型的性能表现。

在模型训练过程中,可以使用交叉验证、网格等技术来寻找最优模型参数。

此外,还可以通过集成学习、模型融合等技术来进一步提高模型的准确性。

最后,大数据分析的模型构建需要进行模型评估和部署。

在模型评估阶段,需要使用测试数据集来评估模型的性能指标,如准确率、召回率、F1值等。

通过模型评估可以了解模型的优缺点,从而对模型进行进一步优化。

在模型部署阶段,可以将模型应用于实际业务场景中,来支持决策和预测。

综上所述,大数据分析的模型构建是大数据分析的重要环节。

大数据 分析大数据 大数据分析模型构建

大数据 分析大数据 大数据分析模型构建

大数据分析大数据大数据分析模型构建在当今数字化的时代,数据如同潮水般涌来,而大数据更是其中的洪流。

大数据不仅规模庞大,而且种类繁多、变化迅速。

对于企业和组织来说,如何从这海量的数据中挖掘出有价值的信息,成为了至关重要的问题。

这就需要我们深入理解大数据,掌握分析大数据的方法,并构建有效的大数据分析模型。

大数据,简单来说,就是那些规模极其巨大、复杂到传统数据处理软件无法在合理时间内进行捕捉、管理和处理的数据集合。

它的特点包括数据量大、数据类型多样、处理速度快以及价值密度低。

比如,我们日常在互联网上的各种活动,如购物、浏览网页、社交媒体互动等,都会产生大量的数据。

这些数据涵盖了文本、图像、音频、视频等多种类型。

那么,为什么要分析大数据呢?首先,大数据分析可以帮助企业更好地了解消费者的需求和行为。

通过对消费者的购买历史、浏览记录、评价等数据的分析,企业能够精准地把握市场趋势,推出更符合消费者需求的产品和服务。

其次,大数据分析有助于优化业务流程。

通过对企业内部运营数据的分析,可以发现流程中的瓶颈和问题,从而提高效率、降低成本。

再者,大数据分析能够为决策提供支持。

基于全面、准确的数据进行分析,能够减少决策的盲目性,提高决策的科学性和准确性。

接下来,让我们探讨一下大数据分析的方法。

常见的大数据分析方法包括数据挖掘、机器学习、统计分析等。

数据挖掘是从大量的数据中发现潜在的模式和关系。

它就像是在一座巨大的矿山中寻找珍贵的矿石,通过各种算法和技术,挖掘出隐藏在数据深处的有价值信息。

例如,关联规则挖掘可以发现不同商品之间的购买关联,从而为商家进行商品推荐提供依据。

机器学习则是让计算机通过数据自动学习和改进。

它可以对未来的情况进行预测,比如预测股票价格的走势、销售的趋势等。

常见的机器学习算法有决策树、神经网络、支持向量机等。

统计分析则是运用统计学的方法对数据进行描述、推断和预测。

通过均值、方差、标准差等统计量来描述数据的特征,通过假设检验、回归分析等来推断变量之间的关系。

如何构建一个有效的数据挖掘模型

如何构建一个有效的数据挖掘模型

如何构建一个有效的数据挖掘模型数据挖掘是一种用于发现数据中潜在模式和关联的方法,它能够帮助我们从大量数据中提取有价值的信息。

构建一个有效的数据挖掘模型是保证数据挖掘任务成功的关键步骤之一。

本文将介绍一些构建有效数据挖掘模型的方法和步骤。

一、明确问题和目标在构建数据挖掘模型之前,首先需要明确问题和目标。

明确问题可以帮助我们选择合适的数据和变量,并避免陷入无效的分析。

确定目标可以帮助我们选择合适的算法和评估模型的好坏。

二、数据预处理数据预处理是构建数据挖掘模型的重要步骤。

它包括数据清洗、特征选择和特征变换等操作。

1. 数据清洗:数据中常常存在缺失值、异常值和噪声等问题。

针对这些问题,我们需要进行数据清洗。

常用的方法包括删除含有缺失值的数据、用均值或中位数填充缺失值、删除异常值等。

2. 特征选择:特征选择是挑选出对目标变量有预测能力的特征的过程。

通过选择合适的特征,可以减少数据集的维度,并提高模型的性能。

常用的特征选择方法有相关系数分析、卡方检验和信息增益等。

3. 特征变换:特征变换是将原始数据转换成一组新的特征。

常用的特征变换方法有主成分分析(PCA)、独热编码和标准化等。

特征变换可以帮助我们提取数据中的相关信息,并减少数据的冗余。

三、选择合适的挖掘算法选择合适的挖掘算法是构建有效数据挖掘模型的关键。

不同的问题和数据类型需要选择不同的算法。

1. 分类算法:分类是数据挖掘中常见的任务之一。

常用的分类算法包括决策树、朴素贝叶斯、支持向量机(SVM)和逻辑回归等。

根据数据的特点和目标,选择合适的分类算法进行建模。

2. 聚类算法:聚类是将数据集中的对象分成多个组或簇的过程。

常用的聚类算法包括K均值、层次聚类和DBSCAN等。

选择合适的聚类算法可以帮助我们发现数据中的隐藏模式和分组。

3. 关联规则算法:关联规则用于发现数据中的关联关系。

常用的关联规则算法包括Apriori和FP-growth等。

关联规则可以帮助我们发现数据中的频繁项集和关联规律。

基于关联规则数据挖掘算法的研究共3篇

基于关联规则数据挖掘算法的研究共3篇

基于关联规则数据挖掘算法的研究共3篇基于关联规则数据挖掘算法的研究1基于关联规则数据挖掘算法的研究随着信息时代的快速发展和数据储存技术的不断提升,数据挖掘变得越来越重要。

它能够从大量的数据中找到内在的模式和规律,有助于人们更好地理解数据背后的本质。

关联规则是数据挖掘中最常用的方法之一,它能够发现数据集中项之间的关系,即根据一些已知的事件或属性,推断出一些新的事件或属性。

本文将着重讲述基于关联规则数据挖掘算法的研究。

一、基本概念关联规则是数据挖掘中研究项之间关联关系的方法,它描述了一种频繁出现的事物之间的关系。

举个例子,如果超市销售数据中每位购买了尿布的顾客都会购买啤酒,那么这两个项(尿布和啤酒)之间就存在关联关系。

关联规则有两个部分:前项和后项。

前项是指已知的、出现频率高的事件或属性,后项是根据前项推断出的可能相关的事件或属性。

关联规则还包括支持度和置信度两个指标。

支持度是指所有包含前项和后项的交易占总交易数的比例,而置信度是指含有前项和后项同时出现的交易占包含前项的交易的比例。

二、关联规则算法1、Apriori算法Apriori算法是发现频繁项集的一种方法。

它的工作流程是先从单项集开始,不断推算出更高维度的项集,再检查每个项集的支持度。

如果支持度高于预设的最小值,那么这个项集就被认为是频繁项集。

Apriori算法的优点是简单高效,但是它的缺点是在大规模数据中存在较高的时间和空间复杂度。

2、FP-Growth算法FP-Growth算法同样用于发现频繁项集,它的工作流程是构建一棵FP树,然后根据FP树的特性,进行递归寻找频繁项集。

相比Apriori算法,FP-Growth的优势在于减少了I/O开销,适应于分布式环境。

三、应用实例关联规则算法在现实中的应用十分广泛。

比如,在电子商务平台中,我们可以根据用户购买历史,对商品进行关联分析,根据用户购买A商品的同时购买B商品的规律,来推荐B商品给用户。

在医学领域,我们可以根据患者的病历和病情,进行关联挖掘,找到不同病例之间的共同点,为医生提供辅助诊断。

基于大数据的人物关系网络分析技术研究

基于大数据的人物关系网络分析技术研究

基于大数据的人物关系网络分析技术研究随着科技的不断进步和社会的不断发展,数据也在以前所未有的速度增长着。

在这个以数据为核心的时代,大数据已经彻底颠覆了人们对于传统的数据处理方式的认识,成为了未来发展的先导。

其中,基于大数据的人物关系网络分析技术是当前非常热门和前沿的领域。

本文将探讨基于大数据的人物关系网络分析技术的原理、应用及其未来的发展趋势。

一、基于大数据的人物关系网络分析技术的原理基于大数据的人物关系网络分析技术通常采用社会网络分析的方法,利用大数据技术和数学模型,将人物和他们之间的关系抽象成一个图,然后对这个图进行分析。

图将人物之间的关系表示为边,而人物本身则表示为节点。

在这个图上,可以使用统计模型来描述每个人物的中心度、影响度等特征,或者对整个网络进行建模,以提取网络的结构和所有人物之间的关系模式。

这就要求我们需要一个非常庞大的数据集,收集尽可能多的有关人物之间互动关系的数据。

这些数据包括社交网络、通讯记录、邮件、论坛帖子、微博评论等等。

通过技术手段,制作出人物之间互动关系的图形化表达形式,从而深入了解各个个体之间的关系、联系和互动模式。

二、基于大数据的人物关系网络分析技术的应用目前,基于大数据的人物关系网络分析技术在很多领域中得到了广泛的应用,其中最重要的应用之一是社交网络分析。

社交网络分析是该技术的一个应用方向,可以帮助人们深入地了解社交网络中各个个体的关系以及他们的动态变化。

社交网络分析可以应用于推荐引擎的开发和计算广告领域,为用户提供个性化的和目标明确的服务。

此外,基于大数据的人物关系网络分析技术也可以在金融管理、社会学、心理学、医疗保健等领域得到应用。

在金融管理领域,它可以应用于人际关系的风险控制与分析,从而规避人际关系风险和维护投资者利益。

在社会学领域,它可以用于社会发展趋势的预测和宏观政策的制定。

在心理学领域,它可以帮助研究人员理解人际关系对情绪和行为的影响。

在医疗保健领域,它可以用于分析各种疾病的传播模式,辅助科学家研究疾病的传播途径、风险预警和调节。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本技术提供了一种基于大数据挖掘的虚拟身份关联分析算法模型,属于大数据挖掘技术领域。

该方法包括获取电子串号信息和物理地址信息;对源数据进行清洗处理、规则过滤;并对处理后的数据进行属性分割、特征提取、指标计算;针对样本类别不平衡问题,调整不同类别训练样本;搭建Logistic Regression算法模型,以计算手机物理地址和电子串号之间关系的匹配度,实现虚拟身份的挖掘分析和关联匹配,本技术可以通过轨迹追查,确定犯罪轨迹,对犯罪嫌疑人实施跟踪和追捕,侦破案件,最终达到对犯罪的有效控制和打击。

技术要求1.一种基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,包括以下步骤:S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理;S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度。

2.根据权利要求1所述的基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,所述步骤S2中筛选规则具体步骤为:S201、将时间差范围内(即|t1-t2|<Δt,其中t1和t2分别表示电子串号和物理地址被采集到的时间)采集到的电子串号和物理地址数据中的无线数据采集终端经纬度字段进行匹配,若经纬度一致,则将此组电子串号和物理地址作为匹配对,并转入步骤S202;若不一致,则舍弃;S202、从预处理后的数据中分别取出匹配对相应的电子串号/物理地址、采集时间、经度和纬度等字段,满足以下条件的匹配对保留作为匹配组并存储:|d1-d2|<dmax且|t1-t2|<tmax,其中d1和d2分别为电子串号和物理地址被采集时无线终端的地理位置,t1和t2分别为其对应的采集时间,dmax和tmax分别为距离的阈值和时间的阈值。

3.根据权利要求1所述的基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,所述步骤S3中,采用主成分分析(Principal Component Analysis,PCA)对关联数据的M个特征属性进行降维处理,使样本变量维度变为N。

4.根据权利要求1所述的基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,所述步骤S3中,M>N。

5.根据权利要求1所述的基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,所述步骤S4具体包括:S401、将特征提取后的统计数据样本分为正例和反例:当明确电子串号与某个物理地址存在匹配关系时,标记为正例(即类别为1);当明确电子串号与某个物理地址不存在匹配关系时,标记为反例(即类别为0);S402、样本类别标记后,不同类别的训练例数目差别较大,采用Fisher判别法对数量较多的类别进行过滤,减少因样本类别不平衡对分类器造成的负面影响,提高建模时分类的准确率以及模型假设对数据集的拟合度。

6.根据权利要求1所述的基于大数据挖掘的虚拟身份关联分析算法模型,其特征在于,所述步骤S5具体包括:S501、运用Logistic Regression算法对处理后的样本集建立模型,并得到参数估计值;S502、根据得到的参数估计值,可计算出每一组电子串号和物理地址的匹配度基数值,并将该基数值映射收敛到区间[0,1],得到最终电子串号和物理地址的匹配度。

7.一种根据权利要求1至6任一项所述的基于大数据挖掘的虚拟身份关联分析算法模型系统,其特征在于,包括存储模块1、判断模块2、样本处理模块3、关联分析模块4以及结果解析模块5;所述存储模块1用于管理采集的原始电子串号数据和物理地址数据,以及判断模块2、样本处理模块3、关联分析模块4和结果解析模块5中所产生的数据;所述判断模块2用于判断电子串号与物理地址是否符合筛选规则;所述样本处理模块3用于构建电子串号和物理地址的多维度特征样本,并过滤掉部分反类样例;所述关联分析模块4用于基于Logistic Regression算法计算电子串号和物理地址的匹配度;所述结果解析模块5,用于将计算得到的匹配度结果解析并存储。

技术说明书一种基于大数据挖掘的虚拟身份关联分析算法模型技术领域本技术涉及大数据挖掘领域,更具体地说,是一种基于大数据挖掘的虚拟身份关联分析算法模型。

背景技术随着通讯技术的发展和电子设备的普及,手机已融入人们的日常生活,手机的运动轨迹与个人的活动轨迹相伴而生,手机移动轨迹很大程度上可以反映个人的生活习惯和活动范围等有价值的信息。

电子串号数据和手机物理地址数据是无线采集终端或移动采集设备捕捉到的并进行处理生成的道路数据。

通过对电子串号和物理地址的关联匹配,为某机关部门追查罪犯、快速侦破案件提供技术支持。

目前对电子串号和物理地址的虚拟身份关联分析的研究少之甚少,且过去在此领域研究的技术手段和成果还存在很多待优化的地方,故如何高效快速地处理获取后的电子串号和物理地址的庞大轨迹数据成为目前的一大难题。

本技术对无线采集终端的数据,基于大数据挖掘分析,找出有价值的物理地址和电子串号的轨迹信息,根据算法构建出物理地址和电子串号的关联匹配模型,实现虚拟身份的确定和匹配,为某机关部门跟踪抓捕犯罪嫌疑人、打击罪犯提供重要技术支持。

技术内容针对上述背景技术中所提出的问题,本技术实施例的目的在于提供一种基于大数据挖掘的虚拟身份关联分析算法模型,通过将采集到的数据进行清洗、筛选,特征构建及提取等处理,建立算法模型,提供了具有关联匹配关系的电子串号和物理地址的虚拟身份信息,为数据关联匹配提供技术支持。

为了实现上述目的,本技术的技术方案如下:S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理,如数据去重、缺失值和异常值删除等;S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度。

优选的,所述步骤S2中筛选规则具体步骤为:S201、将时间差范围内(即|t1-t2|<Δt,其中t1和t2分别表示电子串号和物理地址被采集到的时间)采集到的电子串号和物理地址数据中的无线数据采集终端经纬度字段进行匹配,若经纬度一致,则将此组电子串号和物理地址作为匹配对,并转入步骤S202;若不一致,则舍弃;S202、从预处理后的数据中分别取出匹配对相应的电子串号/物理地址、采集时间、经度和纬度等字段,满足以下条件的匹配对保留作为匹配组并存储:|d1-d2|<dmax且|t1-t2|<tmax,其中d1和d2分别为电子串号和物理地址被采集时无线终端的地理位置,t1和t2分别为其对应的采集时间,dmax和tmax分别为距离的阈值和时间的阈值。

优选的,所述步骤S3中,采用主成分分析(Principal Component Analysis,PCA)对关联数据的M个特征属性进行降维处理,使样本变量维度变为N。

优选的,所述步骤S3中,M>N。

优选的,所述步骤S4具体包括:S401、将特征提取后的统计数据样本分为正例和反例:当明确电子串号与某个物理地址存在匹配关系时,标记为正例(即类别为1);当明确电子串号与某个物理地址不存在匹配关系时,标记为反例(即类别为0);S402、样本类别标记后,不同类别的训练例数目差别较大,采用Fisher判别法对数量较多的类别进行过滤,减少因样本类别不平衡对分类器造成的负面影响,提高建模时分类的准确率以及模型假设对数据集的拟合度。

优选的,所述步骤S5具体包括:S501、运用Logistic Regression算法对处理后的样本集建立模型,并得到参数估计值;S502、根据得到的参数估计值,可计算出每一组电子串号和物理地址的匹配度基数值,并将该基数值映射收敛到区间[0,1],得到最终电子串号和物理地址的匹配度。

与现有技术相比,本技术的有益效果是:本技术提取了所有无线数据采集终端的电子串号和物理地址数据,然后对源数据进行清洗等预处理,并设置一定的筛选规则对数据进行初步过滤,再存储于数据库中。

针对数据进行属性分析并设置不同特征对数据进行描述,然后利用PCA进行降维处理。

为防止样本中类别不平衡的现象影响建模结果,采用Fisher判别法对样本量较多的类别进行过滤。

最后应用Logistic Regression算法建立模型,通过映射收敛得到电子串号与物理地址的匹配度。

本技术针对所有电子串号和物理地址,当客户在系统中输入任意电子串号或物理地址时,系统即可输出与其匹配的物理地址或电子串号,及其匹配度。

本技术提供一种基于大数据挖掘的虚拟身份关联分析算法模型,并对电子串号和物理地址数据进行分析挖掘,改进了传统算法的繁杂,提高了电子串号与物理地址匹配的准确性,也为交通管理带来更有效的数据支持。

附图说明图1是本技术实施例1中方法的流程框图;图2是本技术实施例1中方法的具体流程示意图;图3是本技术实施例2中系统的结构框图。

具体实施方式下面结合实例对本技术所述的一种基于大数据挖掘的虚拟身份关联分析算法模型作进一步说明。

以下是本技术所述的最佳实例,并不因此限定本技术的保护范围。

实施例1图1示出了本技术所述的一种基于大数据挖掘的虚拟身份关联分析算法模型,包括以下步骤:S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理,如数据去重、缺失值和异常值删除等;S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度。

在本实施例中,图2示出了本技术所述的方法的具体流程步骤,其中,更具体的:(1)电子串号及物理地址数据预处理;电子串号数据和手机物理地址数据是无线采集终端或移动采集设备捕捉到的并进行处理生成的道路数据。

该步骤主要是对采集到的原始数据进行去重、删除缺失值、删除异常值等清洗处理。

(2)共站匹配由于电子串号和物理地址是由两个不同的设备采集,故须判断同一时刻采集到的电子串号和物理地址是否处于同一地理位置。

相关文档
最新文档