难以解释的数据异常

合集下载

工业过程传感器数据异常检测与故障诊断

工业过程传感器数据异常检测与故障诊断

工业过程传感器数据异常检测与故障诊断随着工业自动化程度的提高,工业过程中的传感器数据异常检测与故障诊断变得越来越重要。

传感器是工业过程中不可或缺的组成部分,它们可以收集到很多关键的过程参数,如温度、压力、流量等。

然而,由于传感器本身的故障、异常的工况变化或人为因素等原因,传感器数据可能出现异常,对工业生产的正常运行产生不良影响甚至导致严重的事故。

因此,工业过程传感器数据异常检测与故障诊断技术的研究与实践变得至关重要。

这一领域涉及到数据分析、信号处理、机器学习等多个学科的知识,旨在提高工业过程中传感器数据的可靠性和准确性,从而保障工业生产的安全和稳定。

首先,工业过程传感器数据异常检测的关键是建立一个能够判断数据异常的模型。

传感器数据通常具有多个特征,包括时间序列特征、频谱特征和统计特征等。

通过对这些特征进行分析和处理,可以发现数据异常的规律和模式。

常用的方法包括基于统计的方法、基于模型的方法和基于机器学习的方法等。

基于统计的方法是最简单和直观的异常检测方法之一。

它通过计算传感器数据的均值、方差、高阶矩等统计量来判断数据是否异常。

通过定义合适的异常阈值,可以确定数据异常的标准。

然而,基于统计的方法往往无法处理复杂的非线性关系和高维数据,因此在实际应用中的效果有限。

基于模型的方法是一种更为灵活和精确的异常检测方法。

它通过建立一个描述传感器数据正常状态的模型来进行异常检测。

常用的模型包括自回归模型、ARMA模型和状态空间模型等。

通过比较实际数据与模型预测的差异,可以判断数据是否异常。

与基于统计的方法相比,基于模型的方法能够更好地处理非线性关系和高维数据,但是模型的建立和参数估计较为困难,而且对数据的要求比较高。

基于机器学习的方法是目前工业过程传感器数据异常检测的热点和前沿研究。

它通过训练一个机器学习模型,从大量的数据中学习出数据的正常状态和异常状态。

常用的机器学习方法包括支持向量机、随机森林、深度学习等。

异质数据的表示、对齐方法及其应用

异质数据的表示、对齐方法及其应用

2023《异质数据的表示、对齐方法及其应用》•异质数据概述•异质数据的表示方法•异质数据对齐方法目录•异质数据的应用场景•研究展望与挑战01异质数据概述定义与分类异质数据指来源于不同领域、格式、特征的数据,如文本、图像、视频等。

数据分类异质数据可分为结构化数据、半结构化数据和非结构化数据。

数据特点与挑战数据特点异质数据具有多样性、复杂性、高维性等特点。

数据挑战数据对齐困难、数据质量参差不齐、数据处理复杂等。

研究现状目前对异质数据的研究主要集中在表示方法、对齐策略等方面。

研究趋势随着深度学习技术的发展,未来研究将更加注重跨模态学习、语义理解等方面。

研究现状与趋势02异质数据的表示方法通过提取数据中的关键特征,将异质数据转化为同质数据表示。

总结词特征提取法是一种传统的数据表示方法,它通过对数据进行预处理、特征提取和降维等步骤,将异质数据转化为具有相同维度的表示。

这种方法广泛应用于图像、文本和语音等数据的处理。

详细描述特征提取法总结词利用深度学习模型中的编码器网络,将异质数据转化为低维空间中的表示。

详细描述编码器网络法是一种基于深度学习的数据表示方法,它通过训练一个编码器网络将输入数据压缩成一个低维空间的表示。

这个表示可以有效地捕捉到数据的本质特征,并且能够实现跨模态数据的映射。

编码器网络法总结词通过对比不同数据之间的相似性和差异性,学习数据的表示。

详细描述对比学习法是一种无监督学习方法,它通过比较不同数据之间的相似性和差异性来学习数据的表示。

这种方法在自然语言处理、计算机视觉等领域取得了显著的成果。

对比学习法03异质数据对齐方法总结词距离度量方法在异质数据对齐中应用广泛,通过计算数据点之间的距离,实现数据的对齐。

详细描述基于距离的方法主要包括最小距离法、最近邻方法、谱聚类等。

这些方法通过计算数据点之间的距离或相似度,实现异质数据的对齐。

其中,最近邻方法是最常用的方法之一,它通过寻找与每个数据点最接近的邻居,从而实现数据的对齐。

同济大学学术行为规范考试-试卷2份

同济大学学术行为规范考试-试卷2份

学术行为规范考试1、在论文投稿过程中,哪种做法是错误的?()。

√答案:您选择的答案:CA、投稿后只有明确论文被退稿后才能改投其他杂志社B、论文切不可一稿多投C、为了增加发表论文的数量,必要时可以重复发表内容雷同的论文2、某硕士研究生A毕业后考取另一单位的博士研究生,在读博期间,将自己的硕士期间的研究成果及数据进行整理后发表,下列哪种做法是规范的?()。

√答案:您选择的答案:AA、必须遵守学术道德规范,尊重原单位的知识产权,应将硕士就读单位列为共同单位B、不一定需要将原单位列入,只需要将原导师的名字列入作者名单即可C、该名硕士可以自己决定确立作者名单及所属单位3、导师在国外进修,如果导师同意,开题时可以不举行公开的报告会论证。

你认为这种观点()。

√答案:您选择的答案:AA、错误B、正确C、不确定4、开题主要是对理工科研究而言,对于文科和社会科学而言,开题没有什么实际意义,如何选题并不重要,重要的是学会阅读文献、综述各种资料。

你认为这种观点()。

√答案:您选择的答案:AA、错误B、正确C、不确定5、篡改与伪造是有区别的:篡改是擅自改变原始实验数据、引用资料和科学研究事实,伪造是指捏造原始实验数据、引用资料和科学研究事实。

你认为这种观点()。

√答案:您选择的答案:BA、错误B、正确C、不确定6、在导师作为通讯作者时,其他作者的署名及排序必须经过导师的同意。

你认为这种观点()。

√A、错误B、正确C、不确定7、学术成果的发表应注明研究期间的所在单位。

你认为这种观点()。

√答案:您选择的答案:BA、错误B、正确C、不确定8、在学术活动过程中夸大成果价值也是一种学术不端行为。

你认为这种观点()。

√答案:您选择的答案:BA、错误B、正确C、不确定9、研究生和导师共同发表的研究成果,无论出现何种学术不端行为,导师都应该承担主要责任。

你认为这种观点()。

×答案:您选择的答案:BA、错误B、正确C、不确定10、原始实验记录和数据在学术成果发表后就没有什么价值,可以销毁。

业务场景中常用的数据分析方法

业务场景中常用的数据分析方法

业务场景中常用的数据分析方法1 漏斗分析漏斗分析可以很好地量化产品各环节的转化率,而且适用的产品类型很多。

此方法主要是将产品的重要环节抽象出来,计算每个环节的用户量,最后做出一个形如漏斗的图形。

下图例举了一个APP投放的漏斗模型,我们可以计算出每个环节到下一个环节的转化率,直观地看到用户在各层的流失情况。

如果广告点击率差,那么就想办法优化广告文案;如果APP激活差,则需要优化APP下载流程;如果用户留存差,则需要提高产品质量。

如此一来,就可以把握优化的重点。

我们在每次迭代方案后,用同样的漏斗图进行前后对比,可以很清楚地看到改动的效果。

如果每层的转化率都非常好,但用户量还不上升,这个图仍然很有用,你可以拿着这张图,去说服金主出钱,加大广告投入。

2 留存分析如果产品留存低,再大的用户量也将是昙花一现。

这里介绍用户生命周期留存图,此数据可以很快地看到产品的粘性表现,并且能预估出后期的用户量。

下图展示两个产品的留存率样例:我们可以看到,两个产品的留存率在次日时相当,而一周后,产品1的留存率开始稳定,产品2的留存率却一直下降。

这也是为什么我们经常会看次日留存、第7日留存、第30日留存,通过留存折线图的3个采点,来抽象地描绘留存变化。

由于日活=留存X新增。

所以我们还可以根据已有的留存率和计划的新增量来预估后期的日活量。

如上图所示:有了预估的日活量,不仅能科学地设置目标,而且可以作为参考值,来监测用户量的异常变化3 拆解分析在我做过的分析中,有一个项目的数据变化非常异常,难以解释。

遇到这种问题,首先就会想到按维度拆解,我们经过各维度的变化拆解后,发现有一个省的流量出现问题,导致整体数据异常。

在分析一些数据时,按分维度拆解的方法简单且奏效。

常用的维度有地域、渠道、画像、活跃度等。

有时,复杂的问题往往需要多维度交叉去拆解分析。

4 微观分析上面介绍的都是较为抽象的宏观的分析。

在具体的产品迭代中,往往会遇到一些具象的产品细节分析。

课题研修总结范文

课题研修总结范文

课题研修总结范文随着科技的不断进步和社会的深入发展,对于专业知识和技能的要求也在不断提高。

为了适应这一变化,我参加了为期六个月的课题研修项目,旨在通过系统的学习和实践,提升自己在特定领域的专业能力。

在此,我将结合个人的学习经历,分享课题研修的过程、收获与感悟。

课题研修的第一阶段是理论学习。

在这一阶段,我深入学习了课题相关的基础理论知识,并通过阅读大量文献,了解了该领域的历史背景、发展现状以及未来的发展趋势。

通过与导师和同行的讨论,我对课题的核心问题和研究方法有了更加清晰的认识。

进入第二阶段,我开始着手进行实证研究。

在导师的指导下,我设计了科学的研究方案,并收集了大量的数据进行分析。

通过对数据的细致处理和深入分析,我发现了一些有趣的现象,并对这些现象进行了合理的解释。

这一阶段的工作不仅锻炼了我的数据处理能力,也提升了我的逻辑思维和问题解决能力。

第三阶段是研究成果的整理与撰写。

在这一阶段,我将自己的研究成果整理成文,撰写了一篇完整的研究报告。

报告中,我详细阐述了研究的背景、目的、方法、过程和结论,并对研究的局限性和未来可能的研究方向进行了展望。

通过这一过程,我学会了如何将复杂的研究内容条理化、系统化地表达出来。

在课题研修的过程中,我也遇到了一些挑战。

例如,在数据分析阶段,我遇到了难以解释的数据异常。

面对这一挑战,我没有放弃,而是通过查阅资料、咨询专家和反复实验,最终找到了问题的根源,并提出了解决方案。

这个过程让我深刻体会到,科研工作需要耐心和毅力,同时也需要开放的心态和创新的思维。

通过这次课题研修,我不仅提升了自己的专业知识和研究能力,也增强了解决问题的能力和团队协作的精神。

我相信,这些经验和能力将对我的未来学术研究和职业发展产生积极的影响。

数据异常情况汇报

数据异常情况汇报

数据异常情况汇报尊敬的领导:根据最近的数据分析,我们发现了一些数据异常情况,特此向您汇报情况并提出解决方案。

首先,我们发现在最近一段时间内,部分数据出现了异常波动,违反了正常的数据规律。

具体表现为某些指标在短时间内出现了异常的增长或下降,与历史数据相比出现了明显的偏离。

这些异常数据的出现给我们的数据分析和业务决策带来了一定的困扰,也影响了我们对业务发展趋势的判断。

其次,经过分析我们发现,这些数据异常情况可能是由于数据采集、存储或处理过程中出现了问题所致。

可能是数据采集设备出现了故障或误差,也有可能是在数据存储和处理过程中出现了错误操作或数据丢失。

另外,也有可能是外部环境变化导致了数据异常,比如市场竞争激烈、政策调整等因素都可能对数据产生影响。

针对这些数据异常情况,我们已经采取了一系列的措施来解决问题。

首先,我们对数据采集设备进行了全面的检查和维护,确保设备正常运行并减少误差。

其次,我们对数据存储和处理流程进行了优化和改进,加强了数据质量的监控和管控,以确保数据的准确性和完整性。

另外,我们也加强了对外部环境变化的监测和分析,及时调整数据分析模型和业务决策,以适应外部环境的变化。

为了更好地解决数据异常情况,我们还将继续加强团队的数据分析能力和技术水平,加强数据质量管理和监控,建立健全的数据管理制度和流程,确保数据的准确性和可靠性。

同时,我们也将加强与其他部门的沟通和协作,共同解决数据异常问题,为企业的发展提供更可靠的数据支持。

最后,我们将持续关注数据异常情况的发生,并及时采取有效的措施加以解决,确保数据分析和业务决策的准确性和有效性。

我们相信,在领导的正确指导下,我们一定能够有效解决数据异常问题,为企业的发展贡献更多的价值。

谨此报告。

此致。

敬礼。

数据不安全的各种情形

数据不安全的各种情形
1. 数据泄露:这是数据不安全最常见的情况之一。

数据可能会通过网络攻击、恶意软件、社会工程学等手段被盗取。

一旦数据落入不法分子手中,他们可能会利用这些数据进行欺诈、身份盗窃或其他违法活动。

2. 数据丢失:数据可能会因为硬件故障、软件错误、人为错误或自然灾害等原因而丢失。

数据丢失可能会导致业务中断、客户流失以及经济损失。

3. 数据损坏:数据可能会因为存储设备故障、磁场干扰、病毒或恶意软件等原因而损坏。

数据损坏可能会导致数据无法使用或部分丢失。

4. 数据滥用:员工或第三方可能会滥用其访问权限,读取或修改他们本不应该访问的数据。

这可能会导致数据泄露、数据损坏或其他违规行为。

5. 数据未加密:如果数据在传输或存储过程中未进行加密,那么任何人都可以轻松读取和访问这些数据。

这可能会导致敏感信息泄露,例如信用卡信息、个人身份信息等。

6. 缺乏访问控制:如果没有适当的访问控制措施,任何人都可以访问和修改数据。

这可能会导致数据被误操作、篡改或删除。

为了确保数据的安全性,企业和个人应该采取适当的数据保护措施,例如数据加密、访问控制、备份和恢复、安全培训等。

同时,定期进行数据安全评估和审计,以发现和解决潜在的安全风险。

分析报告中可疑结果的原因与可能解释

分析报告中可疑结果的原因与可能解释引言:在各行业中,分析报告是一种常见且重要的工具,用于评估和解释特定数据集的结果。

然而,在进行数据分析时,可能会出现一些结果看似可疑的情况。

本文将探讨这些可疑结果的原因,并提供可能的解释。

一、数据质量问题1. 数据收集错误:可疑结果可能是由于数据收集时的错误导致的。

例如,在统计调查中,填写或录入的数据可能存在错误或遗漏。

2. 数据野值:数据集中的极端值(也称为异常值)可能会导致结果的不确定性。

这些数据可能是输入错误、测量偏差或其他因素导致的。

二、数据分析方法问题1. 统计模型选择:在进行数据分析时,选择不适当的统计模型可能导致可疑的结果。

例如,选择了与数据不相符的模型,或者误用了某些统计方法。

2. 统计假设的偏差:在进行数据分析时,可能会基于一些假设进行推断。

如果这些假设不准确或与实际情况不一致,就会得到可疑结果。

三、样本偏倚问题1. 样本选择偏倚:在数据收集过程中,可能存在样本选择的偏倚,导致了不可靠的分析结果。

例如,如果样本不具有代表性,那么分析的结果就可能不具备普适性。

2. 样本容量不足:如果样本容量过小,分析结果可能不够可靠。

这是因为较小的样本容量会增加抽样误差,导致可疑结果的产生。

四、数据处理问题1. 数据清洗错误:在进行数据清洗过程中,可能会出现错误。

例如,删除了正确的数据点,或者错误地填补了缺失值。

2. 变量转换问题:对不同变量进行转换或标准化时,可能会出现错误。

这可能导致可疑结果的产生,使分析结果难以解释。

五、潜在变量影响问题1. 隐藏变量:在数据分析时,可能会存在一些未考虑的潜在变量。

这些潜在变量可能对结果产生重要影响,导致可疑结果的出现。

2. 反向因果关系:某些结果看似可疑,可能是由于变量之间的反向因果关系引起的。

在分析时,应该考虑这种情况,并采取适当的方法予以解释。

六、主观解释问题1. 解释偏差:解释结果时的主观偏见可能导致可疑结果的出现。

数据异常情况汇报

数据异常情况汇报
尊敬的领导:
根据最近对公司数据分析的情况汇报,我们发现了一些数据异常的情况,特此
向您做出汇报。

首先,我们在对销售数据进行分析时发现了一些异常情况。

在某些地区,销售
额出现了异常的波动,与往年相比呈现出明显的不稳定趋势。

经过进一步的调查,我们发现这些异常情况与当地经济形势、市场竞争、政策变化等因素有关。

我们已经开始与相关部门进行沟通,寻求解决方案,以确保销售数据的准确性和稳定性。

其次,我们在客户数据分析中也发现了一些异常情况。

有部分客户的购买行为
出现了明显的异常,包括频繁退货、大额购买等情况。

我们正在对这些异常数据进行深入分析,以确定是客户行为的变化还是数据采集的问题所致。

同时,我们也将加强与客户的沟通和反馈机制,以更好地了解客户需求和行为变化,为公司业务发展提供更准确的数据支持。

此外,我们在财务数据分析中也发现了一些异常情况。

部分成本支出明显偏高,与预算相比出现了较大的偏差。

我们已经展开了成本结构的分析,寻找成本支出异常的原因,并将提出相应的控制措施,以确保公司财务数据的准确性和稳定性。

综上所述,我们发现了销售数据、客户数据和财务数据中的一些异常情况,并
已经采取了相应的措施进行分析和解决。

我们将继续密切关注数据的变化,及时发现和解决异常情况,确保公司数据分析工作的准确性和可靠性。

谨此汇报。

此致。

敬礼。

异常分析总结与反思

• 找出可能导致异常的原因
03
关联分析
• 探究异常数据与其他数据之间的关联关系
• 发现潜在的因果关系和业务逻辑
异常处理与改进措施
制定异常处理策略
• 针对不同类型的异常制定相应的处理措施
• 如:针对虚假交易的惩罚措施、针对系统故障的应急预案等
改进业务流程和策略
• 根据异常分析结果优化业务流程和策略
• 提高企业运营效率和盈利能力
• 基于距离的方法适用于数据具有复
• 结合领域知识和经验制定识别标准
• 对离群点进行分析,判断其是否属
杂结构的情况
• 基于聚类的方法适用于数据具有多
个特征维度的场景
于异常
异常原因分析与定位
01
数据可视化
• 利用图表、热力图等方式展示异常数据
• 辅助分析人员发现异常模式和趋势
02
特征分析
• 分析异常数据的关键特征和属性
CREATE TOGETHER
SMART CREATE
异常分析总结与反思
01
异常分析的基本概念与方法
异常分析的定义与重要性
异常分析是一种数据驱动的方法
异常分析的重要性
• 通过识别、分析和处理数据中的异常模式
• 及时发现潜在风险,防止业务损失
• 帮助企业发现潜在问题、优化业务流程和提升决策质量
• 优化业务流程,提高运营效率
势预测、虚假交易检测等方
测、治疗方案优化等方面的
程优化、安全监控等方面的
• 保障金融市场的稳定和
面的应用
应用
应用
安全
• 提高电商企业的运营效
• 提高医疗服务的质量和
• 提高工业生产效率和安
率和盈利能力
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

难以解释的数据异常
数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。

是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。

在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。

为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不是我们平常所说的异常,抑或是应该归到其他类别,不妨先叫它们“难以解释的异常”。

近段时间在读《思考,快与慢》这本书,作者卡尼曼的观点似乎可以给我们一些答案。

卡尼曼是心理学和决策学方面的大师,他告诉我们如何避开大脑思考的误区,从而更加理性地进行认知和决策。

这里引述书中提及的与上面“难以解释的异常”这个问题相关的两个观点:
·回归均值效应:事物会经历好坏的随机波动,但最终会回归到平均水平。

·用因果关系解释随机事件:人们总是试图为一些变化寻找可以解释的原因。

迪马特奥和贝尼特斯
对于回归均值效应(Mean reversion),卡尼曼举了一些与体育相关的例子,确实这个现象在体育竞技中较为常见:高尔夫球手为什么第二天无法打出前一天的好成绩,球员为什么第二个赛季无法复制前一个赛季的辉煌……这让我联想到了近期切尔西的换帅事件。

其实迪马特奥和贝尼特斯之间存在一些有趣的共同点:1) 都是欧冠的冠军教头,
2) 能力都没有被完全认可。

如果说迪马特奥是没有足够的时间来证明自己的执教能力情有可原的话,那么贝尼特斯显然是自己的选择造成了外界对其能力的质疑。

迪马特奥在上赛季中后段从助理教练接手切尔西,并以看守主教练的身份一路过关斩将,最终夺取欧冠冠军,成功带回球队历史上第一座大耳朵杯足够让其能在赛季末被扶正,但因为缺乏执教经验始终无法让挑剔的老板对其有足够的信任,于是当球迷和俱乐部还沉浸在上赛季欧冠的荣耀光环下,而球队的表现却无法延续“应有”的辉煌时,迪马特奥下课的命运是注定的。

在竞争如此激烈的英超联赛,切尔西无法摆脱回归效应,如果说上个赛季切尔西在诸多有利因素的共同作用,再加上一些运气成分的基础上成功加冕欧冠的话,那么这个赛季这些有利因素不再集中地作用于他们,而他们的运气也似乎“用完了”,成绩回归之前的平均水平实属正常现象,而在昔日光环下的球迷和俱乐部显然认为这是“异常事件”,于是迪马特奥成为了回归效应的受害者。

其实这类事件在足球界屡见不鲜,世界杯的98法国,02五星巴西,06意大利都难逃回归效应,夺冠之后成绩下滑,而很多教练也在夺冠之后纷纷辞职,因为他们也明白再续辉煌(摆脱回归效应)是如此之难,斯科拉里、里皮等都做出了明智的选择,而这些冠军球队的替任教练又往往是命运最为坎坷的,毕竟能像博斯克这样让西班牙不断延续辉煌的教练真的不多,而贝尼特斯恰恰当了回悲催的替任者。

2010年贝尼特斯接替穆里尼奥成为三冠王国际米兰的主教练,三冠王的光环太过耀眼,而阵容老化加引援不利,注定让国米走上回归效应的道路,于是赛季不到半程,贝帅即被解雇。

其实贝尼特斯之前执教生涯的战绩并不是太差,成名于疯狂的“伊斯坦布尔之夜”,但也正是因为这传奇一战成了一座无法逾越的丰碑,即使之后帮助利物浦夺得诸多赛事的冠亚军,也无法让俱乐部和球迷真正的满意,而贝帅的决策失误在于其没有在任何一个辉煌或几近辉煌(07年虽然被米兰复仇雅典,但至少也是个欧冠亚军)的时刻选择退出,直到最后利物浦战绩实在看不下去了才以失败者的身份离开。

贝帅真的应该向老辣的银狐里皮或者狡猾的穆里尼奥学习下什么叫做功成身退。

而这次,贝帅又一次选择了欧冠冠军光环下的切尔西,尽管这个光环已渐渐褪去,我们也只能祝他好运了。

倒塌的桥梁与突然安静的教室
共振(Resonance)催生了宇宙大爆炸,形成了星辰日月和世间万物,共振现象是自然界最普遍的现象之一。

一群士兵骑马通过法国昂热市的某座桥时,共振现象导致了桥梁的倒塌,这个例子被引入初中物理教科书,从而成为了我们认识共振原理的启蒙记忆。

但是什么原因引发了共振,进而发生桥梁倒塌这类异常事件,正常情况下同样
一群士兵同样行军通过同样的桥,可能几万次中才会出现一次桥梁倒塌,士兵是普通的士兵,桥是正常的桥,产生共振完全是一个随机事件,但正是因为这类事件概率太小,所以人们总是试图从士兵或者桥的身上找原因(但是有时候确实是因为桥存在问题 ;- ) )。

然后是一个在知乎上看到的问题:为什么原来大家都在讨论,声音嘈杂的教室会突然安静下来?这个也许大家都遇到过,也是一个类似的小概率事件,教室里每个人都在断断续续地说话,正常情况下声音的大小总是保持在一个水平波动,但可能突然有一个时刻同时说话的人数减少了,声音也随机地波动到了一个最低点,这个时候大家就会认为是不是发生了什么事情,老师来了?于是纷纷不说话,教室突然鸦雀无声,一片寂静。

大家都感觉到了教室声音的“异常”,而试图为这个异常寻找可能的原因。

什么造成了这些“异常”
首先来看回归均值效应,一般表现为事物在某段时间表现得非常好,之后回归到正常水平的一个过程。

这个按理来说是一个正常的过程,因为事物在诸多因素的共同影响下总有一些随机的波动,关键在于人们总是希望好的状态能够延续,而当事物从一个极好的状态出现下滑时,因为落差较大,所以很容易把回归均值之后的状态当做一种“异常”。

如下图:
A段的曲线即使有上下波动,但一般不会被认为有异常,但C段曲线很容易被误认
为是异常,因为我们很容易将C段与B段进行比较,而不是A段的均值水平(绿线所示,C段与A段均值差异并不大)。

因为这里给出了完整的曲线变化趋势,所以犯这种错误的可能性会降低,但当我们比较短时间内的数据变化,或者简单看数据同环比的时候,就很容易误把回归均值当做一种异常。

所以分析数据要结合长期趋势,当事物状态未发生质变而数据明显上升一个台阶的情况下,不要认为好的数据表现总能够持续,因为好的数据表现也只是一个正常的随机波动引起的。

解释了回归均值效应,还需要搞清楚的是虽然事物大部分时间都有小幅的随机波动,但偶然也会出现较大的波动,即极好或者极差的状态,正如上图的B段状态,我们如何认定这个状态也是随机的,而不是异常呢,不能因为难以解释而不把过大的数据波动当做一种异常来看?
这个问题还是可以从物理学的角度开始解释,先看下波的叠加原理(Superposition Principle):
左图的下面2个波在叠加之后合成了更大的振幅,而右图的下面2个波相互干涉,合成后振幅消减为零。

引申到数据变化的情境下,一般一个指标会受到多个因素的影响,比如网站的访问量会受多个渠道数据波动的影响,搜索引擎、外部链接、社交媒介、付费广告等这些外部渠道带来的流量总是在变化的,如下图:
当某个渠道的流量异常的时候,如A线所示,或者由于外界因素的影响,如春节或节假日所有渠道的流量都可能普遍下降,如B线所示,这些都可能导致总体访问量的异常,这些异常是可以解释的。

C线中每个渠道的数据都未出现明显异常,但由于多个渠道的流量因为随机波动碰巧同时都到了一个较低的点,这个时候总体访问量也会出现明显低于正常水平的情况,于是就出现了“难以解释的异常”。

数据在某些因素的同时作用下可能会出现异常,虽然这个概率很低,但是确实又发生,这是多个因素叠加效应导致的,如果通过细分指标的影响因素没有发现明显的异常,那么不要试图为这个“难以解释的异常”寻找看上去可以解释的原因。

摘自:中国统计网。

相关文档
最新文档