大数据技术词汇表

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据技术词汇表

Anomaly:见异常值词条。

Apache Software Foundation(ASF):专门为支持开源软件项目而办的一个非盈利性组织。

ARPU(Average revenue per user):每个用户的平均收入。

Artificial neural network:人工神经网络,通常简称神经网络。

Avro:一个在Hadoop上的数据序列化系统,设计用于支持大批量数据交换应用。

宝贝:淘宝和天猫网上商城对于网店商品的专门用语。

贝叶斯分析方法(Bayesian Analysis):提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。

bounce rate:见跳出率词条。

B2C:英文Business-to-Consumer的缩写,其中文含义为企业对消费者。

CART:Classification and Regression Trees的英文首字母缩写,或者称分类与回归树,是一种决策树分类算法。

CBL(China Black List):中国垃圾邮件黑名单。

Cluster(类或簇的英文):是一个数据对象的集合。

Cookie: 指的是指网站为了辨别用户身份而储存在用户本地终端浏览器上的一类数据。

CRM(用户关系管理,Customer Relationship Management)指的是公司对客户和潜在客户的管理模式。

Direct Marketing:见直效行销词条。

Discriminant analysis:见判别分析词条。

DSS(Decision Support System):决策支持系统的缩写,是辅助决策者通过数据、模型和知识,进行半结构化或非结构化决策的计算机应用系统。

独立访客:指在一天之内(00:00-24:00)访问网站的上网电脑数量(以cookie为依据)。

EB:计算机存储单位,1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes(字节),或是2的60次方字节。

EDM(Email Direct Marketing):用电子邮件进行营销的方式。

EIS(Executive Information Systems的缩写,高级管理人员信息系统):为高级管理人员设计的系统,用于深层次管理数据分析和运营趋势分析等。

Entropy:见熵。

二跳率:当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”,而二跳量与浏览量的比值称为页面的二跳率。

ETL:(Extract Transform Load)的缩写,是指数据的提取、转换、加载。

分布式数据库(Distributed Database):用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。

关联规则(Association rules):是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。

根节点:决策树最上面的节点。在它上面没有其他节点,其他所有的属性都是它的后续节点。

购物篮分析(market basket analysis):就是关联规则算法。在市场上关联规则算法经常作为商品购物车的分析,所以在应用领域又被称为购物篮分析。

Granularity:见“粒度”。

HBase :一个在HDFS上搭建大规模结构化存储集群分布式存储系统,具有高可靠性、高性能、面向列,可伸缩特性。

HDFS:部署在廉价硬件上提供高吞吐量和高容错性的分布式文件系统,适合有超大数据集的应用程序。

Hive:基于Hadoop的数据仓库工具,可以将结构化的数据映射成数据表并提供类SQL数据库查询管理功能,适合于数据仓库的统计分析。

后验概率(Posterior Probability):当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率。

回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

计量经济学(Econometrics)是以经济学和数理统计学为方法论作为基础,对于经济问题试图用数量和经验两者进行综合的经济学分支。

基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。

交叉验证(Cross-validation):主要用于建模应用中,在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。

机器学习(Machine Learning):研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

监督式学习(Supervised learning):机器学习中的一类,可以由训练资料中学到或建立一个模式(函数),并依此模式推测新的样本归类或者属性。

聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

决策树(Decision Tree):一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,

相关文档
最新文档