大数据的矩阵计算基础

近年来，存储设备的单位成本以惊人的速度下降，我们可以轻而易举地积累起大量的数据。电信运营商，可以记录用户通话、短消息、无线上网产生的每一条信令，省级运营商一小时写入存储设备的数据量可以达到几百G。电子商务网站，可以记录用户的每一次交易，甚至每一次点击，可以复原用户的完整访问路径找出用户的兴趣点。城市监控体系，在各个重要路口，高速公路上的摄像头，每秒钟都在产生海量的视频数据。在生命科学领域，对人体的DNA分析，一个个体就能产生几个G数据，可以想象如果一个生物信息数据库里包含了成千万的个体数据，信息量将会是怎样一个规模，如此等等，不胜枚举。我们毫无疑问，正处于一个信息爆炸的时代。

不幸的是，我们得到的这些数据中的绝大部分，在它的生命周期里基本上都被闲置着，从来没有考虑过产生任何的价值，唯一的用途就是“保存备查”。尽管“啤酒与尿布”的故事，已经写入教科书有10多年了，几乎每一个接受过专业教育的同仁都知道数据挖掘能产生的价值，但是直到今天，我们对数据的处理依然很低。造成这种情况的原因有很多。其中之一是，在各公司里保管数据的大多是IT 人员，他们通常都缺乏必要的数学素质和知识基础去进行建模和深入的分析工作，即使是业务人员也鲜有对数据有深入认识者。我们推出大数据系列（包括Hadoop，NoSQL，Mahout等）和数据分析系列（包括R，SAS等）课程后，观察学员（特别是IT工作者和业务人员）的学习状况，发现他们中的大多数严重缺乏进一步挖掘数据价值所需的数学素养。例如数据分析中最基本的数据组织形态——矩阵，常见到有学员根本不知道为何物，可能从来没学过，也可能学

过忘光了。但不理解矩阵，就看不懂公式。看不懂公式，就根本不懂数据分析的语言，学习起来犹如哑巴吃黄连有苦难言（《黑客帝国》里把那部控制一切的机器称为Matrix——“矩阵”，这肯定不是无缘无故的）。至于像听Page-Rank，因子分析和主成分分析，推荐系统同现矩阵这些内容那就更像听天书。由此我们萌发了开一门矩阵计算的基础课程，给大家补一下数学的念头。本门课程的目标，正是要打破知识鸿沟，为大家巩固基础，为进一步在数据领域前进提供更强动力。线性代数是数据金字塔的重要基础，矩阵计算知识扎实，无论学习R，SAS，机器学习，数据挖掘，大数据分析等领域知识都会得心应手，省去回头补课的麻烦。课程内容：

第1课面向小白的线性代数：矩阵基本知识，加减乘法，转置，行列式，秩，逆矩阵

第2课计算机派上用场：常用矩阵计算工具，Excel，R，Matlab，怎样使用软件书写矩阵公式

第3课了解直观背景是最好的学习方法：矩阵的代数意义，线性方程组，线性相关性

第4课从初中生的二元一次到高精专的n元一次：线性方程组详解，克莱姆法则

第5课任何东西只要画出图就解决了一大半：矩阵的几何意义，向量空间，基和维数，基变换

第6课向高维空间进发：向量空间进阶，线性变换

第7课抓住不变量是数学方法的本质所在：内积，正交矩阵，特征值和特征向量

第8课给曲面分类：二次型，正定对称矩阵，二次型的对角化

第9课从繁入简：矩阵分解，标准型

第10课走向机器学习：SVD分解及其应用

第11课回归分析的实质：广义逆矩阵及其应用

第12课矩阵技术在机器学习中的应用

第13课有100亿亿个元素的矩阵怎样存储：稀疏矩阵

第14课挑战Google的核心秘密Pagerank计算：大型矩阵计算的并行化

授课对象：

这是一门数学课程，适合有志于转往大数据分析领域的非数学专业人士（例如IT 人，业务人员等）补强数学基础，以更好地学习更高级的数据分析，数据挖掘，机器学习课程

授课讲师：

何翠仪，中山大学统计学专业毕业，炼数成金专职讲师，曾讲授《大数据的统计学基础》课程及参与多门数据分析课程的助教工作。主持建设炼数成金的R语言认证题库系统（即将上线）。

黄志洪（tigerfish），ITPUB创始人，炼数成金创始人。中山大学海量数据与云计算研究中心主任。数据库专家，数据分析专家，有丰富的IT领域、数学领域的知识经验。曾经讲授炼数成金上《数据分析、展现与R语言》、《数据分析与SAS》、《Hadoop数据分析平台》等多门受欢迎课程。他将带领他的数据分析团队完成整个授课工作。

大数据技术原理与应用林子雨版课后习题答案

第一章 1、试述信息技术发展史上得３次信息化浪潮及具体内容。 2.试述数据产生方式经历得几个阶段答: 运营式系统阶段,用户原创内容阶段，感知式系统阶段。 3.试述大数据得４个基本特征答:数据量大、数据类型繁多、处理速度快与价值密度低。 4.试述大数据时代得“数据爆炸”得特性答:大数据时代得“数据爆炸＂得特性就是,人类社会产生得数据一致都以每年５０％得速度增长，也就就是说，每两年增加一倍。 5.数据研究经历了哪4个阶段? 答：人类自古以来在科学研究上先后历经了实验、理论、计算、与数据四种范式。 6.试述大数据对思维方式得重要影响答:大数据时代对思维方式得重要影响就是三种思维得转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统得基于数据仓库得决策有什么区别答:数据仓库具备批量与周期性得数据加载以及数据变化得实时探测、传播与加载能力,能结合历史数据与实时数据实现查询分析与自动规则触发,从而提供对战略决策与战术决策。

大数据决策可以面向类型繁多得、非结构化得海量数据进行决策分析。 8.举例说明大数据得基本应用答: 9.举例说明大数据得关键技术答:批处理计算,流计算，图计算，查询分析计算 10.大数据产业包含哪些关键技术。答:IＴ基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语：云计算、物联网答: 云计算：云计算就就是实现了通过网络提供可伸缩得、廉价得分布式计算机能力,用户只需要在具备网络接入条件得地方，就可以随时随地获得所需得各种IT资源。物联网就是物物相连得互联网,就是互联网得延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类与物等通过新得方式连在一起,形成人与物、物与物相连，实现信息化与远程管理控制。 12.详细阐述大数据、云计算与物联网三者之间得区别与联系。

矩阵的运算及其运算规则

矩阵基本运算及应用牛晨晖在数学中，矩阵是一个按照长方阵列排列的或集合。矩阵是高等代中的常见工具，也常见于统计分析等应用数学学科中。在物理学中，矩阵于电路学、、光学和中都有应用；中，制作也需要用到矩阵。矩阵的运算是领域的重要问题。将为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。在电力系统方面，矩阵知识已有广泛深入的应用，本文将在介绍矩阵基本运算和运算规则的基础上，简要介绍其在电力系统新能源领域建模方面的应用情况，并展望随机矩阵理论等相关知识与人工智能电力系统的紧密结合。 1矩阵的运算及其运算规则 1.1矩阵的加法与减法 1.1.1运算规则设矩阵，，则简言之，两个矩阵相加减，即它们相同位置的元素相加减！注意：只有对于两个行数、列数分别相等的矩阵（即同型矩阵），加减法运算才有意义，即加减运算是可行的．

1.1.2运算性质满足交换律和结合律交换律；结合律． 1.2矩阵与数的乘法 1.2.1运算规则数乘矩阵A，就是将数乘矩阵A中的每一个元素，记为或．特别地，称称为的负矩阵． 1.2.2运算性质满足结合律和分配律结合律：(λμ)A=λ(μA)；(λ+μ)A =λA+μA．分配律：λ(A+B)=λA+λB． 1.2.3典型举例已知两个矩阵满足矩阵方程，求未知矩阵．解由已知条件知

? 1.3矩阵与矩阵的乘法 1.3.1运算规则设，，则A与B的乘积是这样一个矩阵： (1) 行数与（左矩阵）A相同，列数与（右矩阵）B相同，即． (2) C的第行第列的元素由A的第行元素与B的第列元素对应相乘，再取乘积之和． 1.3.2典型例题设矩阵计算解是的矩阵．设它为

大数据处理及分析理论方法技术

大数据处理及分析理论方法技术（一）大数据处理及分析建设的过程随着数据的越来越多，如何在这些海量的数据中找出我们需要的信息变得尤其重要，而这也是大数据的产生和发展原因，那么究竟什么是大数据呢？当下我国大数据研发建设又有哪些方面着力呢？一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程，必须建立良好的运行机制，以促进建设过程中各个环节的正规有序，实现统合，搞好顶层设计。二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准，为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享，才有生命力。应在各专用数据库建设的基础上，通过数据集成，实现各级各类指挥信息系统的数据交换和数据共享。四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成，因此，必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。（二）大数据处理分析的基本理论对于大数据的概念有许多不同的理解。中国科学院计算技术研究所李国杰院士认为：大数据就是“海量数据”加“复杂数据类型”。而维基百科中的解释为：大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分享、分析、可视化的数据集合。对于“大数据”（Bigdata）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决

图2.1：大数据特征概括为5个V （三）大数据处理及分析的方向众所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定

求矩阵特征值算法及程序

求矩阵特征值算法及程序简介 1.幂法 1、幂法规范化算法 (1)输入矩阵A、初始向量( 0)，误差eps； (2) k 1； (3)计算V(k)A(k 1)； (4)m k max(V(k)) ,m k1max( V ( k 1))； (5) (k)V(k)/m k； (6)如果m k m k 1eps,则显示特征值1和对应的特征向量x(1) ),终止； (7)k k 1, 转(3) 注：如上算法中的符号max(V )表示取向量V 中绝对值最大的分量。本算法使用了数据规范化处理技术以防止计算过程中出现益出错误。 2、规范化幂法程序 Clear[a,u,x]; a=Input[" 系数矩阵A="]; u=Input[" 初始迭代向量u(0)="]; n=Length[u]; eps=Input[" 误差精度eps ="]; nmax=Input[" 迭代允许最大次数nmax="]; fmax[x_]:=Module[{m=0,m1,m2}, Do[m1=Abs[x[[k]]]; If[m1>m,m2=x[[k]];m=m1], {k,1,Length[x]}]; m2] v=a.u; m0=fmax[u]; m1=fmax[v]; t=Abs[m1-m0]//N; k=0; While[t>eps&&k

大数据的矩阵计算基础

大数据技术原理与应用 林子雨版 课后习题答案

矩阵的运算及其运算规则

大数据处理及分析理论方法技术

求矩阵特征值算法及程序

大数据技术原理与应用林子雨版课后习题答案