教育大数据治理平台整体解决方案

教育大数据治理平台整体解决方案

目录

一.前言 (2)

二.平台概述 (3)

三.平台系统架构 (5)

四.硬件需求 (9)

一.前言

针对国内目前教育智慧化校园中存在的信息孤岛问题。着眼国家产业技术创新需求,集聚科技创新要素,开发教育大数据治理平台。该平台着力解决各教育信息孤岛问题,通过对教育各系统数据的整合、分析、挖掘,为教育提供精准的辅助决策数据和分析报告。开发目标包括:海量、多样的教育大数据的采集、清洗、计算与分析,海量教育大数据的动态图表与可视化报告以及教育大数据通过人工智能手段进行数据挖掘的技术。

二.平台概述

1.平台的主要作用

1.1 海量、多样的教育大数据的采集、清洗、计算与分析

随着教育信息化的迅猛发展,信息孤岛的问题日益严峻起来。目前教育各信息化系统彼此独立,数据存储方式和数据类型多样化,主要有DBMS数据库、NOSQL数据库、JSON格式文件、EXCEL文件、TXT文件等,另外还包括一些消息队列、日志等实时性数据,数据量大、冗余多、存在脏数据且种类多样,还有实时分析等的需求,这就需要采用现代大数据技术进行采集、清洗和计算。数据采集使用Sqoop、Flume、Kafa、Kettle等大数据工具,可以对接前教育各信息系统的各种数据源,以及实时采集消息队列和日志等数据。通过Python、Hive等对数据进行清洗,去除冗余以及脏数据。使用Kylin、Spark集群进行数据的处理和计算。使用HDFS、HBase进行处理结果的保存。

1.2 海量教育大数据可视化图表的展示与报表

基于Hadoop大数据技术栈进行进行数据的计算和分析后,通过Web JavaScript、VUE、JQuery、EChart等前端技术进行数据的动态图表的绘制与展示以及图表的可订制化,并且可以动态生成可视化报表。

1.3 教育大数据数据挖掘的技术

大数据的数据挖掘技术是以机器学习和深度学习为基础的。依

据教育大数据计算特点,设计“存储—计算—挖掘”一体化的教育大数据框架,充分利用集群的多层次异构并行计算能力,分别从集群层面、多核并行层面和GPU并行层面等实现计算的并行加速,协同完成大规模计算任务;采用MapReduce、RDD等高性能实现方法,结合数据的局部性原理,实现基于“存储—计算”一体化集群环境的任务划分与分配策略;通过机器学习、深度学习实现数据的挖掘与分析,从数据操作底层为多核并行和GPU高性能计算的实施提供支持,为教育大数据计算效率的提高奠定基础。从而推动教育向数据决策化发展。

2.平台的主要服务能力

平台主要从学生、学校、教师三个维度的数据进行数据的分析和挖掘,从而为学校提供全方位的辅助决策支持。

三.平台系统架构

1.平台系统架构

平台系统整体架构包括大数据处理,数据挖掘,硬件环境,客户端等四个部分。其中大数据部分构成整个治理平台的基础,硬件和软件系统构成平台的容器,客户端是平台的出口。

2.业务系统架构

在集群硬件环境支持下,使用微服务架构+SpringCloud技术以及docker+kubernetes等技术实现一键布署。各微服务支撑教育大数据的所有业务场景、功能以及展示、报表所需要的

资源;微服务通过Restful WebAPI实现与客户终端的连接,微服务以这种接口形式实现服务与客户端的分离,从而可以灵活的实现多终端的接入以及为第三方提供服务能力;SpringCloud 为微服务提供安全、熔断、负载均衡、治理等能力。Docker+Kubernetes实现微服务的管理与发布从而实现所有微服务的一键发布。

3.大数据系统架构

大数据系统框架从数据采集到数据处理、分析、计算,使用了hadoop技术栈中大部分技术。可以采集从结构化到非结构化数据以及syslog 、消息队列、文本数据、网页内容等,

几乎涵盖了目前行业内,存在的大多数数据类型。能够处理离线和实时流数据,数据量可达TB级别,实时处理千万条数据可达到秒级或亚秒级,且所用设备量较少。现在离线处理数据每年是40T-90T左右;实时流数据,日处理数据达4500万条、100G左右。

4.硬件架构

整个硬件结构共包括大数据采集、清洗、计算用的x86架构服务器集群和机器学习与深度学习使用的GPU服务器集群,服务器将统一调度系统集群平台的资源、数据、软件、服务、数据挖掘等能力,并通过RESTful 标准服务提供给客户端。客

户端又根据具体应用的形式、目的的不同,分为PC终端、移动终端、大屏展示终端等多种形式。

四.硬件需求

1.基础需求

目前大数据治理平台分为服务部分、大数据的采集、处理部分和分析与挖掘部分三大块,对于三大部分所需求的硬件也是不同的。服务和大数据部分都可以采用普通的x86架构的服务器;分析与挖掘部分需采用GPU服务器。

服务部分:可以采用普通的x86架构的四核单CPU、8G-16G内存服务器,按服务量的大小增减服务器;按目前服务2万人的学校,使用服务器2-4台左右。

2.按数据量

数据量,主要是指大数据部分,所需要处理的数据量。

大数据部分:可以采用普通的x86架构的八核单CPU或双CPU、64内存服务器,按数据量的大小增减服务器。按目前服务2万人的学校,使用服务器8-15台左右。

数据分析与挖掘部分:必须采用2片GPU的GPU服务器,按分析数据量的大小增减服务器。按目前服务2万人的学校,使用服务器2-4台左右。

3.按实时性

实时性,主要是指大数据部分,所需要实时处理的数据量。

可以采用普通的x86架构的八核单CPU或双CPU、64内存服务器,按数据量的大小增减服务器。按目前服务2万人的学校,使用服务器10-20台左右。

相关文档
最新文档