北工大高性能计算暨云计算平台简介-青岛报告
北鲲云用户手册说明书

北鲲云用户手册Table of contents:登录一. 如何登录二. 下载客户端基本概念一. 计算区二. SSH连接三. 工作站四. 模板提交作业五. 镜像中心收费标准一. 收费项目二. 查看硬件资源价格功能介绍一. 仪表盘二. 应用中心三. 作业管理四. SSH连接五. 图形界面六. 文件传输七. 数据集八. 镜像中心提交作业模板提交命令行提交图形界面提交作业监控和查看结果视频专区一、 文件传输二、提交作业三、作业监控和查看结果四、镜像中心版本介绍一. 版本差别二. 功能介绍一. 个人中心二. 费用中心三. 代金券四. 收费标准计费规则五. 网络策略安全管理一. 基础设置二. 密钥对管理三. 网络策略管理四. 操作审计团队管理一. 用户管理二. 子用户管理配额管理一. 配额管理二. 配额申请存储目录介绍二. 其它隐藏目录(文件)介绍文件传输一. Windows数据传输二. Linux数据传输三. 结果文件下载四. 文件同步查询平台预装软件一. 使用命令行查询软件二. Python/Conda环境的查询三. 工作站软件的查询四. 未查询到所需软件加载预装软件一. SSH命令行加载软件环境1. 使用module工具查询和加载软件2. 加载Python/Conda虚拟环境二. 工作站启动软件自定义安装软件一. 安装须知如何选择安装方式?二. SSH连接命令行安装软件Linux编译安装软件Python/Conda环境安装软件三. Windows工作站安装软件四. Linux工作站安装软件五. 镜像中心安装软件如何提交作业模板提交一. 提交流程二. 操作步骤三. 提交后的监控命令行提交一. 操作步骤二. 计算节点资源使用率监控图形界面提交一. Windows工作站提交二. Linux工作站提交AlphaFold2一. 模板提交二. 命令行提交三. 结果文件介绍四. 使用PyMOL对结果进行图形化展示 Amber一. 模板提交二. 命令行提交CPU版 Amber 作业示例GPU Amber 作业示例Ansys CFX一. 图形界面提交二. 模板提交三. 命令行提交Ansys Fluent一. 图形界面提交二. 模板提交三. 命令行提交Ansys LS-DYNA一. 图形界面提交AutoDock-Vina一. 模板提交二. AutoDockToolsCOMSOL Multiphysics一. 图形界面提交二. 命令行提交CONVERGE一. 命令行提交CP2K一. 命令行提交步骤ColabFold一. 模板提交二. 命令行提交GROMACS一. 模板提交二. 命令行提交GPU版GROMACS作业示例CPU版GROMACS作业示例 Gaussian一. 模板提交二. 命令行提交三. GaussView 6对结果进行图形化展示 Jupyter Notebook一. 图形界面提交LAMMPS一. 模板提交二. 命令行提交LS-DYNA一. 图形界面提交二. 模板提交三. 命令行提交NAMD一. 模板提交二. 命令行提交ORCA一. 命令行提交PyTorchRoseTTAFold一. 模板提交二. 使用PyMOL对结果进行图形化展示STAR-CCM+一. 图形界面提交二. 模板提交三. 命令行提交TensorFlow一. 命令行提交TeraChem一. 命令行提交VASP一. 模板提交二. 命令行提交VirtualFlow一. 模板提交二. 后置处理失败基本功能使用问题1. 我该如何提交作业?2. 我该如何上传文件到服务器?3. 你们平台 文件传输 上传下载速度是否有限制,大文件无法上传如何解决?4. 我在通用计算区配置的环境在其它计算区怎么使用不了?5. 我在账号下创建一个子用户,子用户的目录和主用户进入的目录一样吗?6. 你们平台的模板功能,主要用于哪些场景?7. 我在您们平台提交作业,多核机器速度和自己本地电脑算起来速度没有快多少,会是什么原因呢?8. 可以设置工作站计算完自动释放吗?9. 作业结束后会有通知吗?10. 能看到下载到本地的文件在哪个目录下么?11. 请问下现在我们的WebSSH终端大概闲置多久才会断开连接?12. 我在通知设置里设置了闲置工作站自动释放,为什么没有释放?13. 您们平台是否支持自定义安装Linux系统其它发行版本?16. 停机与释放有什么区别?17. 我的作业为什么会执行失败?18. 使用模板提交方式,作业执行失败,我该怎么处理?19. 平台总共有哪些类型的节点,它们各自代表什么含义?应用软件使用问题2. 平台没有我要使用的软件怎么办?3. 你们平台是否提供商业软件?4. 普通用户没有权限安装软件,能否获取root权限?5. 每次登录都需要使用module add命令加载软件,可不可以实现自动加载?6. 使用slurm命令报错:“slurm_load_jobs error: Unable to contact slurm controller(connect failure)”如何解决?7. 执行module命令报错“Lmod has detected the following error:”,如何解决?8. 什么是队列?9. 为什么有些硬件资源无法选择?10. 使用Material Studio软件(Windows)时,CPU核数如何修改?11. Jupyter Notebook 如何远程使用虚拟环境?计费问题1. 平台是如何收费的?2. 如何充值?3. 如何查看消费记录?4. 工作站如何查看节点配置价格?5. 为什么我没有使用,还在一直扣费?6. 工作站停机还会收费吗?7. 已经赠送免费核时,但余额显示为零?8. 平台可以开发票吗?9. 节点选择经济型和标准型有什么区别?其他问题1. 我测试为什么工作站与本地笔记本同等CPU配置没有本地笔记本算的快?2. 提交作业需要排队吗?3. 节点启动需要多久?4. 超算资源有时候跑着跑着就被强制回收了,你们也会有这种情况吗?5. 为什么我的 CPU 使用率最高显示为 50%?6. 为什么我连接登录到Windows工作站没有看到H或者S盘,请问如何找回呢?7. 没有我想要的数据集怎么办?镜像中心使用问题1. 镜像中心有什么作用?2. 在哪里设置为默认镜像,如何启动默认镜像?3. 制作镜像需要多久,我已经制作了半个小时了还没结束?4. 我之前制作的镜像怎么不见了?5. 什么是容器镜像?6. 镜像中心磁盘大小设置方法Slurm作业管理系统1. 查看分区状态2. 查看作业队列3. 查看所有作业详细信息4. 取消作业号为20的作业二. 提交作业的方式1. 使用sbatch批处理模式提交作业2. 使用salloc分配模式提交作业 Module的使用一. 常用命令二. 使用例子Conda的使用一. 使用北鲲云的Conda环境二. Conda管理环境三. Conda管理包四. Conda/Pip软件安装进阶操作 Linux的常用命令linux快捷键以及帮助手册快捷键帮助手册软件安装yum用户和文件权限管理查看用户使用root查看文件权限变更文件所有者修改文件权限目录及文件操作基本目录操作基本文件操作搜索文件whichwhereislocatefind文件解压缩rartar管道与一些文本命令&& 和 ||管道文本处理sortcoltrpaste重定向重定向文件描述符永久重定向以及“丢弃”输出进程的基本操作前台/后台切换终止进程管理topps提交作业Body Attributes(Body属性)Request(请求)Response(响应) - 200Response Body Attributes(响应Body属性) 取消作业Body Attributes(Body属性)Request(请求)Response(响应) - 200Response Body Attributes(响应Body属性) 查询作业状态URL ParametersRequest(请求)Response(响应) - 200Response Body Attributes(响应Body属性) 获取文件服务器TokenRequest(请求)Response(响应) - 200查询集群配置Body Attributes(Body属性)Request(请求)Response(响应) - 200Response Body Attributes(响应Body属性) 修改集群配置Body Attributes(Body属性)Request(请求)Response(响应) - 200Response Body Attributes(响应Body属性)登录欢迎来到北鲲云一站式云超算平台!本文档提供了一些链接来帮助您登录。
锂电池干房及电池项目方案书

1000万只 1500万套 1000万吨 1500万吨
2997万美元 2998万美元 2657万美元 3712万美元
9
三洋能源(北京)有限公司
25937.5 锂离子电池 1800万只
22616.22
9
三洋能源(北京)有限公司
25940
锂离子电池 1800万只
22600
10 天津蓝天三洋电源有限公司 (改造)
•地点:苏州 •建筑面积: 8000m2 • 特点:调味品/调料
新能源领域
The field of new energy
尚德太阳能电力有限公司
•地点:浦东,上海 •建筑面积: 193000m2 •特点:硅薄膜太阳电池研发及生产, 60MW(一期)
天津蓝天三洋电源有限公司
•地点:天津 •建筑面积:10000m2 •特点:锂电池组装
EPCM Project – BOE Chengdu Co., Ltd. 4.5G TFT-LCD 总包管理项目-京东方成都4.5代线 TFT平板
地点:四川省成都市 合同类型: EPCM 建筑面积: 80000 m2
Intel 亚太研发中心
•建设地点: 紫竹工业园,上海 •规模: 50000 m2
中国平安财产保险股份有限公司 平安保险培训基地信息中心
•建设地点: 深圳 •规模: 19000 m2
中国科学院计算机网络信息中心中国科学院北京超级云计算 和国家重要信息化基础平台建设项目
•建设地点: 北京 •规模: 17572 m2
工作范围: – 所有工程设计服务 – 所有建筑和室内设计 – 采购、施工及建筑/工厂设备试车 – 负责开车到最终验收的所有程序
EPC Project – Anadigics 总包项目-安利吉
北京云基地介绍

中国云计算时代的坐标北京云基地Cloud Valley 北京云基地Cl d V ll◇云基地-北京云基地简介◇云布局-云产业链的形成◇云企业云系企业介绍-◇云方案云基地解决方案介绍-◇云未来云基地远景规划-祥云工程,北京云行动祥京发战略新产的北京云基地,祥云示范基地“祥云工程”是北京发展战略性新兴产业的重要工程,它以云计算为契机,全面优化和提升北京信息技术产业,使北京成为中国乃至全球的云计算中心北京云基地正使北京成为中国乃至全球的云计算中心。
北京云基地正是在北京市政府前瞻性规划中诞生的。
它将发挥云计算领域技术和产业优势,遵循“服务引领、自主创新、国际同步、产业链联动”原则,合理布局云应用、云产品、云服务和云基础设施。
通过这些重大工程的实施,迅速形成面向市场的云应用,使北京的云计算应用水平尽快达到世界前列。
北京云基地的诞北京云基地的诞生北京云基地的建设得到了北京市领导的直接关注与大力支持 云基地由北京市经信委、亦庄开发区与宽带资本联合创建云基地旨在投资培育下一个信息技术制高点“云计算”的新兴产业基地北京云基地目前入驻企业10余家,总投资规模5亿元入驻云基地的公司员工600人云计算产业新技术代表人物、海归高端人才等参与了云基地云计算产业新技术代表人物海归高端人才等参与了云基地投资,包括Yahoo创始人杨致远先生等一个求知时代,示范与创造的样本✓北京云基地坐落在北京经济技术开发区北工大软件园内,是座八层楼、使用面北工大软件园内是一座八层楼使用面积达7000多平方米的现代通透式自然楼体。
云计算的价值在于通过整合、共享和动态地提供资源来实现IT投资利用率最大化,从而使更多人分享人类知识,降低社会成本,创造低碳生活。
✓北京云基地的设计理念与云计算价值一致,规设致,从整体规划、设备配套到管理模式、工作模式都体现了绿色、低碳、节能的概念。
全楼色调以绿色为主。
绿色象征生命的鲜活,亦是一个新时代文明的基调。
北京云基地规划布局✓实时展现云科技成果与应用的展示中✓人性体验之云上咖啡馆心✓培养云计算人才的培训中心✓人性体验之各楼层✓多层标准智能化办自助厨房公区域✓人性体验之运动休✓虚拟化数据中心闲区域北京云基地为使北京成为中国乃至全球云计算中心贡献力量◇云基地北京云基地简介-云布局云产链的形成◇-云产业链的形成◇云企业-云系企业介绍◇云方案-云基地解决方案介绍◇云未来-云基地远景规划云系企业,中国云计算产业链上的前瞻性布局北京云基地进驻的是宽带资本投资的各个云系企业。
CAE高性能计算平台建设方案

CAE高性能计算平台建议书目录第 1 章概述 4第 2 章关于IBM高性能计算的简介 7第 3 章汽车行业CAE应用程序的特点及计算平台的选择 11汽车行业CAE分析的过程 11CAE高性能运算应用程序的特点 11CAE硬件平台的选择 15IBM Cluster 1600介绍 17IBM Cluster 1350 Linux集群系统(IBM刀片中心): 20IBM优势 21第 4 章CAE高性能计算系统设计原则 24应用通用性原则 24系统高扩展性原则 24系统高可用性原则 25处理器性能最大化原则 25高性价比原则 26第 5 章CAE高性能计算平台方案 27关于XX汽车CAE项目投资的几点建议 27总体方案描述 27二期扩展方案 31第 6 章相关产品技术介绍 32IBM Power 575 32IBM BladeCenter 34IBM BladeCenter HS22 38IBM System x3650 M2 41IBM System Storage DS5000 系列模块化企业存储系统 43IBM并行文件系统GPFS简介 46xCAT集群系统管理软件 48IBM智能系统管理 49第1 章概述CAE一直是高性能计算的主要应用领域。
随着现代汽车技术的发展,特别是与其它学科如数学、物理、化学、材料科学的结合,汽车应用所需处理的数据信息量不断增加,对运算能力的需求也越来越大,由于并行计算技术的飞速发展,汽车CAE模拟的应用平台也逐渐从巨型机过渡到高性能计算机系统,这也为用户提供了一个具有更高性价比的选择。
近年来,高性能计算作为大规模CAE应用的基石,在工业和制造业领域的应用越来越普遍和广泛。
从TOP600的统计信息来看,工业领域所占的比例在不断增加。
2005年6月,工业用户使用的高性能计算机占到52.8%。
而其中的半导体和制造业用户所占的比例相当可观。
其中美国半导体公司大约有70台。
许多国际著名的制造业大公司已实现了产品的虚拟化设计和制造,并实现了全球资源共享,利用全新的理念设计产品。
北高性能计算校级公共平台快速入门

登录IP 162.105.133.134 162.105.133.209 162.105.133.164
16
3.1 Linux/Mac用户登录
$ ssh username@ip_address $ ssh -X username@ip_address
其中uername为统一认证账号,ip_address为需要登录 集群的IP,如果需要使用图形界面的话还需要加参数-X。
8
收费标准
未名一号和未名生科一号为收费集群,其中CPU节点 及胖节点按照核心计费,GPU节点按照GPU卡计费,KNL 以台为单位计费。收费详情请查看 (/guide_6.html)
9
以下为生科一号的收费详情,假设用户在C032M0128G节点提交作 业,指定作业优先级为low,那么作业的费用=0.04*使用核心数*作业运 行时长。
节点数 140 51 5 10
8 1 2 227
6
硬件环境:未名生科一号
节点类别 CPU 节 点 GPU 节 点
合计
型号
主要规格
节点数
Lenovo SD530
2*Intel Xeon Gold 6142,128G,双口万兆
129
Hale Waihona Puke Lenovo XS1500
2*Intel Xeon E5-2690 V4,256G,4* NVIDIA Tesla V100,双口千兆
7
CPU节点配120G SSD、GPU节点配1920G SSD、并均配有Intel OPA 100 Series Single-port PCIe 3.0 x16 HFA
136
7
硬件环境:未名教学一号
• 物理机配置
型号 Inspur NF5280M5 Inspur NF5280M5
北京工业大学研究生-计算机科学与技术

计算机学院计算机科学与技术(一级、0812)★计算机学院概况北京工业大学计算机学院成立于1997年(由原北京工业大学计算机系、原北京计算机学院等部门合并组成),是全国最大规模的计算机高级人才培养基地之一。
计算机学科是国家“211工程”“九五”、“十五”和“十一五”重点建设学科,学科排名在全国处于前列。
学院下设计算机应用技术系、计算机系统结构系、计算机软件系、信息安全系四个系,计算中心,实验中心两个软件和硬件实验教学基地。
以“立足北京、服务北京、辐射全国、面向世界”为办学定位,贯彻“内涵发展、自主创新、人才强教、资源统筹”指导思想,坚持学术团队、学科方向、基地建设的统筹发展,积极适应首都经济和城市建设需求。
学院师资力量雄厚,专任教师113名,其中:博士生导师20名,教授32名,副教授51名。
学院目前有双聘院士2人,国家杰出青年科学基金获得者1人,国家有突出贡献中青年专家1人,北京市特聘教授1人、讲座教授5名,享受政府特殊津贴专家3人。
现拥有“计算机科学与技术”博士后流动站,“计算机应用技术”博士学位授权点,“计算机科学与技术”一级学科硕士学位授权点和“计算机技术”(招收全日制双证专业学位研究生)、“软件工程”两个专业学位授权领域,形成了从学士到硕士、博士的完整人才培养体系。
目前,全院在校全日制硕士研究生近500人,博士生100余人。
学院拥有多媒体与智能软件技术北京市重点实验室、北京市教育网络信息技术工程中心、教育部数字社区工程中心。
近年完成863、973、国家自然科学基金等国家高水平研究项目数十项,获得国家科技进步二等奖1项,省部级科研与教学成果奖12项,发表学术论文900余篇,出版教材和学术专著35部。
计算机学院工学硕士研究生按计算机科学与技术一级学科招生。
★主要研究方向及特色计算机系统结构方向本研究方向近年来在分布式处理与高性能计算、计算机网络、多核技术、可信计算、嵌入式系统的研究方面取得很大进展。
钢铁企业云计算平台研究及应用

钢铁企业云计算平台研究及应用1. 引言1.1 钢铁企业云计算平台研究及应用的背景钢铁企业的生产过程涉及到大量的数据和信息,而传统的信息化手段已经无法满足其日益增长的信息处理需求。
云计算平台能够提供强大的计算和存储能力,帮助企业实现数据的集中管理、快速分析和智能决策。
通过云计算平台,钢铁企业可以实现生产过程的精细化管理,降低生产成本,提高生产效率,从而增强市场竞争力。
钢铁企业云计算平台研究及应用的背景,正是钢铁行业追求信息化、智能化转型升级的必然选择。
随着云计算技术的不断发展和完善,钢铁企业在实现数字化转型的道路上迎来了新的机遇和挑战。
1.2 钢铁企业云计算平台现状分析目前,随着信息技术的不断发展,云计算在钢铁行业的应用也逐渐受到重视。
钢铁企业作为传统制造业的代表,面临着生产成本高、资源利用低效等问题,云计算技术的引入为其提供了一种新的解决方案。
在当前的钢铁企业中,云计算平台的应用已经逐渐普及。
通过云计算技术,企业能够将数据存储在云端,实现数据的集中管理和共享。
云计算平台也能帮助企业实现生产过程的数字化管理,提高生产效率和产品质量。
钢铁企业在生产中所产生的大量数据也需要进行有效的处理和分析。
通过云计算平台,企业可以借助大数据分析、人工智能等技术,对数据进行深入挖掘,发现潜在的商机和问题,为企业的决策提供有力支持。
钢铁企业云计算平台的现状表明,企业对于云计算技术的重视程度逐渐增加。
未来随着技术的不断发展和应用场景的不断扩大,钢铁企业云计算平台将在企业的生产经营中发挥越来越重要的作用。
2. 正文2.1 钢铁企业云计算平台建设的必要性探讨钢铁企业作为传统制造业的代表,在当前数字化转型的浪潮下,面临着诸多挑战和机遇。
在这样的背景下,钢铁企业云计算平台建设显得尤为重要和必要。
钢铁企业云计算平台建设可以有效提高生产效率和降低成本。
通过将企业各个部门的数据整合到云端平台上,实现信息共享和联动,可以实现生产过程的优化和智能化管理。
北邮 信息系统安全 实验 云计算实验平台的搭建及其安全性验证

北京邮电大学实验报告云计算实验平台的搭建及其安全性验证学院:计算机学院专业:信息安全科目:信息系统安全实验姓名:陈星曼1.实验任务(1)使用Hadoop 搭建一个实验性的云平台;(2) Hadoop 提供了哪些安全机制?请自行设计实验,测试三项主要的安全机制,其中必须包括Hadoop 的数据备份机制;(3) 查阅文献,选择一种攻击方式尝试对搭建的云平台进行攻击,并根据攻击效果思考如何对云平台进行安全加固。
2.实验原理Apache Hadoop 是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。
2.1 MapReduce 计算模型MapReduce将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。
适合用MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
2.2 数据分布存储Hadoop 中的分布式文件系统HDFS 由一个管理结点( NameNode )和多个数据结点( DataNode )组成。
其底层实现上是把文件切割成Block,然后这些Block 分散地存储于不同的DataNode 上。
NameNode 则是整个HDFS 的核心,它通过维护一些数据结构,记录各个Block和各个DataNode 的状态等重要信息。
2.3 分布式并行计算Hadoop 中有一个作为主控的JobTracker,用于调度和管理其它的TaskTracker, JobTracker 可以运行于集群中任一台计算机上。
TaskTracker 负责执行任务,必须运行于DataNode 上,即DataNode 既是数据存储结点,也是计算结点。
JobTracker 将Map任务和Reduce 任务分发给空闲的TaskTracker, 让这些任务并行运行,并负责监控任务的运行情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算资源 存储资源 网络资源
10TB 1套千兆以太网 SAN存储、 2台I/O服务器 1套万兆以太网
企业云应用、开 84台 发测试云 刀片服务器 数据密集型高性 70台 能应用 刀片服务器 通信密集型高性 98台 能应用 刀片服务器
C区
D区
1套Infiniband 高 30TB SAN存 性能通信网络 储、 6台I/O服务器 内存密集型高性 3台大内存机 1套Infiniband 高 能应用 架服务器 性能通信网络、 1套万兆以太网
◦ 用户可以通过资源模板,定制所需的软件环境,实现自动部署
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
实践1:第二届北京工业大学IBM杯并行计算大赛 ◦ 共10个学院,29个参赛小组 ◦ 自选课题, 86%来源于实际项目需求 ◦ 应用类型多样,并行环境需求异构
√
√
From first principles!
第一性原理计算
在节点数目大于4 后,其并行效率会剧烈下降。 主要是由第一性原理计算密集型、通信密集型的 计算特点导致,而云平台的虚拟化技术会增加了 计算任务和底层的额外时间,特别是当节点数较 多时,浪费在程序与底层之间、多节点之间的网 络交换的时间将增加导致整体效率非常低。 由于第一性原理计算VASP程序在每一步并行之后 虚拟集群环境配置: 需要互相对比数据进行自洽,随着节点数的增加, 70个节点(单核CPU 2.83GHz,内存 各个节点之间的网络交换时间和穿越虚拟层的时 间都将大大增加,导致了系统时间的增加,同时 Redhat Linux 5.5 影响运算时间,最终导致了云平台多节点并行效 率的低下。 千兆以太网
◦ MPI并行程序库
用于MPI并行作业运行时环境
◦ OpenMP并行程序库
用于OpenMP并行作业运行时环境
◦ 作业管理软件---LSF
用于机群作业管理,资源监控,计费管理,可支持多机群协同管 理
可提供多类高性能作业(如MPI作业等)的全生命周期管理 机群使用情况的报表生成和智能化分析 多分区、多机群协同管理 多种形式的计费管理 提供基于web、命令行等多种形式的用户界面 降低用户的使用门 槛,提供系统好用性。
计算机
虚 单个虚拟机硬件配置 拟 机 CPU 内存 硬盘 个 数
单个虚拟机软件配置 操作系统 集群配 置 并行环 境 监控 作业调 度
头节点
1
1*2.83 GHz
2GB
30 GB
Windows xp/ Windows 2003/ RHEL 5.4-32bit/ RHEL 5.4-64bit/ RHEL 5.2-32bit
◦ 部署时间:2小时;运行时间:超过3个月
◦ 师生反响
任课教师:“基于云平台提供虚拟试验环境,是一种全新的
教学手段。基于北工大云计算平台为本科/研究生《并行计算 》课程的实践环节自动部署所需的并行计算基础环境,有助 于教师在有限的学时内,将教学内容集中于并行计算环境之 上的并行算法设计和并行编程技术,贯彻了该门课程的教学 宗旨,提升了教学效率;同时,基于统一的平台环境,对学 生的课程设计进行检测,有助于优化该门课程的考核评价体 系。” 学生代表:“云平台提供的虚拟机集群为我们提供了很好的 软硬件环境,避免了我们在硬件准备、集群搭建和并行环境 配置方面耗费过多时间和精力,使我们能集中精力进行并行 程序的开发和调试。同时,通过无线校园网接入,我们可以 在学校任何地方随时访问云平台,提高了我们的学习效率。
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
高性能计算平台和云计算平台的硬件遵循分区规划、 统一管理的建设思路
以机群为主体架构
总计算能力达到23TFlops,总存储能力达到40TB, 目前规模位居全国高校前列
计算资源 ◦ 252台IBM HS21刀片服务器
◦ 通信密集型 ◦ 内存密集型
针对不同类型的高性能应用的计算需求,在B、C、 D区分别定制不同的软硬件配置方案
利用高性能作业调度和管理技术,为应用合理分配 计算资源,提高应用运行效率。
高性能计算服务门户 高性能计算门户 典型高性能应用门户 高性能应用软件(Anasys, Nastran)
门户层
◦ 为门户网站、企业信息系统等提供托管运行环境
利用虚拟化技术,以虚拟机的形式为用户动态提供 计算资源服务
利用自动部署技术,构建用户所需的软件运行环境
◦ 在2个管理服务器上安装IBM BlueCloud,管理范围覆盖A区. ◦ 目前,基于xen虚拟机管理器,可提供的软件环境
操作系统:Windows XP/Windows 2003/RHEL 5.4-32bit/RHEL 5.4-64bit/RHEL 5.2-32bit 并行计算环境:MPICH1/MPICH2/OpenMP/Hadoop 监控系统:ITM Monitoring Agent 集群配置:SSH/NFS/Torque
◦ 基于A区,采用IBM云计算技术,提供并行应用 调试/运行环境
学院 电 生 激 建 机 机 机 数 材 控 命 光 工 电 电 电 理 料
应
用
软 件 环 境 Linux Hadoop + Hbase Linux + MPI + Boost_1_34_1 Linux + MPI + Pvm Linux + MPI + OpenMPI + OpenMP + Opensees Linux + MPI + Fortran90 Linux + MPI Windows XP + MPI Windows XP + MPI + Vc++6.0 Linux + MPI Linux + MPI + Opencv
安装于管理域的1台管理服务器上,管理范围覆盖B,C,D区。
◦ 文件管理软件—GPFS并行文件系统
用于对SAN存储域中所存文件数据的高效读写。 在存储域的6台I/O服务器上部署GPFS server,在B,C,D区的所有节 点上部署GPFS client,管理范围覆盖B,C,D区。
作业管理层
在2个管理服务器上安装LSF Master,在B,C,D区的所有节 点上部署LSF Slave,管理范围覆盖B,C,D区,实现多分区 计算资源的统一调度管理。
高性能应用层
◦ 目前安装Anasys, Nastran等高性能应用商业软件
◦ 最终将实现与作业管理系统LSF的集成,通过LSF实现应用 软件运行时的资源分配和作业调度
CPU:2路,4核,主频2.83GHZ;内存:16GB;硬盘:146GB
CPU: 16颗,4核,主频2.13GHZ;内存:512GB;硬盘:3*146GB
◦ 3台IBM X3950M2大内存机架服务器
存储资源 ◦ 4台IBM TotalStorage DS4700-70A磁盘阵列 ◦ 基于SAN架构的存储网络系统
◦ 在线同时管理虚拟机群数最大为32个
◦ 虚拟机群平均部署时间约为30分钟
◦ 通过蓝云提供的细粒度资源供给功能,仅使用
了50-65%的硬件资源,满足所有29个参赛小组 的高性能资源需求。
实践2: 《并行计算》本科/研究生课程虚拟教学 试验环境
◦ 学生总人数64人
◦ 部署环境
4个虚拟计算节点(0.5core,1GB内存,15GB硬盘) 本科:windows+MPICHI2 研究生:linux+MPICHI2
北京工业大学网格中心 2011-6-9
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
建设目标 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
服务教学科研 开展科学研究 支撑服务北京
ssh/nfs
Mpich2 / ITM OpenMP Monitori /Hadoop ng Agent
Torque-client
0
15分钟
30分钟
high-resolutioned Mandelbrot set and Julia set parallel volume rendering
◦ 共计部署于84个刀片服务器 ◦ 虚拟机群规模8-100个节点
服务目标及建设情况 总体结构及硬件基础设施 高性能计算平台简介 云计算平台简介
北京工业大云应用及高性能应用实践
以服务的形式,面向用户多样化的应用需求,提供 定制的、个性化运行环境。
典型应用场景
◦ 为高性能计算相关课程教学提供试验环境 ◦ 为并行编程用户提供调试环境
◦ 为规模较小的计算密集型高性能应用提供运行环境
高性能应用层 作业管理层 基础管理层
作业管理(LSF)
并行编译器及并行库(MPI)
系统管理(Xcat)
文件管理(GPFS)
硬件资源(计算、存储、网络)
节点操作系统层
◦ 目前安装RadHat Enterprise Linux 5.5
基础管理层
◦ 系统管理软件---xcat
用于高性能机群的系统管理和配置,可通过网络实现机群系统软件 的自动部署以及节点的远程启动/关闭。