曙光作业管理-调度系统安装配置手册
曙光天阔A620r-G用户手册V1.0

曙光天阔A620r-G服务器用户手册曙光信息产业有限公司使用前,请仔细阅读本说明书并妥善保管,以备将来使用本手册适用于A620r-G服务器版权所有©2010曙光信息产业有限公司。
使用本手册时,敬请首先详阅“声明及注意事项”部分。
开始使用本手册则代表您已经阅读并同意“声明及注意事项”部分中所提到的信息。
本手册受版权法保护,本手册的任何部分未经曙光信息产业有限公司授权,不得擅自复制或转载。
本手册中提到的信息,如因产品升级或其他原因而导致变更,恕不另行通知。
“曙光”,“DAWNING”,及图标是曙光信息产业有限公司的注册商标。
“AMD”,“Opteron”及图标是Advanced Micro Devices公司的注册商标。
其他注册商标均由其各自的商标持有人所有。
声明及注意事项感谢您选用曙光服务器!曙光服务器将给您带来强大的应用支持和全新的性能体验。
为了您能够更安全、方便的使用曙光服务器,在使用之前,请详细阅读本节所提示的信息。
曙光服务器在设计和制造过程中均遵循了严格的标准,以保证您所使用的服务器拥有卓越的品质和完美的“SUMA”特性。
但是服务器属于精密电子设备,在使用过程中仍然可能因为各种原因而导致异常,所以请务必明确以下事项:1、请将服务器放置在阴凉、干燥、通风、洁净、无强磁场的环境中使用,这有助于服务器的稳定运行,并将可以延长服务器的使用寿命;2、请使用带接地保护的三芯电源线与插座,并使用220V 交流电,不正确的电源设置可能会导致漏电、烧毁、爆炸甚至人身伤害;3、请不要在服务器正在运行时插拔背板连线或是移动服务器,否则将可能造成服务器当机或是部件损坏;4、请尽量避免频繁重启或开关机,以延长服务器的使用寿命;5、请用户及时备份重要数据,曙光信息产业有限公司不为任何情况导致的数据丢失负责;6、请使用正版操作系统及软件,并进行正确配置。
曙光信息产业有限公司对由于操作系统和软件引起的服务器故障不负有维护责任;7、请不要自行拆开机箱及增减服务器硬件配置,曙光信息产业有限公司不为因此而造成的硬件及数据损坏负责;8、当服务器出现故障时,如果您不能确定故障的原因,请及时与曙光技术支持部门联系以获得帮助;9、如主板CMOS电池失效,请使用与本机配备的电池相同型号的电池进行更换,替换下的电池请妥善回收处理。
曙光IPMI系统管理平台用户使用指南(总10页)

曙光I P M I系统管理平台用户使用指南(总10页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除用户使用指南目录概述........................................................................................................................... 错误!未指定书签。
智能平台管理接口(IPMI)................................................................... 错误!未指定书签。
基板管理控制器(BMC)....................................................................... 错误!未指定书签。
IPMI的相关配置 ...................................................................................................... 错误!未指定书签。
获取/配置IP地址等信息........................................................................ 错误!未指定书签。
1.在BIOS下进行配置 ........................................................................ 错误!未指定书签。
2.用DOS工具进行获取/配置 ........................................................... 错误!未指定书签。
3.在windows操作系统下配置 ......................................................... 错误!未指定书签。
曙光集群简明使用手册ppt课件

2020/2/20
曙光集群系统使用和管理
8/56
集群系统的体系结构
2020/2/20
曙光集群系统使用和管理
9/56
集群系统的物理架构
(InfiniBand)
2020/2/20
曙光集群系统使用和管理
10/56
曙光集群的计算系统
计算节点
一般为双路或四路 刀片或机架式服务 器,为计算系统的 主力。
SMP 胖节点 一般用于一些有大 内 多存核内、处容高理I的O需或求单,机 满足一些特殊应用 的需求。
计算 系统
2020/2/20
曙光集群系统使用和管理
GPGPU节点
GPU即图形处理单元, GPGPU的意思为使用显 卡做通用计算,由于 GPU卡具有更多计算核 心数,更高的能效比和 更强的浮点计算能力, 所以对于适合GPU,并 在GPU上移植成功的应 用软件提供更高的性能
14/56
曙光集群网络拓扑图(示例)
2020/2/20
曙光集群系统使用和管理
15/56
曙光集群用户视图(示例)
2020/2/20
曙光集群系统使用和管理
16/56
三、曙光集群的使用
• 远程登录系统 • 上传下载数据 • Linux常用命令 • 安装和运行程序 • 使用作业调度
2020/2/20
曙光集群系统使用和管理
VNC是一款优秀的远程控制工具软件,由AT&T的欧洲研究实验室开 发,是基于UNIX和Linux操作系统的免费开放源码软件,远程控制能 力强大,高效实用。
11/56
曙光集群功能节点
管理节点
•用于运行系统级的管 理软件,性能要求不 高,但可靠性要求高, 数量少
曙光Raid配置手册

曙光R a i d配置手册一、曙光服务器Raid配置说明1.1、Raid配置途径本手册适用于曙光天阔I640r-G服务器,raid卡型号是Adapetc 52445,其它供参考使用,配置RAID可通过两种途径,第一种通过IPMI远程配置,第二种进行本地操作配置RAID;如何通过IPMI实现远程配置RAID,相见曙光IPMI配置手册,进入Bios以后,操作同本地一样。
1.2、Raid规划方案本服务器共24块硬盘,前两块硬盘划分一个磁盘组,做Raid1,供安装系统使用;第3块至第22块硬盘,分三组,每组7块硬盘,做Raid5,做存储用;第24块做热备,供其它磁盘损坏备用。
注:服务器磁盘,从0数字键开始,至23共24块;这里描述的第几块,是从自然块1开始的,请不要混淆。
二、曙光服务器Raid配置操作步骤2.1、初始化磁盘驱动器步骤:第一步:开机启动如下图,按Ctrl + A键进入Raid设置界面第二步:进入Raid设置界面,如下图选择Array Configuration Utility第三步:选择Array Configuration Utility后,按回车键,进入下图界面,选择Initialize Drives 第四步:选择Initialize Drives后,同样按回车键,进行驱动器初始化,进入下图界面按空格键和翻页键选择所有磁盘第五步:选择所有磁盘后,按回车键,如下图,均输入Y同意第六步:均同意后,进入下图,正在初始化磁盘驱动器2.2、创建磁盘阵列根据Raid规划方案进行磁盘组划分2.2.1、创建系统磁盘阵列步骤:第一步:在初始化磁盘驱动器后,返回主界面,如下图,选择Create Array,按回车键进入磁盘组选择界面第二步:进入进入磁盘组选择界面后,按空格键选择前两块磁盘,作为一组,如下图第三步:选择两块磁盘后,按回车键进入下图,选择Raid1,按回车即可确定第四步:选择好阵列类型后,设置阵列名称,如下图,按空格后键输入阵列名称,按回车键确定第五步:设置好阵列名称后,按回车键进入阵列磁盘单位的选择,如下图选择TB,按回车键确定第六步:完成第五步后,按回车键进入读缓存的设置,如下图选择Enable MaxIQ,按回车键确定第七步:如上图按任意键后,进入写缓存设置,如下图选择Enable always,按回车键确定根据提示,按Y键同意即可第八步:如下图进入raid初始化设置,选择Quick Init,按回车键确定,选择Done完成设置按任意键返回主界面。
曙光 6000 超级计算机使用手册 - 清华大学深圳研究生院

曙光6000超级计算机使用手册系统运行部2012年12月12日目录一、基本环境二、系统软件环境2.1 操作系统 (5)2.2 作业调度系统 (5)2.3编译器和并行实现 (5)2.4 数学库 (6)三、使用方法3.1 登录和传输文件 (8)3.2 编译 (12)3.3 作业提交 (13)3.4 作业管理 (23)附件A.常用的作业提交模板1.普通串行计算 (25)2.普通MPI并行作业 (25)3.多个计算步骤的计算脚本 (25)4.共享内存并行作业 (26)5. 4. OpenMP+MPI 混合并行作业 (26)附录B:商用软件使用方法1.Fluent软件 (28)2.ANSYS软件 (30)3.CFX软件 (33)4.ABAQUS软件 (35)5.MARC软件 (37)6.NASTRAN软件 (39)7.LSDYNA软件 (41)8.DYTRAN软件 (43)9.ADF软件 (45)10.HFSS软件 (47)国家超级计算深圳中心采用由中科院和曙光公司联合研制的曙光6000超级计算系统,该系统整体计算能力实测峰值为1.271千万亿次浮点运算(1.271PFLOPS)。
于2011年11月16日投入运行。
本文主要介绍曙光6000超级计算系统的使用方法和环境。
一、基本环境为了方便管理和使用,曙光6000超级计算系统高性能计算区分成5个逻辑分区,分别为科学计算分区(GK)、工程计算分区(GG)、生命科学计算(GS)、胖节点分区(Fn)以及龙芯计算分区(Lx)。
其中GK、GG、GS分区的每个计算节点由2颗Intel5650六核心处理器组成、主频2.66GHz,配置24GB DDR3内存以及1块Nvidia C2050 GPGPU卡,一块本地149G的 SAS硬盘,一块QDR IB子卡。
胖节点分区(Fn)共配置128台4路A840 SMP计算节点,每个计算节点配置4颗AMD 6136 八核心处理,主频2.4GHz,内存128GB。
曙光服务器安装手册

曙光服务器安装系统手册
所需工具(pe U盘,sever 2008系统安装光盘,中科曙光服务器导航光盘)安装过程中,如果遇到其他问题拨打客服电话(400-816-0466)
1开机进入系统自检,自检2次后按下f7键进入bios。
2 第一步:
选择u盘作为第一启动项,进入pe 先格式化硬盘和分盘,如果被光驱位占用了c盘的盘符
右键计算机-管理
右键光驱把占用c盘的驱动器路径给个新的。
(不用c盘)以免后期使用,会出现某些问题。
如果其他盘占用c 盘符同理.
第二步
插入安装光盘,等系统自检二次后,按下f7 进入bios ,选择光盘作为第一首选项启动进入到“put any key ......”这个页面。
按下任意键进入-安装程序。
选择自定义高级安装,进入后由于没有安装radio 驱动是没有显示硬盘的-所以选择加载驱动程序。
插入导航光盘,然后选择drivers文件夹,具体看当时的系统选择不同的radio ,然后选择下一步安装.
第三步拿出曙光导航光盘,放入server2008光盘安装-选择-系统盘即可。
第四步进入系统后-可能没有网卡驱动,需要安装,插入u盘。
右键“以太网控制器”更新驱动程序-软件-选择20_0_CD文件夹,点击确定。
(如果没有驱动,请联系客服)
安装成功后,下边的黄色标志,变为白色以后,就可以正常上网了,安装结束,成功!
2016/8/29
钱豪杰。
OpenPBS作业管理系统介绍

创建队列
• 自动创建队列 #cd /var/spool/pbs #qmgr <pbs_config.sample
PBS的使用步骤
• 准备:编写描述改作业的脚本,包括作业名, 需要的资源等。 • 提交:使用qsub命令将该作业提交给PBS服务 器 • 排队:服务器将该任务排入适当的队列 • 调度:服务器检查各工作节点的状态是否符合 该作业的要求,并进行调度。 • 执行:当条件满足时,作业被发给相应的执行 服务器执行。程序运行时执行服务器会收集程 序的标准输出和标准错误流,等程序结束时, 将这些信息返回给用户。
MPI作业脚本
# Sample PBS script for MPICH #PBS -l nodes=16 #PBS -j oe #PBS -m ae #PBS -M dawning@ NP=$(wc -l $PBS_NODEFILE | awk '{print $1}') echo "nodes ($NP cpu total):" sort $PBS_NODEFILE | uniq cd $PBS_O_WORKDIR mpirun -machinefile $PBS_NODEFILE -np $NP <filename>
安装服务器端
• 用源码来安装 #./configure --set-serverhome=/var/spool/pbs --set-defaultserver=server_name #make #make install
服务器端的目录结构
服务器端的配置
• 向/var/spool/pbs/server_name中添加服 务器节点的主机名 • 将集群中所有计算节点的主机名加入 /var/spool/pbs/server_priv/nodes中,每 个节点一行,如 node01 np=2 • 将/var/spool/pbs/mom_priv/config中的, $clienthost改为$clienthost server_name
光路调度系统操作手册

中国移动传输网管系统光路调度使用说明中国移动传输网管传输工作组1光路调度系统1.1.1机房内光路调度场景描述:系统可以支撑同一机房内的尾纤直连的光路调度操作方法:步骤1:光路设计人登录系统系统,新建一张光路调度单:填写调单标题和要求完成时间,点击保存;步骤2:进入调单明细页面,选择调度类型为“新增”,点击“+”按钮;步骤3:进入光路编辑页面,起止点选择同一机房,填写基本信息内容,业务类型选为普通业务;步骤4:点击进入路由设计页面;路由设计页面呈现机房内的跳纤界面,页面两侧显示所选机房下的设备端子和传输端口。
步骤5:分别选择两侧传输端口或ODF端子,点击“添加左侧端口”、“添加右侧端口”按钮,然后选中两侧端口或端子,点击“连接",可以添加传输端口到端子之间的跳纤,同时支持传输端口间的直连,端子与ODF端子之间的跳纤。
步骤6:保存光路,进入调度单tab页,点击“直接派发”;步骤7:光路施工人登录系统,在待处理工单列表选中单据进入,点击“受理”;选中光路,点击“填写回单",选择施工结果为“已处理”,点击“确定”;步骤8:点击“竣工提交”,成功提交,工单流转至光路调单待归档工位。
步骤9:光路设计人登录系统,在待处理工单列表选中单据进入,选中光路,点击“回写”,选中回写结果为“占用”,“确定”进入调度单tab页,点击“传输竣工归档”,调度单成功归档,调度完成。
1.1.2机房间光路调度场景描述:系统可以支撑同一局内不同机房间的光路调度操作方法:步骤1:光路设计人登录系统系统,新建一张光路调度单:填写调单标题和要求完成时间,点击保存;步骤2:进入调单明细页面,选择调度类型为“新增”,点击“+”按钮;步骤3:进入光路编辑页面,起止点选择同一站点下的不同机房,()“如郑州市北环10楼机房—郑州市北环11楼机房”填写基本信息内容,业务类型选为“传输系统"(两端都是传输设备的情况)(其他两种业务类型:“普通业务”适合两端都不选择设备端口,“光纤出租”适合一端有端口,一端无端口);步骤4:点击进入路由设计页面,预占光纤{由于河南楼内光缆不做光缆系统处理,无法按光缆系统搜索光纤},指定传输设备端口后,双击机房选中设备端口和一个ODF端子分别进行设备端口和ODF端子的关联,两端都需要做连接;步骤5:保存光路,进入调度单tab页,点击“直接派发”;步骤6:光路施工人登录系统,在待处理工单列表选中单据进入,点击“受理”;选中光路,点击“填写回单”,选择施工结果为“已处理”,点击“确定";步骤7:点击“竣工提交”,成功提交,工单流转至光路调单待归档工位.步骤8:光路设计人登录系统,在待处理工单列表选中单据进入,选中光路,点击“回写",选中回写结果为“占用”,“确定"进入调度单tab页,点击“传输竣工归档”,调度单成功归档,调度完成。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
1.1.3.编译安装# make# make installServer端安装设置:在torque的安装源文件根目录中,执行#./torque.setup root以root作为torque的管理员账号创建作业队列。
计算节点(Client端)的安装:由于计算节点节点系统相同,因而可以用如下SHELL script (脚本名字为torque.install.sh)在其余计算节点上安装:创建torque.install.sh脚本#vi torque.install.sh#!/bin/shcd /home/dawning/torque-2.1.7make install使用如下命令:npssh -on node1..32 sh /home/dawning/torque.install.sh 将在每个节点上安装TORQUE。
1.1.4.TORQUE配置1.1.4.1 在计算节点上配置TORQUE:在每个计算节点,必须配置MOM daemon信任pbs_server daemon,可以通过编辑/var/spool/torque/server_name来实现,把node33写入该文件即可。
#cat /var/spool/torque/server_namenode33其余的配置参数写入/var/spool/torque/mom_priv/config 文件。
配置计算节点的数据管理,数据管理允许作业的数据在计算节点和PBS_Server之间传递。
对于共享文件系统,如NFS,可以通过在mom_priv/config 中用$usecp参数来指定如何映射用户的根目录。
$usecp *:/home /home这里集群的mom_priv/config内容如下:# MOM server configuration file# if more than one value, separate## rule is defined by the name## host allowed to connect to mom server on privileged port# note: IP address of host running pbs_server it by comma.$pbsserver 10.0.68.33$clienthost node33#ideal processor load and max processor load$ideal_load 7$max_load 8## host allowed to connect to Mom server on unprivileged port#Specifies hosts which can be trusted to access mom services as non-root.#By default, no hosts are trusted to access mom services as non-root.$restricted *.node33## Log event :# 0x1ff : log all events + debug events# 0x0ff : just all events$logevent 0x0ff## alarm if the script hang or take very long time to execute$prologalarm 30## Specifies which directories should be staged$usecp *:/home /homeServer端资源管理配置指定计算节点为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes文件中指定,一个1行。
#rsh node33#cd /var/spool/torque/server_priv#for i in `seq 1 32`;do echo node$i np=2;done > nodes#cat nodesnode1 np=8node2 np=8node3 np=8node4 np=8node5 np=8node6 np=8node7 np=8node8 np=8node9 np=8node10 np=8node11 np=8node12 np=8node13 np=8node14 np=8node15 np=8node16 np=8node17 np=8node18 np=8node19 np=8node20 np=8node21 np=8node22 np=8node23 np=8node24 np=8node25 np=8node26 np=8node27 np=8node28 np=8node29 np=8node30 np=8node31 np=8node32 np=8np=8是说每个节点有8个CPU(其余的以线程来跑)。
指定作业的提交节点为node33,node34,node35:[root@node33 ~]# qmgr -c 'set server submit_hosts = node33'[root@node33 ~]# qmgr -c 'set server submit_hosts += node34'[root@node33 ~]# qmgr -c 'set server submit_hosts += node35'1.1.5.系统自动启动脚本1.Server的系统启动脚本/etc/init.d/pbs_server该脚本单独启动/重新启动/暂停/查看状态TORQUE中Server的守护进程#cp contrib/init.d/pbs_server /etc/init.d/编辑pbs_server:#vi /etc/init.d/pbs_serverPBS_DAEMON=/usr/local/sbin/pbs_serverPBS_HOME=/var/spool/torque要确保这两个变量设定正确。
2.Mom系统启动脚本/etc/init.d/pbs_mom,在计算节点执行。
该脚本单独启动/重新启动/暂停/查看状态TORQUE中Mom的守护进程。
#cp contrib/init.d/pbs_mom /etc/init.d/#vi /etc/init.d/pbs_momPBS_DAEMON=/usr/local/sbin/pbs_momPBS_HOME=/var/spool/torquePBS_SERVER端测试:重启pbs_server,使刚才的配置生效。
>/etc/init.d/pbs_server restart# verify all queues are properly configured> qstat -q# view additional server configuration> qmgr -c 'p s'# verify all nodes are correctly reporting>pbsnodes -a# submit a basic job - DO NOT RUN AS ROOT> su - testuser>qstat2. 调度器系统MAUI的安装配置2.1.1.在共享目录下解压缩MAUI# tar -zxf maui-3.2.6p17.tar.gz假设解压的文件夹名字为: /home/dawning/maui-3.2.6p172.1.2.编译要是MAUI和TORQUE无缝的结合在一起,确保管理节点(PBS SERVER)上TORQUE的路径设置正确,#./configure --with-pbs=/usr/local#make#make install2.1.3.MAUI自启动脚本[root@node33 maui-3.2.6p17]# cp etc/maui.d /etc/init.d/[root@node33 maui-3.2.6p17]# vi /etc/init.d/maui.d#!/bin/sh## maui This script will start and stop the MAUI Scheduler## chkconfig: 345 85 85# description: maui#ulimit -n 32768# Source the library functions. /etc/rc.d/init.d/functionsMAUI_PREFIX=/usr/local/maui# let see how we were calledcase "$1" instart)echo -n "Starting MAUI Scheduler: "daemon $MAUI_PREFIX/sbin/mauiecho;;stop)echo -n "Shutting down MAUI Scheduler: "killproc mauiecho;;status)status maui;;restart)$0 stop$0 start;;*)echo "Usage: maui {start|stop|restart|status}"exit 1esac2.1.4.与MAUI结合的node33上TORQUE设置在TORQUE的qmgr上[root@node33 maui-3.2.6p18]# qmgrMax open servers: 4Qmgr: set server managers += root@*.node33Qmgr: set server operators += root@*.node33Qmgr: set server scheduling=TrueQmgr: quit要确保set server scheduling=True这条,这条语句确保了可以使用MAUI调度。