pbs作业管理系统--曙光

合集下载

曙光作业管理-调度系统安装配置手册

曙光作业管理-调度系统安装配置手册

Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。

本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。

1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。

机群的NFS共享存储位置为/home,所有用户目录都在该目录下。

1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。

其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。

默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。

云南大学高性能计算中心曙光集群系统使用指南

云南大学高性能计算中心曙光集群系统使用指南

云南大学高性能计算中心曙光集群系统使用指南1、使用SSH客户端软件用在高性能计算中心申请的用户名和密码登录到集群系统(Windows系统可使用SSHSecureShellClient-3.2.9软件包,下载地址/structure/download Linux系统可直接使用ssh命令登录)。

登录成功后你所在的节点是登录节点,系统会有一些通知信息显示,操作提示符是[username@node34 ~]$。

这个节点是作用户帐号管理,不要在上面运行程序。

2、编译与调试程序请用rsh转到相关作业区节点。

本集群系统共有32个计算节点(每个节点有4个CPU 8G 内存),分为4个作业区。

小作业区small包含4个节点(node1..node4),中型作业区medium包含8个节点(node5..node13),专用作业区long包含8个节点(node13..node20),大作业区large包含12个节点(node21..node32)。

每一个作业区的第一个节点该作业区的服务节点,small为node1,medium为node5,long为node13,large为node21。

例如从登录节点转到一号节点:[hbli@node34 ~]$rsh node1Last login: Mon Aug 28 15:33:16 from node34[hbli@node1 ~]$3、编译链接、运行用户程序串行程序可使用GCC或PGI编译器,并行程序可使用mpicc, mpiCC, mpif77,mpif90进行编译。

以下是一个c使用mpi的例子:/* hello.c *//* MPI sample c program *//* compile "with mpicc -o hello hello" *//* run with "mpirun -np 8 hello" *//* or submit with pbs script "qsub hello.pbs" *//* you can use "qstat" to dislay your job statusa */#include <stdio.h>#include "mpi.h"int main( argc, argv )int argc;char **argv;{int rank, size;MPI_Init( &argc, &argv );MPI_Comm_size( MPI_COMM_WORLD, &size );MPI_Comm_rank( MPI_COMM_WORLD, &rank );printf( "Hello world from process %d of %d\n", rank, size );MPI_Finalize();return 0;}可以用如下命令对上面的程序进行编译:$ [hbli@node1 sample]mpicc –o hello hello.c生成可运行的文件hello,用ls –l 命令可以看到生成的可执行文件:$ [hbli@node1 sample]ls –l-rwxrwxr-x 1 hbli hbli 507375 Oct 10 10:39 hello-rw-r--r-- 1 hbli hbli 532 Jun 20 08:01 hello.c这样就可运行hello 这个程序了。

pbs使用手册

pbs使用手册

pbs使用手册PBS(Portable Batch System)是一种用于管理和调度作业的软件系统,广泛应用于高性能计算和云计算环境。

以下是PBS使用手册的简要介绍:1. 作业提交:用户可以使用PBS命令行工具或脚本提交作业。

提交作业时,需要指定作业的名称、脚本文件、执行所需的资源等信息。

作业提交后,PBS会将作业放入队列中等待调度。

2. 作业调度:PBS使用作业调度器来决定作业的执行顺序。

调度器会根据作业的优先级、资源需求和可用资源的情况来选择合适的作业执行。

3. 作业执行:一旦作业被调度器选中,PBS会将作业分配到指定的计算节点上执行。

在作业执行期间,PBS会监控作业的运行状态,确保资源的正确使用和管理。

4. 作业管理:用户可以通过PBS命令行工具或Web界面查看作业的状态、资源使用情况、执行日志等信息。

用户还可以对作业进行控制,如暂停、恢复、杀死等操作。

5. 资源管理:PBS提供了一套完整的资源管理机制,包括对计算节点、存储设备和网络资源的管理。

用户可以通过PBS来申请和释放资源,以满足作业的资源需求。

6. 用户认证和权限管理:PBS支持用户认证和权限管理功能,以确保只有授权用户才能提交和管理作业。

用户需要使用有效的用户名和密码登录系统,并具有相应的权限来执行特定的操作。

7. 日志和监控:PBS提供了详细的日志记录和监控功能,以便用户了解作业的执行情况和系统的运行状态。

用户可以通过查看日志文件来获取作业的执行日志、系统事件等信息。

以上是PBS使用手册的简要介绍,具体的操作细节和配置选项可能因版本和实际应用而有所不同。

建议查阅具体版本的PBS文档或向专业人员咨询以获得更详细的信息和使用指导。

pbs作业管理命令

pbs作业管理命令

pbs作业管理命令PBS 提供4 条命令⽤于作业管理。

(1) qsub 命令—⽤于提交作业脚本命令格式:qsub [-a date_time] [-c interval] [-C directive_prefix][-e path] [-I] [-j join] [-k keep] [-l resource_list] [-m mail_options][-M user_list][-N name] [-o path] [-p priority] [-q destination] [-r c][-S path_list] [-u user_list][-v variable_list] [-V][-W additional_attributes] [-z][script]参数说明:因为所采⽤的选项⼀般放在pbs 脚本中提交,所以具体见PBS 脚本选项。

例:# qsub aaa.pbs 提交某作业,系统将产⽣⼀个作业号(2) qstat 命令—⽤于查询作业状态信息命令格式:qatat [-f][-a][-i] [-n][-s] [-R] [-Q][-q][-B][-u]参数说明:-f jobid 列出指定作业的信息-a 列出系统所有作业-i 列出不在运⾏的作业-n 列出分配给此作业的结点-s 列出队列管理员与scheduler 所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id,指明请求的是队列状态-q 列出队列状态,并以alternative 形式显⽰-au userid 列出指定⽤户的所有作业-B 列出PBS Server 信息-r 列出所有正在运⾏的作业-Qf queue 列出指定队列的信息-u 若操作符为作业号,则列出其状态。

若操作符为destination id,则列出运⾏在其上的属于user_list 中⽤户的作业状态。

例:# qstat -f 211 查询作业号为211 的作业的具体信息。

超级计算机作业管理系统概述

超级计算机作业管理系统概述

多媒体技术数码世界 P.40超级计算机作业管理系统概述张健 国家超级计算天津中心摘要:超级计算机的资源调度、作业管理、记账数据统计是通过作业管理系统实现的,目前比较流行的作业管理系统有Slurm、PBS和LSF,未来为了应对云计算、大数据和人工智能的挑战,作业管理系统需要加强对云计算技术、大数据技术和人工智能技术的支持。

关键词:作业管理系统 Slurm PBS LSF1.引言超级计算机是通过高速互联网络连接并由多个独立计算节点组成的超大型计算机。

高速互联网络是计算节点之间发送和接收数据的通道。

每个计算节点包含独立的CPU、内存和操作系统,所有计算节点通过挂载分布式共享存储的方式使用同一套存储。

超级计算机的这种结构,使得既可以满足单机用户的小规模串行任务需求,也可以满足科研、企业用户的大规模并行任务需求。

在超级计算机上给用户提供资源调度、作业管理、记账分析等功能的软件,就是作业管理系统。

2.作业管理系统超级计算机上有成百上千的用户,假设每个用户提交十个作业,那么作业的规模就会成千上万,这些作业有串行的、有并行的,有交互式的、有批处理的,有计算密集型的、有I/O密集型的,这些作业都会对超级计算机的资源造成争抢。

所以,超级计算机需要一种管理软件,用于对用户的作业进行实时响应、调度以及管理,同时,为了保障超级计算机的资源得到充分利用,还应该具有作业监控、作业记账、作业统计和历史作业查询的功能,这个软件就是作业管理系统。

一个好的作业管理系统不仅要求保证计算集群有高的吞吐率、高的响应速度,还应提供调优过的作业调度策略来提高用户作业响应速度和执行时间。

目前在超级计算机上使用较多的作业管理系统有Slurm、PBS和LSF。

3. SlurmSlurm是LLNL等开发的一种开源作业管理系统,主要功能包括支持细粒度资源选择的资源分配、基于综合优先级的作业调度、提供快速加载大规模并行任务的加载命令、基于检查点的自动作业容错、节点空闲后自动降低功耗等。

曙光集群用户使用手册

曙光集群用户使用手册

1. 登录和文件传输登录方式为ssh,与telnet功能类似,推荐的登录工具为putty或者Secure Shell (,绿色版无需安装)在地址栏输入本集群的登录地址(node1对应的局域网IP),点击“打开”,就会出现登录窗口,输入用户名、密码即可。

文件传输为sftp,与传统ftp类似,但其协议更安全可靠,推荐工具为。

(,绿色版无需安装)输入登录地址222.222.21.29,输入用户名和密码,端口填22(本软件支持ftp,端口为21),点击快速连接,即可使用,操作办法与常用ftp工具类似。

2. 图形窗口支持Linux推荐使用vnc。

vnc可以将用户的操作状态保持在服务器端,即使断开连接也不会影响到正在进行的操作、计算等。

登录到linux服务器中,在命令行运行vncserver。

第一次运行时需要输入VNC登陆用的密码:根据提示输入新的vnc密码。

此密码与用户登录密码无关,将在登录vnc时需要。

此处提示的node1:2即为vnc成功打开的端口。

运行vncclient,输入登录服务器地址和端口号,点确定,输入前面设置的密码,即进入了图形窗口。

注意:1、在第一次启动了vncserver之后,vnc的连接一直可用,全部图形窗口保持在Linux 服务器上。

因此,只在每次服务器重新启动后运行一次vncserver即可,由于用户较多,请勿启动多个。

2、如果需要使用node2的图形界面,可执行ssh -X node2。

3. 作业提交3.1. Fluent3.1.1. 图形方式运行首先通过VNC登陆到图形界面,如果没有Terminal的话在桌面点击左键选择Xterm,输入以下命令即可运行:此处myhosts为用户指定的host文件,内容如下所示:node1node1node1node1node2node2node2node2-t8即指定8个核心参与计算,分别为node1上的4个核心和node2上的4个核心。

在图形界面下导入cas和data文件,修改和设置边界条件等并计算(和在windows下操作单机版Fluent相同,略):注:通过VNC使用图形界面方式运行fluent时,无需保持PC机与服务器的连接,只要vncserver没有重新启动,即可随时连接到原有的窗口。

曙光IPMI系统管理平台用户使用指南

曙光IPMI系统管理平台用户使用指南

曙光IPMI系统管理平台用户使用指南目录概述 (3)⏹智能平台管理接口(IPMI) (3)⏹基板管理控制器(BMC) (3)IPMI的相关配置 (4)⏹获取/配置IP地址等信息 (4)1.在BIOS下进行配置 (4)2.用DOS工具进行获取/配置 (5)3.在windows操作系统下配置 (6)4.在linux操作系统下配置 (7)⏹IPMI LAN Dedicate(专用)模式修改 (8)1.DOS模式下通过IPMICFG工具修改 (8)2.Windows或linux系统下通过web方式进行修改 (8)使用web浏览器进行远程登录 (10)⏹Web浏览器远程登录管理平台 (10)1.首页 (10)2.主菜单 (10)3.系统信息(System) (11)4.服务器状态(Server Health) (11)5.配置(Configuration) (12)6.远程控制(Remote Control) (21)7.虚拟介质(Virtual Media) (24)8.维护(Maintenance) (25)9.杂项(Miscellaneous) (29)⏹Java iKVM控制台 (29)1.virtual media菜单 (30)2.Record菜单 (31)3.键盘宏(Macro)菜单 (31)4.选项(Options)菜单 (32)5.用户(User)菜单 (36)6.屏幕抓图(Capture)菜单 (36)7.Exit退出iKVM (36)通过IPMI安装操作系统 (37)⏹安装前的准备 (37)1.网络结构 (37)2.虚拟介质 (37)3.介质共享 (37)⏹系统安装过程 (38)1.登录web管理平台 (38)2.进入iKVM远程控制台 (38)3.设置虚拟介质 (38)4.从虚拟光驱引导系统安装过程 (41)概述IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的缩写,它是管理企业级服务器系统中所使用的外围设备采用的一种工业标准。

linux screen pbs 的基本使用

linux screen   pbs 的基本使用

linux screen 的基本使用Screen,一个可以在多个进程之间多路复用一个物理终端的窗口管理器,作者(jawidx)根据自己使用过程中的常用操作及常见问题进行总结。

基本使用1创建,1. screen命令,创建一个执行shell的全屏窗口。

键入exit退出自动切换到前一个窗口。

2. screen命令后跟你要执行的程序,如screen vi test.c,退出vi将退出该窗口/会话。

3. 在screen会话中创建新的窗口。

在当前screen窗口中键入C-a c(Ctrl+a,之后再按c键)。

2选项,-r 连接会话-d 断开会话-t 会话title-S 命名会话(screen -ls会看到)-wipe 清除该死掉会话更多选项请看screen --help3实例,可以不中断screen窗口中程序的运行而暂时断开(detach)screen会话,并在随后时间重新连接(attach)该会话,重新控制各窗口中运行的程序。

[jawidx@fedev n-5]$ screen -S screenname //指定窗口名称[jawidx@fedev ~]$ 在screen窗口键入C-a d中断(C-a k会杀掉screen会话)[jawidx@fedev n-5]$ screen -lsThere are screens on:16234.pts-112.fedev (Attached)4031.pts-455.fedev (Detached)26764.pts-455.fedev (Detached)6331.pts-455.fedev (Detached)26679.pts-345.fedev (Detached)8987.screenname (Attached)6 Sockets in /tmp/uscreens/S-jawidx.[jawidx@fedev n-5]$ screen -r screenname //可用8987代替会话名,对于Attached的会话,需要先screen -d之后才能screen -r。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
create queue default set queue default set queue default set queue default set queue default set set set set server server server server queue_type = execution max_running = 20 enabled = True started = True
• 系统启动脚本 /etc/init.d/openpbs • Server的系统启动脚本 /etc/init.d/pbs_server • Scheduler系统启动脚本 /etc/init.d/pbs_sched • Mom系统启动脚本 /etc/init.d/pbs_mom
2013-7-21 17
入口不一致,仍为多机系统;可以提供 存储一致性
无法实现
系统结构规模可扩展
对作业类型的限制 2013-7-21
如果规模过大,会遇到前述的O(㎡) 的通讯问题,难以扩展
如前述,不适合于系统调用较多的程序 (如I/O密集型)
通讯量与系统规模成线形放缩,可以 很好的扩展
对程序类型无限制 6
内 容
• 任务管理系统概述 • PBS作业调度系统 • 作业调度系统的使用
其中,--x-libraries=/usr/X11R6/lib64是在X86_64 (AMD64或 EM64T)上安装时,需要指明系统64位库的位置。
• 编译安装
[root@node1 /public/OpenPBS_2.3.16]# make [root@node1 /public/OpenPBS_2.3.16]# make install
2013-7-21
13
术 语
• 节点(node) 一个单一的操作系统映像,一个统一的虚拟内存映像一个或多个 cpu,一个或多个IP地址的计算机系统被称之为一个节点。通常执 行主机(execution host)也被称之为节点。 • 节点属性 队列、服务器和节点都有与自己相关的属性,这些属性提供控制 信息。与节点相关的属性有:状态、类型、虚拟处理器的个数、 作业列表(本节点被分配给的作业)以及节点的特性。…… • 节点特性 为了提供一组节点的分配的方法,零个或者多个特性被赋给每个 节点。这个特性不过是一串对于PBS没有含义的字母和数字的组 合(第一个字符必须是字母)。
2013-7-21
5
任务管理系统的比较
管理实现级别
调度方式 管理层次 负载均衡方式 资源共享 服务质量Qos 机群一致性的层次 对用户权限、资源和作业的 高级管理策略
进程级
透明,基于最小负载 低级,仅根据局部信息 支持动态负载均衡 仅能够共享硬件资源 可能造成大作业饥饿,无Qos
作业级
可以基于网络拓扑/程序特性/负载/自 定义策略调度 高级,根据全局信息 支持静态负载均衡;如有checkpoint 功能,可支持动态负载均衡 可以共享硬件、软件和证书等资源 只要策略适当,可以保证Qos 提供单一系统入口和存储一致性 能够很好地实现
2013-7-21 18
mom端设置
• mom配置目录: /var/spool/pbs/mom_priv/ • mom配置文件: /var/spool/pbs/mom_priv/config
# MOM server configuration file # if more than one value, separate it by ## rule is defined by the name $ideal_load 1.5 $max_load 2 ## host allowed to connect to Mom server $restricted *. ## log event : # 0x1ff log all events + debug events # 0x0ff just all events $logevent 0x0ff ## host allowed to connect to mom server $clienthost node1 ## alarm if the script hang or take very $prologalarm 30
2013-7-21
7
PBS作业调度系统
• PBS最初由NASA的Ames研究中心开发, 为了提供一个能满足异构计算网络需要的 软件包。它力求提供对批处理的初始化和 调度执行的控制,允许作业在不同主机间 的路由。
2013-7-21
8
PBS的技术特色
• 力求控制对批处理的初始化和调度执行,允许作业在不同主机间 的路由。 • 独立的调度模块存有各个可用的排队作业、运行作业和系统资源 使用信息,并且允许系统管理员定义资源和每个作业可使用的数 量。 • 在作业调度策略上,PBS提供了默认的公平共享和独占FIFO调度 策略,还提供了TCL、BACL、C三种过程语言和调度类,并定义 了一些调度需要的函数和完整的API,方便实现新的调度策略。 • 提供文件传送,File Stage-in 和Stage-out。 • 满足POSIX1003.2d 标准,支持作业依赖,和完整的安全认证。 • 提供用户映射功能,使PBS 能用于用户不一致的系统中。
2013-7-21 15
PBS在机群上安装
由于节点系统相同,因而可以用如下SHELL script在 node2~node8上安装; #!/bin/bash for i in `seq 2 8` do echo “node$i ---------------------------------“ rsh node$i “cd /public/openpbs; make install” echo “------------------------------------------“ echo “” 2013-7-21 16 done
PBS作业管理系统
内 容
• 任务管理系统概述 • PBS作业调度系统 • 作业调度系统的使用
2013-7-21
2
任务管理系统的功能
• 单一系统映象
– 机群松散的结构的整合
• 系统资源整合
– 异构系统的整合
• 多用户的管理
– 用户提交的任务的统一安排,避免冲突
• 用户权限的管理
– 非授权用户的控制
scheduling = True max_user_run = 20 default_queue = default query_other_jobs = True
2013-7-21
22
Scheduler调度行为配置
• Scheduler的行为由配置目录下的 sched_priv/sched_config文件进行控制 • Sort_by关键字控制调度算法可以选择的选项为
服务进程配置和启动文件
• 系统配置文件/etc/pbs.conf
#!/bin/sh pbs_home=/var/spool/pbs 指定系统的pbs的设置的目录位置 pbs_exec=/usr/local 指定pbs可执行程序的目录位置 start_server=1 start_sched=1 当为1是表示守护进程启动,0为守护进程不启动 start_mom=1
no_sort ,shortest_job_first,longest_job_first , smallest_memory_first,largest_memory_first, high_priority_first,low_priority_first,multi_sort, fair_share,large_walltime_first,short_walltime_first
• 修改这个文件后重新启动scheduler即可。
2013-7-21
23
内 容
• 任务管理系统概述 • PBS作业调度系统 • 作业调度系统的使用
2013-7-21
24
PBS的使用步骤
1. 2. 3. 4. 5. 6. 7. 准备:编写描述改作业的脚本,包括作业名,需要的资 源等。 提交:使用qsub命令将该作业提交给PBS服务器 排队:服务器将该任务排入适当的队列 调度:服务器检查各工作节点的状态是否符合该作业的 要求,并进行调度。 执行:当条件满足时,作业被发给相应的执行服务器执 行。程序运行时执行服务器会收集程序的标准输出和标 准错误流,等程序结束时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行 状态查询。用户发现作业提交错误时,可以使用qdel删 除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等 查看输出及错误信息显示。
2013-7-21
comma.
on unprivileged port
on privileged port
long time to execute
19
Server端的动态设置
• PBS要能正常运行还需要通过qmgr命令的server进行配 置,设置一些属性。输入qmgr命令进入配置交互命令。 下面是让PBS可以正常运行的一些步骤。
创建队列 create queue 队列名 queue_type = Excuttion
打开和启动队列
打开调度 设置默认队列
set queue 队列名 enable=t, started=t
set server scheduling=t set server default_queue=队列名
2013-7-21
2013-7-21 14
PBS 安装
• 解压源文件包
[root@node1 /public]# tar -zxvf openpbs-2.3.16.tar.gz
• 编译设置
[root@node1 /public/OpenPBS_2.3.16]#./configure --disable-gui -set-server_home=/var/spool/pbs --enable-docs --xlibraries=/usr/X11R6/lib64
相关文档
最新文档