Torque在Linux集群上的安装配置
GPU集群Torque排队系统使用手册

GPU集群Torque排队系统使⽤⼿册多媒体计算与通讯实验室GPU集群Torque排队系统使⽤⼿册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利⽤GPU计算资源,我们利⽤Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下⾯说明使⽤本GPU集群的⼏个步骤。
1.申请帐号.本集群有⼀个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使⽤集群的学⽣需要给我发⼀个申请邮件,同时cc给⾃⼰的导师,在导师批准后相应的帐号会被建⽴。
2.建⽴job脚本⽂件Torque管理系统不能直接提交⼆进制可执⾏⽂件,需要编写⼀个⽂本的脚本⽂件,来描述相关参数情况。
⼀个⽰例脚本⽂件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本⽂件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运⾏的标准输出⽂件,如程序中printf打印信息,相当于stdout;-e 定义程序运⾏时的错误输出⽂件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表⼀个结点,⼀般申请⼀个结点,除⾮采⽤mpi并⾏作业;gpus=1定义了申请的GPU数量,根据应⽤实际使⽤的gpu数量来确定,S表⽰job类型,后⾯有详细描述。
资源管理软件TORQUE 与作业调度软件Maui 的安装、设置及使用

资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用李会民(hmli@)中国科学技术大学网络信息中心2008年1月目录1资源管理软件TORQUE的安装与设置21.1服务节点安装TORQUE (2)1.2服务节点初始化并设置TORQUE (2)1.3计算节点上安装TORQUE (4)1.4计算节点配置TORQUE (4)2安装与配置作业调度软件:Maui52.1服务节点上安装Maui (5)2.2服务节点上配置Maui (5)3作业运行63.1串行作业 (7)3.2并行作业 (8)3.3常用作业管理命令 (8)3.3.1查看队列中的作业状态:qstat (9)3.3.2挂起作业:qhold (10)3.3.3取消挂起:qrls (10)3.3.4终止作业:qdel和canceljob (10)3.3.5查看作业状态:checkjob (11)3.3.6交换两个作业的排队顺序:qorder (12)3.3.7选择符合特定条件的作业的作业号:qselect (12)3.3.8显示队列中作业的信息:showq (13)3.3.9显示节点信息:pbsnodes和qnodes (13)1资源管理软件TORQUE的安装与设置TORQUE和Maui可以从上下载。
以下仅是粗略配置,详细配置请参考相关手册:•TORQUE:/torquedocs21/•Maui:/products/maui/docs/mauiusers.shtml1.1服务节点安装TORQUE这里假设服务节点的机子名为kd50,其中一个计算节点的名字为node0101。
root@kd50#tar zxvf torque-2.2.1.tar.gzroot@kd50#cd torque-2.2.1root@kd50#./configure–prefix=/opt/torque-2.2.1–with-rcp=rcp上面–with-rcp=rcp设置为利用rsh协议在节点间传输文件,也可设置为–with-rcp=scp以利用scp协议进行传输。
linux服务器集群的详细配置

linux服务器集群的详细配置一、计算机集群简介计算机集群简称集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
在某种意义上,他们可以被看作是一台计算机。
集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。
集群计算机通常用来改进单个计算机的计算速度和/或可靠性。
一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。
二、集群的分类群分为同构与异构两种,它们的区别在于:组成集群系统的计算机之间的体系结构是否相同。
集群计算机按功能和结构可以分成以下几类:高可用性集群 High-availability (HA) clusters负载均衡集群 Load balancing clusters高性能计算集群 High-performance (HPC) clusters网格计算 Grid computing高可用性集群一般是指当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。
还指可以将集群中的某节点进行离线维护再上线,该过程并不影响整个集群的运行。
负载均衡集群负载均衡集群运行时一般通过一个或者多个前端负载均衡器将工作负载分发到后端的一组服务器上,从而达到整个系统的高性能和高可用性。
这样的计算机集群有时也被称为服务器群(Server Farm)。
一般高可用性集群和负载均衡集群会使用类似的技术,或同时具有高可用性与负载均衡的特点。
Linux虚拟服务器(LVS)项目在Linux操作系统上提供了最常用的负载均衡软件。
高性能计算集群高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能力,因而主要应用在科学计算领域。
比较流行的HPC采用Linux操作系统和其它一些免费软件来完成并行运算。
这一集群配置通常被称为Beowulf集群。
这类集群通常运行特定的程序以发挥HPC cluster的并行能力。
torque安装步骤

一、创建新用户eradd hero2.passwd hero二、配置ssh无密码互登陆1.用新建用户在各节点上输入ssh-keygen,将目录下产生的id_rsa.pub复制并改名:cp id_rsa.pub authorized_keys2.每台设备通过ssh-copy-id root@X.X.X.X把本地主机的公钥复制到远程主机的authorized_keys3.ssh本机、对方主机检查是否为无密码登陆4./etc/init.d/iptables stop //关闭防火墙chkconfig iptables off //永久关闭防火墙三、修改主机名1.hostname newname//通过hostname查看发现主机名变为newname2.vi /etc/sysconfig/network 将里面的HOSTNAME修改成HOSTNAME=newname //永久修改hostname三、安装torque1.tar zxvf torque-4.1.2.tar.gz 解压缩2.用hero执行sudo ./configure执行时会报错,需先添加sudo 文件的写权限,命令是:chmod u+w /etc/sudoers,编辑sudoers文件:vi /etc/sudoers。
找到这行 root ALL=(ALL) ALL,在他下面添加hero ALL=(ALL) ALL3.进入torque-4.1.2目录下: ./configure //查看安装环境4.系统会出现检测结果,出现no提示的组件需要手动下载。
直到所需组件全部安装完成后,会出现Ready for 'make'的提示。
hero@master$sudo ./configure5.输入make进行源代码编译hero@master$sudo make6.切换回root用户进行安装root# make install四、修改/etc/hosts在每台设备上 vi/etc/hosts192.168.0.200 master192.168.0.201 node1192.168.0.202 node2五、配置master设备1.[root@master]# ./torque.setup root2.[root@master]#cd /var/spool/torque/server_priv[root@master]#vi nodesnode1 np=64node2 np=64node3 np=64(注释:每行代表一个节点,np 为该节点的cpu核数目,这里服务器node1也作为计算节点。
Linux命令行中的系统安装和配置技巧

Linux命令行中的系统安装和配置技巧在Linux命令行中,系统安装和配置是非常重要的技巧。
通过正确的安装和配置,我们可以提高系统的性能,增强系统的稳定性,并满足个性化需求。
本文将介绍一些Linux命令行中的系统安装和配置技巧,帮助您更好地管理和运维您的系统。
1. 系统安装在Linux命令行中,系统安装是第一步。
通常情况下,我们会从官方网站下载适合自己需求的Linux发行版镜像文件,然后通过命令行进行安装。
首先,将镜像文件写入到USB设备上,可以使用dd命令(例如:dd if=镜像文件 of=/dev/sdX bs=4M),注意将X替换为您的USB设备代号。
然后,将USB设备连接到需要安装系统的计算机,并重启计算机。
在启动过程中,按下相应的按键(通常是F2、F9、F12或Del键),进入计算机的启动菜单,选择从USB设备启动。
最后,根据安装界面的提示,进行具体的操作(选择安装目标、分区、设置密码等)。
完成安装后,重新启动计算机,您的Linux系统就成功安装了。
2. 系统更新与软件安装安装完成后,第一步就是进行系统更新和软件安装。
这可以确保系统拥有最新的补丁和功能,并且配备您所需的软件。
在命令行中,可以使用以下命令更新系统软件包:```sudo apt update # 更新软件包列表sudo apt upgrade # 升级已安装的软件包```要安装特定的软件包,可以使用以下命令:```sudo apt install 软件包名称 # 安装指定软件包sudo apt remove 软件包名称 # 卸载指定软件包```3. 系统配置与优化在安装和更新完系统后,我们需要进行一些系统配置和优化,以满足我们的需求和提高系统的性能。
首先,我们可以编辑配置文件来修改系统行为和参数。
通过vi或nano等文本编辑器打开配置文件:```sudo vi /etc/配置文件路径 # 编辑指定的配置文件```然后,根据需要修改文件中的参数,并保存文件。
Linux操作系统的安装与配置

Linux操作系统的安装与配置Linux是一种非常可靠和安全的操作系统,并且是许多企业和组织首选的操作系统。
与其他操作系统相比,Linux的主要优势在于它是开源的,这意味着每个人都可以查看和修改Linux的源代码。
如果你正在考虑安装和配置Linux操作系统,本文将在以下三个方面给出详细的指导:预备工作、Linux的安装和Linux的基本配置。
预备工作在安装Linux之前,您需要进行几项预备工作,以确保安装顺利完成。
首先,您需要了解自己的硬件规格。
确定您需要安装的Linux版本,并进行相应的硬件升级。
例如,如果您需要安装CentOS 7,则需要确定CPU和内存是否满足要求。
通常,建议至少使用2GB内存和8GB磁盘空间。
其次,您需要根据自己的需求选择正确的Linux发行版。
通常,Ubuntu和CentOS是最受欢迎的Linux发行版。
Ubuntu是一个用户友好的发行版,适合初学者和桌面用户。
而CentOS则是一个更加强大和稳定的发行版,适合服务器和企业级应用程序。
Linux的安装安装Linux的第一步是从Linux发行版的官方网站下载ISO文件,并将其刻录到DVD或USB随身碟。
安装程序的启动将在BIOS或UEFI固件中的“引导顺序”中配置。
一旦启动后,你会看到Linux的安装界面。
安装界面的第一步是选择您的语言。
然后,您将看到一些重要的选项,例如时区和键盘布局。
在这些选项中选择适合您的选项,并单击“下一步”。
接下来,您需要选择安装的磁盘,并确定分区方案。
建议使用自动分区,特别是如果您是Linux新手。
完成分区后,选择您要安装的软件包。
如果您只是一个桌面用户,请选择“标准系统工具”和“桌面环境”。
完成上述步骤后,您需要设置root用户密码和创建其他用户。
这些用户将用于登录Linux系统。
然后,系统将开始安装软件包。
Linux的基本配置一旦您成功安装Linux,您需要进行进一步的配置。
以下是一些基本配置建议:更新软件包:运行“sudo apt-get update && sudo apt-get upgrade”(适用于Ubuntu)或“sudo yum update”(适用于CentOS)来获取最新的软件包。
linux集群使用指南

linux集群使用指南Linux集群使用指南。
一、啥是Linux集群。
Linux集群呢,就像是一群小伙伴一起干活。
把好多台Linux计算机连接起来,让它们协同工作。
这就好比是一群超级英雄组成联盟,每个英雄都有自己的本事,合起来就能干大事啦。
比如说,有的计算机负责处理数据,有的负责存储,有的负责管理网络。
这样做的好处可多了去了。
就像大家一起抬重物,一个人可能抬不动,但是好多人一起就轻松搞定。
在处理大量数据或者需要高可靠性的任务时,Linux集群就超级有用。
二、硬件准备。
要搭建Linux集群,硬件可不能马虎。
首先得有几台计算机吧。
这些计算机的配置也有讲究哦。
如果是处理简单任务的小集群,普通配置的计算机就可以。
但要是处理大数据或者复杂计算,那就得要配置高一点的啦,像是有大容量内存、快速的CPU 还有大硬盘的计算机。
另外,这些计算机之间得能互相通信,这就需要网络设备啦。
像交换机之类的,就像它们之间的传声筒,把各个计算机连接起来,让它们能互相“聊天”。
而且呀,电源供应也很重要,要是突然断电,那可就麻烦了,所以最好有稳定的电源保障。
三、安装Linux系统。
有了硬件,就该给这些计算机装上Linux系统啦。
这就像是给每个小伙伴穿上合适的衣服一样。
可以选择一些流行的Linux发行版,像Ubuntu、CentOS之类的。
安装的时候要注意一些小细节哦。
比如说分区,要合理分配磁盘空间,给系统、数据和交换空间都留好地方。
要是分区不合理,就像衣服穿得不合身,干活的时候就会不舒服。
安装过程中,设置好用户名和密码也很重要,这就像是给你的小房子上把锁,只有你有钥匙才能进去。
而且呀,要把网络设置好,这样计算机们才能在网络的世界里找到彼此。
四、集群配置。
这可是个关键步骤呢。
要让这些计算机知道它们是一个团队。
可以使用一些工具来配置集群,像Puppet或者Ansible。
这些工具就像是指挥棒,告诉每台计算机该怎么做。
比如说,要配置好共享存储,这样大家都能访问到同样的数据。
GPU集群Torque排队系统使用手册

多媒体计算与通讯实验室GPU集群Torque排队系统使用手册袁平波 2016.5.20本实验室新购进24块K80 tesla GPU。
为了充分利用GPU计算资源,我们利用Torque来管理同学们的计算任务队列。
头结点的IP是192.168.17.240。
下面说明使用本GPU集群的几个步骤。
1.申请帐号.本集群有一个头结点和多个服务结点构成,因此提交计算作业需要在头结点上拥有帐号,需要使用集群的学生需要给我发一个申请邮件,同时cc给自己的导师,在导师批准后相应的帐号会被建立。
2.建立job脚本文件Torque管理系统不能直接提交二进制可执行文件,需要编写一个文本的脚本文件,来描述相关参数情况。
一个示例脚本文件myjob1.pbs如下:#PBS -N myjob1#PBS -o /home/username/myjob1.out#PBS -e /home/username/myjob1.err#PBS -l nodes=1:gpus=1:S#PBS -r ycd $PBS_O_WORKDIRecho Time is `date`echo Directory is $PWDecho This job runs on following nodes:cat $PBS_NODEFILEcat $PBS_GPUFILE./my_proc脚本文件中定义的参数默认是以#PBS开头的。
其中:-N 定义的是job名称,可以随意。
-o 定义程序运行的标准输出文件,如程序中printf打印信息,相当于stdout;-e 定义程序运行时的错误输出文件,相当于stderr。
-l 定义了申请的结点数和gpus数量。
nodes=1代表一个结点,一般申请一个结点,除非采用mpi并行作业;gpus=1定义了申请的GPU数量,根据应用实际使用的gpu数量来确定,S表示job类型,后面有详细描述。
队列系统的默认job请求时间是一周,如果运行的job时间估计会超过,则可以使用下面的参数:#PBS -l nodes=1:gpus=1:S,walltime=300:00:00表示请求300小时的job时间。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务器的基本状况:一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。
操作系统为CentOS 5.3 x86_64版本的Linux系统。
NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。
所有的应用软件都安装在此共享磁盘上。
1.ssh免密码登录.对每个用户都要设置。
2.下载Torque,解压缩,编译。
目前,torque 2.3是稳定版本,2.4是beta版本。
为了稳定,我下载的是2.3.9版本。
下载地址:/downloads/torque在PBS服务器节点上:tar xvfz torque-2.3.9.tar.gzconfigure需要加参数./configure --enable-docs --with-scp --enable-syslogmakemake packagesmake install将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。
将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:./torque-package-mom-linux-i686.sh --install./torque-package-clients-linux-i686.sh --install可以使用dsh之类的工具来辅助。
或者手工写一个脚本来完成这些工作。
3.配置pbs_mom为服务在torque源码包contrib目录中有一个文件cp contrib/init.d/pbs_mom /etc/init.d/pbs_momchkconfig --add pbs_mom在所有的机器(pbs服务器和计算节点)上都需要如此设置。
写脚本来完成吧!比如for i in `seq 1 9`doecho tccl0$issh tccl0$i "some command"done4.配置torque1)ldconfig2) Specify Compute Nodes编辑文件/var/spool/torque/server_priv/nodes内容如下(注意,这里使用的都是机器的简称,与使用免密码登录时的机器名称相同):tccl01 np=8 smallmemtccl02 np=8 smallmemtccl03 np=8 bigmemtccl04 np=8 bigmemtccl05 np=8 bigmemtccl06 np=8 24G_Mem fastcputccl07 np=8 24G_Mem fastcputccl08 np=8 20G_Mem fastcputccl09 np=8 24G_Mem fastcpu3)Configure TORQUE on the Compute Nodes按照系统的情况,配置如下:在计算节点上编辑文件/var/spool/torque/mom_priv/config内容如下:$pbsserver tccl_frontarch x86_64opsys RHEL$logevent 255$ideal_load 4.0$max_load 8.0$tmpdir /tmp4)初始化torque.setup root这会生成最基本的一个设置,有一个batch队列。
如果需要比较复杂的队列,建议自己写一个配置文件,比如queue.conf文件。
下面是一个有short,medium,long 共3个队列的配置文件:## Create queues and set their attributes.### Create and define queue batch##create queue batch#set queue batch queue_type = Execution#set queue batch resources_default.nodes = 1#set queue batch resources_default.walltime = 01:00:00#set queue batch enabled = True#set queue batch started = True#Short queuecreate queue shortset queue short queue_type = Executionset queue short resources_default.nodes=1set queue short Priority = 1000set queue short max_running=20set queue short max_queuable=40set queue short max_user_run=10set queue short max_user_queuable=20set queue short resources_min.walltime=00:00:10set queue short resources_max.walltime=12:00:00set queue short resources_default.walltime = 12:00:00 set queue short resources_default.neednodes = smallmem set queue short enabled = Trueset queue short started = True#Medium queuecreate queue mediumset queue medium queue_type = Executionset queue medium resources_default.nodes=1set queue medium Priority = 100set queue medium max_running=12set queue medium max_queuable=20set queue medium max_user_run=4set queue medium max_user_queuable=8set queue medium resources_min.walltime=12:00:10set queue medium resources_max.walltime=48:00:00set queue medium resources_default.walltime = 24:00:00 set queue medium enabled = Trueset queue medium started = Trueset queue medium resources_default.neednodes = fastcpu #Long queuecreate queue longset queue long queue_type = Executionset queue long resources_default.nodes=1set queue long Priority = 10set queue long max_running=10set queue long max_queuable=12set queue long max_user_run=3set queue long max_user_queuable=6set queue long resources_min.walltime=48:00:00set queue long resources_max.walltime=480:00:00set queue long resources_default.walltime = 72:00:00set queue long resources_default.neednodes = bigmem set queue long enabled = Trueset queue long started = True## Set server attributes.#set server scheduling = Trueset server acl_hosts = tccl_frontset server acl_hosts += tccl_front.tccl_groupset server acl_hosts += "tccl01,tccl02,tccl03,tccl04,tccl05,tccl06,tccl07,tccl08,tccl09"set server acl_host_enable = trueset server managers = root@tccl_front.tccl_groupset server operators = root@tccl_front.tccl_groupset server default_queue = shortset server log_events = 511set server mail_from = admset server scheduler_iteration = 10set server node_check_rate = 120set server tcp_timeout = 6set server mom_job_sync = Trueset server keep_completed = 120#set server next_job_number = 0set server query_other_jobs = True运行qmgr <queue.conf即可完成两个队列(long,short)的基本设置。
需要注意的问题:/etc/hosts设置# Do not remove the following line, or various programs# that require network functionality will fail.127.0.0.1 localhost localhost::1 tccl_front6.tccl_group localhost6192.168.1.218 tccl_front.tccl_group tccl_front192.168.1.3 tccl01.tccl_group tccl01192.168.1.2 tccl02.tccl_group tccl02192.168.1.4 tccl03.tccl_group tccl03192.168.1.5 tccl04.tccl_group tccl04192.168.1.6 tccl05.tccl_group tccl05192.168.1.7 tccl06.tccl_group tccl06192.168.1.8 tccl07.tccl_group tccl07192.168.1.9 tccl08.tccl_group tccl08192.168.1.10 tccl09.tccl_group tccl09包含tccl_front的应该是192.168.*.*的IP,而不能是外网IP或者127.0.0.1的IP,切记!5.安装mpiexec,这个是为了方便运行nwchem等程序。