高性能计算集群(PC Cluster)用户指南
某高校高性能集群部署文档

某高校高性能计算集群部署文档(瘦节点部分)2012年11月25日目录1.文档更新历史........................................................................................................ 错误!未定义书签。
2.集群概览 (5)3.准备工作 (5)3.1.对所有节点的内置硬盘建立RAID (5)3.2.收集物理信息 (6)4.部署管理节点操作系统 (6)4.1.安装操作系统 (6)4.2.系统安装完之后配置 (7)5.安装配置Platform HPC集群管理软件 (8)5.1.安装包准备 (8)5.2.执行安装程序 (8)5.3.安装过程中的操作 (8)6.使用Platform HPC做操作系统分发 (9)6.1.配置网络接口 (9)6.2.为刀片机HS22操作系统分发 (12)6.3.对刀片组HS12操作系统分发 (16)6.4.对IO节点做系统分发 (20)6.5.对Login节点做系统分发 (23)7.使用Platform HPC维护操作系统分发 (26)7.1.移除已经部署的操作系统 (26)7.2.重新部署操作系统 (26)7.3.部署新的机器 (27)7.4.维护部署模板内容 (28)8.GPFS配置方法 ...................................................................................................... 错误!未定义书签。
8.1.XIV近线存储划分 ..................................................................................... 错误!未定义书签。
8.2.XIV存储驱动安装 ..................................................................................... 错误!未定义书签。
并行超算云服务 简明使用手册说明书

并行®超算云服务简明使用手册(2019夏季版)北京并行科技股份有限公司目录1并行®超算云服务简介 (1)2并行®超算云服务登陆超算 (3)2.1内部集成的webssh (3)2.2第三方登录软件 (3)3并行®超算云服务文件传输 (6)3.1WinSCP (6)3.2并行快传 (8)4并行®超算云服务作业提交 (11)4.1命令行提交作业 (11)4.2集成界面提交作业 (11)4.3一些商业软件作业提交 (12)4.4可视化功能 (13)5并行®超算云服务计费中心 (15)6并行®超算云服务其他功能 (16)6.1配置 (16)6.2关于 (16)6.3注销 (16)6.4显示桌面 (16)6.5联系客服 (16)6.6关注超算动态 (17)7.并行®超算云服务常见问题 (19)1并行®超算云服务简介并行®超算云服务是使用最新HTML5技术开发的新一代超算用户使用界面,可以直通国内各大超算以及自己的私有云系统,具有高速稳定的链路,开通快、登陆快、操作快、传输快、计算快、分析快等特点,无需使用VPN,一键点击登陆超算,给用户使用超算资源提供良好的体验。
温馨提示:点击链接https:///下载安装客户端通过联系销售获得并行账号(登录并行®超算云服务的账号)和超算账号,之后我们会将您的并行账号和密码、超算账号以及可以使用的队列分区以邮件方式发送给您。
按照后面小节提供的方法即可方便快捷使用超算资源。
一般用户登陆并行®超算云服务后,默认已经绑定可以使用的超算账号;如果您的账号没有绑定对应的超算账号,您及时在专属微信群联系我们进行绑定处理。
如果有不需要的超算账号需要解绑,可以按照以下方法进行操作:点击账号管理图标,点击相应账号右边的×号(下图红框所示)即可解绑。
图1-1解绑超算账号流程图2并行®超算云服务登陆超算并行®超算云服务提供多种登陆超算的方法,包括内部集成的webssh和第三方登录软件:Putty、Xshell、secureCRT。
高性能计算集群(HPC_CLUSTER)

高性能计算集群(HPC CLUSTER)1.1什么是高性能计算集群?简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。
高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。
高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。
由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。
高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。
1.2 高性能计算分类·高性能计算的分类方法很多。
这里从并行任务间的关系角度来对高性能计算分类。
1.2.1 高吞吐计算(High-throughput Computing)有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。
因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。
所谓的Internet计算都属于这一类。
按照Flynn的分类,高吞吐计算属于SIMD(Single Instruction/Multiple Data,单指令流-多数据流)的范畴。
1.2.2 分布计算(Distributed Computing)另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。
按照Flynn的分类,分布式的高性能计算属于MIMD(Multiple Instruction/Multiple Data,多指令流-多数据流)的范畴。
山西省超算中心用户使用手册

图 1.1.1 运行 SSH Secure Shell Client 的界面
2、按 Enter 键或者点击菜单栏中的 如下窗口:
按钮,如图 1.1.1 所示。弹出
1
图 1.1.2 连接集群系统窗口
3、依次输入 Host Name(本中心集群系统的 IP 地址,即 183.175.153.10) 、合法的 User Name(需要用户在线注册或直接到本中心申请)以及 Port(22) ,如下图 1.1.3 所示。
1.3 Gridview Web 登录
用户也可以通过 WEB 方式登入 GridView 集群管理系统,对集群进行管理、监控、配 置和使用等操作。 1、在 WEB 浏览器的地址栏中输入 URL,即可出现登录界面,如图 1.3.1 所示: http://183.175.153.10:6080/gridview_portal
2
1 集群系统登录
登录集群系统的 IP 地址为:183.175.153.10,用户可以通过以下几种方式登录集群 系统(示例均为使用本 IP 的实例)。
1.1 命令行终端登录
Windows 用户可以用 SSH Secure Shell Client,PuTTY,SecureCRT 等 SSH 客户端软件 登录。推荐使用 SSH Secure Shell Client,它集成了 SFTP 文件上传下载的功能。下面就以 SSH Secure Shell Client 为例详细介绍登录过程。 1、 运行 SSH Secure Shell Client 程序,打开出现如下界面:
图 1.1.3 登录窗口
2
4、如图 1.1.3 所示,点击 Connect 按钮后,进入界面 1.1.4。
图 1.1.4 输入密码提示框
高性能计算集群的配置与使用教程

高性能计算集群的配置与使用教程高性能计算(High Performance Computing,HPC)集群是一种强大的计算工具,能够处理大规模的数据和执行复杂的计算任务。
本文将介绍高性能计算集群的配置和使用方法,并为您提供详细的教程。
1. 配置高性能计算集群配置高性能计算集群需要以下几个步骤:1.1 硬件要求选择适合的硬件设备是配置高性能计算集群的第一步。
您需要选择性能强大的服务器,并确保服务器之间能够互相通信。
此外,还需要大容量的存储设备来存储数据和计算结果。
1.2 操作系统安装选择合适的操作系统安装在每个服务器上。
常用的操作系统有Linux和Windows Server,其中Linux被广泛使用于高性能计算集群。
安装操作系统后,您还需要配置网络设置、安装必要的软件和驱动程序。
1.3 服务器网络连接为了保证高性能计算集群的正常工作,需要配置服务器之间的网络连接。
您可以选择以太网、光纤等网络连接方式,并确保每个服务器都能够互相访问。
1.4 集群管理软件安装为了方便管理和控制高性能计算集群,您需要安装相应的集群管理软件。
常用的集群管理软件有Hadoop、Slurm和PBS等。
这些软件可以帮助您管理任务队列、分配资源和监控集群的运行状态。
2. 使用高性能计算集群配置完高性能计算集群后,您可以开始使用它进行计算任务。
以下是使用高性能计算集群的一般步骤:2.1 编写并提交任务首先,您需要编写计算任务的代码。
根据您的需求,可以选择编写Shell脚本、Python脚本或其他编程语言的代码。
编写完毕后,您需要将任务提交到集群管理软件中。
2.2 监控任务状态一旦任务提交成功,您可以使用集群管理软件提供的监控功能来跟踪任务的状态。
您可以查看任务的进度、资源使用情况和错误信息等。
2.3 调整任务与资源如果您发现任务需要更多的计算资源或运行时间,您可以根据需要调整任务的资源配置。
集群管理软件通常提供了资源调整的功能,您可以根据任务的实际情况进行调整。
浪潮ClusterEngine集群服务平台用户使用手册

浪潮ClusterEngine集群服务平台用户使用手册浪潮(北京)电子信息产业有限公司-1-尊敬的用户:衷心感谢您选用了浪潮ClusterEngine 集群管理平台!本手册介绍了ClusterEngine 集群管理平台的运行环境、实现功能和使用方法,可使使用者更好地了解本软件的各种特性,充分的发挥本软件的作用。
浪潮(北京)电子信息产业有限公司拥有本手册的版权。
本手册中的内容如有变动恕不另行通知。
如果您对本手册有疑问或建议,请向浪潮(北京)电子信息产业有限公司垂询。
浪潮(北京)电子信息产业有限公司二零一二年十二月目录第1章整体介绍 (4)1.1软件介绍 (4)1.2系统拓扑图 (6)1.3系统要求 (7)第2章ClusterEngine 主界面介绍 (8)第3章作业提交模块 (8)3.1脚本作业提交 (9)3.2模板提交 (11)第4章作业管理模块 (12)第5章Checkpoint管理模块 (17)第6章应用管理模块 (17)6.1VASP作业模块 (17)6.2Fluent作业 (28)6.3Atom作业 (31)第7章监控模块 (38)7.1动态信息 (38)7.2实况信息 (39)7.3历史信息 (43)7.4节点监控 (44)第8章监控面板模块 (54)第9章报警面板模块 (54)第10章管理工具模块 (54)10.1集群Shell (54)10.2远程桌面 (57)第11章文件管理模块 (59)第12章用户管理模块 (64)第13章报表统计模块 (64)13.1缴费管理 (64)13.2记账配置 (67)13.3记账统计 (69)第14章配置中心模块 (71)第15章大屏幕监控模块 (71)-3-第1章整体介绍1.1软件介绍浪潮ClusterEngine 集群管理平台是专为浪潮天梭系列 HPC 产品定制的一款作业管理软件,该软件采用B/S架构,通过浏览器(IE,firefox等)进行操作,可以管理集群系统中的软硬件资源和用户提交的作业,根据集群中的资源使用情况来合理的调度用户提交的作业,从而达到提高资源的利用率和作业的执行效率的作用。
HPC高性能计算集群实施指导手册

HPC高性能计算集群实施指导手册目录1、基本系统参数设置.........................................................................................................- 1 -1.1、ulimit系统进程资源限制 ...................................................................................- 1 -1.2、关闭selinux服务 ................................................................................................- 1 -1.3、配置本地yum源.................................................................................................- 1 -2、NIS服务配置 ..................................................................................................................- 2 -2.1、NIS服务器端的配置 ...........................................................................................- 2 -2.2、NIS客户端的配置管理 .......................................................................................- 4 -2.3、NIS客户端的属性设置 .......................................................................................- 6 -3、NFS配置 .........................................................................................................................- 8 -3.1、NFS软件包安装 ..................................................................................................- 8 -3.2、编辑NFS服务器配置文件..................................................................................- 8 -3.3、启动服务..............................................................................................................- 8 -3.4、在客户端中挂载NFS服务器中的共享目录......................................................- 9 -4、配置Kdump服务 ...........................................................................................................- 9 -4.1、Kdump安装 .........................................................................................................- 9 -4.2、Kdump配置 ...................................................................................................... - 10 -4.3、安装分析转存储文件所需的rpm包 .............................................................. - 11 -5、配置Rsyslog服务........................................................................................................ - 11 -5.1 服务端配置......................................................................................................... - 11 -5.2、客户端配置....................................................................................................... - 12 -5.3、日志轮询服务logrotate................................................................................... - 13 -1、基本系统参数设置1.1、ulimit系统进程资源限制修改/etc/security/limits.conf文件,添加如下内容:* soft memlock unlimited* hard memlock unlimited* soft stack unlimited* hard stack unlimited1.2、关闭selinux服务运行如下命令修改/etc/selinux/config文件,关闭selinuxsed -i s/=enable/=disabled/g /etc/selinux/configsed -i s/=enforcing/=disabled/g /etc/selinux/config可以使用以下命令查看selinux服务状态sestatus1.3、配置本地yum源上传对应操作系统的ISO文件到/public/sourecode目录将操作系统ISO文件挂载到/mnt目录mount –t iso9660 –o loop /public/sourcecode/xxx.iso /mnt创建/public/sourcecode/yum目录,并将安装盘内容拷贝到这个目录cp –rp /mnt/Packages/* /public/sourcecode/yum创建yum源配置文件/etc/yum.repo.d/Local.repo,内容如下:生成yum本地缓存,命令如下:yum makecache2、NIS服务配置2.1、NIS服务器端的配置NIS软件包安装查看系统中是否已经安装下列三个软件:ypserv NIS服务器软件, 一般默认是不安装的,需要安装yp-tools 提供对NIS服务器的查询和管理软件ypbind NIS客户端需要使用软件包rpm –qa | grep ^yp安装ypserv前需要利用rpm –qa | grep portmap 命令(6.0之后的版本使用rpcbind)确认portmap(rpcbind)已经安装。
clusconf-1.5.1用户手册

1. 测试全网是否完全通过 (--test-net|-tn) 2. 显示集群信息 (--sys-info|-si) 3. 显示整个集群的 cpu 负载(负载大于 5%的进程) (--disp-cpu|-dc) 4. 同步整个集群的用户 (--sync-user|-yu) 5. 添加一个用户到整个集群 (--useradd|--adduser|-au|-ua username) 6. 删除一个用户到整个集群 (--deluser|--uerdel|-du|-ud username) 7. 同步整个集群的时间 (--sync-time|-yt)
8. 同步整个集群的某个文件 (--sync-file|-yf file|files|path|paths) 9. 在整个集群上执行相同的命令 (--sync-do|-yd command)
2.3 IPMI 配置及管理功能
1. 配置 ipmi IP 地址(--set-ipmi|-si) 2. 显示 ipmi 的 IP 地址及显示电源状态(--ipmi-info|-ii) 3. IPMI 远程开机(--ipmi-poweron|-in) 4. IPMI 远程关机(--ipmi-poweroff|-if) 5. IPMI 远程智能开机,可根据集群的角色自动规划开机顺序(--ipmi-ipoweron|-iin) 6. IPMI 远程智能关机,可根据集群的角色自动规划开机顺序(--ipmi-ipoweroff|-iif)
4.3配置 nfs.cfg 文件
如果需要给集群配置 nfs,使用(--set-nfs) 或一键配置集群(--set-all)中调用配置 nfs 的功 能(详情查看 5.2),需要编辑<installdir>/etc/nfs.cfg 文件,默认为/opt /clusconf/etc/nfs.cfg,配置 如下:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能计算集群(PC Cluster)用户指南大气科学系应越第二版2008-12目录-认识cluster-使用cluster-linux常用命令-软件-文件传输第一章:认识cluster1.什么是cluster系统cluster一般由一台主机(master)和多台节点机(node)构成,是一种松散耦合的计算节点集合。
为用户提供网络服务或应用程序的单一客户视图,同时提供接近容错机的故障恢复能力。
通常cluster的每台机器通过相应的硬件及软件互连,每个群集节点都是运行其自己进程的独立服务器。
这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据。
cluster概念的提出在70年代主要是为了进行一些大运算量的科学计算。
随着网络的发展,之后的cluster系统还被用作网络服务器,发挥其故障恢复和均衡负载的能力。
使用PC机构建cluster的好处在于开发成本低,而且由于每台节点机都是普通的PC机,在某一台机器发生故障的时候,可以方便的进行维护,而不影响整个系统的运行。
大气科学系的cluster系统,由16台64位的PC机组成。
其中一台主机(master),15台节点机(node01∼node15)。
这16台机器每台有两个4核的CPU,也就是说每个节点上可以同时提供8个CPU。
操作系统使用的是CentOS的Linux发行版。
图1为大气科学系cluster目前的结构。
其中console 和c0101∼c0107是大气系早期的cluster系统,节点安装的是RedHat的Linux发行版,precluster曾经作为门户机,目前已经更新为CentOS的操作系统。
登录master的IP地址为162.105.245.3,这个地址由于物理大楼的IP变动比较频繁,所以可能会时不时改变,而precluster的IP地址162.105.245.238则比较稳定。
这两个地址目前都可以从校外访问。
cluster的应用主要集中在并行计算上。
虽然单个节点的单CPU运算效率比普通的笔记本或是台式机都高很多,但是cluster当初被设计出来就是为了进行多CPU协同运算的,而不是仅仅为了提高单CPU的运算效率。
所以我们鼓励用户在cluster上进行并行计算,而把一些单CPU也能解决的工作Figure1:大气科学系cluster结构交给自己的PC机完成。
由于master负担了在node**间传递文件和用户信息的重要任务,所以我们应该尽量不要用master主机长时间运行程序,尤其是占用CPU较多的程序,以免进程占用太多CPU而影响其他用户的登陆和文件的传输。
2.linux操作系统Linux是开源的操作系统,由内核和外部模块构成核心功能,linux上的软件运行以后台进程的方式进行。
软件源代码由编译器编译成可执行文件(bin)存放在文件系统中,供用户调用执行。
对于维持系统基本功能的服务(service),比如httpd,通常以守护进程(daemon)的方式开机后自动在后台执行。
用户同系统的交互由SHELL来完成,这有点类似Windows DOS系统的命令行。
用户登录服务器后,通过在SHELL中输入命令来进行操作。
linux的用户分为两种:超级用户(root)和普通用户。
root用户拥有所有的权限,普通用户的权限在帐号被创建的时候可以进行相应的设置。
linux系统中的所有文件都被赋有一定的属性,这些属性包括拥有这个文件的用户(user)、组(group)、读写运行的访问权限、最近修改的时间等。
其中访问权限的功能非常强大。
可以说linux系统的安全就依赖于这样一套严备的体系。
访问权限在linux系统中由一个10位的字符串表示,第一位表示文件的类别:-表示普通文件(file);d表示文件目录(directory);l表示链接(symbolic link)。
后面的9位分为3组rwx,第一组为文件所有者的访问权限,第二组为文件所有者所在群组的访问权限,第三组为其他用户的访问权限。
每组的3个字母:r代表可读权限(readable);w代表可写权限(wriatable);x代表可执行权限(executable)。
例如:[yingyue@master:~]#ls-ltotal3-rw-------2yingyue dataop4096May172008demo.txt-rwxrwx---1yingyue dataop4096May172008do.exedrwxr-xr-x7yingyue dataop4096May172008homelrwxrwxrwx1yingyue dataop8May172008link->home/ [yingyue@master:~]#从上例我们可以看到,用户yingyue隶属于dataop用户组,其家目录下有一个home文件目录,两个普通文件。
demo.txt文件只能被yingyue读写,并且不能被执行(rw-)。
do.exe文件可以被yingyue以及所有隶属于dataop的用户读写以及执行,但是不能被其他用户读写执行。
在cluster上,用户可以设置自己家目录中的文件的访问权限,而对别的用户的文件的访问,则根据权限设置的不同而不同。
另一个linux操作系统的特点是链接(symbolic link),指向一个链接的文件路径会被自动定向到源文件的位置。
比如上面例子中link为一个指向home目录的链接。
cluster的主机和节点之间的文件共享是通过autofs服务实现的。
在/etc/auto.misc里定义了本地机器挂载的网络文件目录。
/etc/exports里定义了别的机器能够挂载的本机的目录。
挂载的文件目录在/misc里可以找到。
cluster的机器为了管理方便,将/misc下的目录链接到了/mnt下。
用户的信息由master通过yp服务统一管理,每台节点机的/home都挂载为master机器上的/home。
用户自己家目录的实际存放点是散布在节点机上的,在/home下链接到实际地点。
在master的/usr/local上安装了的软件,用户可以通过修改PATH环境变量直接调用。
附录中列出了目前安装的软件列表。
第二章:使用cluster当管理员向你提供了用户名和密码后,这表示你已经获取了访问和利用cluster上计算资源的途径。
为了展开cluster上的科研工作,我们需要做一些准备工作。
1.本地准备工作为了登录cluster,在本地的PC机上需要安装链接服务器SHELL的client程序。
对于windows用户,可以使用的软件有:•SSH Secure Shell Client下载地址:/download/SSHSecureShellClient-3.2.3.exe•SecureCRT下载地址:/download/securecrt612.exe•Putty下载地址:/download/putty.exe•其他任何附带ssh控制台的软件,比如Ultra Edit等。
Figure2:SSH Secure Shell Client登录设置对于linux用户,可以直接使用系统命令行中的ssh服务:[user@redhat:~]$ssh yingyue@162.105.245.3yingyue@162.105.245.3’s password:Last login:Fri Dec516:01:252008from162.105.139.33[yingyue@master:~]#纯字符的SHELL命令行通常已经能够满足大多数的调试运行软件的用户。
如果用户需要获取cluster的图形界面(X11tunnelling),还需要安装X window client软件,目前windows下可使用的软件有:•XWin32•XManager2.服务器端当准备好链接服务器的client软件之后,最重要的事情是用passwd命令改自己的密码,这是为了保证你的资源安全。
当遇到问题需要管理员解决时也不需要提供自己的密码,因为他有办法越过你的权限。
你的密码应该只有你一个人知道。
修改密码的方法如下:[yingyue@master:~]#yppasswdChanging NIS account information for yingyue on master.Please enter old password:Changing NIS password for yingyue on master.Please enter new password:Please retype new password:The NIS password has been changed on master.[yingyue@master:~]#linux系统中的密码在键入时不会显示。
注意不能使用passwd命令,因为那样修改后的密码只能在你运行passwd命令的那台机器上生效。
cluster上使用yppasswd命令作用是通过yp服务使修改后的密码被传递到各个节点。
修改完密码后,可以管理一下自己的家目录,linux系统中,当登录用户为yingyue时,∼、∼yingyue和/home/yingyue是等效的家目录路径。
在家目录中,一般会有一个.cshrc文件存放csh的环境变量。
csh是SHELL的一种,其语法比较接近C语言,linux的SHELL还有sh、bash、tcsh等多种,其中bash的使用比较广泛,对应的配置文件是.bashrc。
目前cluster上的用户默认SHELL是csh,如果你需要改变这一设置请联系管理员。
关于.cshrc文件的详细介绍请参考下一部分内容。
登录cluster后,可以通过rsh命令切换到各个节点,比如从master上rsh登录到node02节点:[yingyue@master:~]#rsh node01Last login:Tue Nov2513:14:03from master[yingyue@node01:~]#至此,可以在家目录中建立目录,存放要运行的软件和数据。
值得注意的是,如果软件和数据在cluster上已经存在,可以直接调用而不用拷贝到家目录中,这样可以节省硬盘空间的开支。
在平时的使用中,维护自己的家目录是非常重要的,对于软件的编译和运行,一个有条有理的目录能够帮助你顺利完成自己的计算任务。
所以我们有必要熟悉linux操作系统的命令。
第三章:linux常用命令linux操作系统自带的系统命令有很多,然而常用的只有不超过30个。
这些命令大致分为文件操作和进程管理两大类。
1.文件操作•man[command]查看command命令的说明文档(manual page)•ls-[options][directory]列出目录里的文件,有兴趣的话可以研究一下ls的选项。