AIX-RAID5更换硬盘步骤

AIX-RAID5更换硬盘步骤
AIX-RAID5更换硬盘步骤

AIX-RAID5更换硬盘步骤

如何看机器内的卡及硬盘的微码级别(microcode level)

用下面命令可以得到一个SSA卡的微码级别:

# lscfg -vl ssa0

其中 ssa0 是此SSA卡的设备名称.

输出结果中的ROS level及ID 即是微码级别(microcode level).

用下面命令可以得到一个硬盘的微码级别:

lscfg -vl pdiskX

在RS6000系统上安装RAID适配器时,一般通过重新启动系统,AIX操作系统可以自动认到该适配器。但是在某些情况下,系统会停留在启动RAID适配器的位置,LED面板显示:“0751-P1-I1/Q1”;若运行cfgmgr命令,报0514-407错误。

解答这时有一种可能是该RAID适配器微码版本过低,需要从IBM 网站下载最新的微码。如何确定该RAID适配器的微码版本是否过低呢?下面以7044-270机器上的2498 PCI 4通道Ultra3 SCSI RAID适配器为例,使用下面的命令可以读到存储在适配器中的微码版本。

1)列出系统中安装的PCI RAID适配器:

lsdev -C | grep scraid

注意:设备名是所有已安装的PCI 4通道Ultra3 SCSI RAID适配器的名称。适配器设备名将是scraidX, X为0,1 或其他的数字。

2)检查当前适配器的微码版本:

lscfg -vl scraidX

(X为系统已安装的适配器的号码。)

命令显示如下:

DEVICE LOCATION DESCRIPTION

Scraid0 20-58 PCI 4-Channel Ultra3 SCSI RAID Adapter

Part Number.................09P1521

EC Level....................0H10522

Serial Number (00000001)

FRU Number..................37L6892 Manufacturer................IBM000

Displayable Message.........UL3RAID

Diagnostic Level (03)

Device Driver Level (03)

Loadable Microcode Level....4.20.01

ROS Level and ID............4.00.26

Device Specific.(YL)........P2-I9

如果FRU Number是37L6892并且当前适配器微码版本(Loadable Microcode Level)是4.20.01,不同与适配器微码最新版本4.70.11,则需要升级微码。

相关信息请查阅:

升级系统微码

解答系统固件升级,可从网站下载该机型微码,遵循README中提供的升级方法即可。 10后,当前序列值置为10。

在 AIX 与 FAStT 相连的环境中,FAStT 的所有设备在 AIX 中是如何定义的?解答在AIX中FAStT的相关设备是用如下AIX设备名来表现的:

dar: 磁盘阵列路由器,表示与AIX相连的FAStT磁盘阵列,

dac: 磁盘阵列控制器,是磁盘子系统的控制器。大多数情况下一个FAStT中有2 个 dac 设备。

hdisk: 每一个 hdisk 设备名对应阵列中的一个LUN。

可以通过AIX命令来查看它们的属性和特点以及之间的关系。

lsdev:显示设备名及其特点:

#lsdev -C |grep dar0

dar0 Available 3542 (200) Disk Array Router

#lsdev -C |grep dac

dac0 Available 11-08-01 3542 (200) Disk Array Controller

dac1 Available 14-08-01 3542 (200) Disk Array Controller

#lsdev -Cc |grep hdisk

hdisk0 Available 40-60-00-4,0 16 Bit LVD SCSI Disk Drive

hdisk1 Available 11-08-01 3542 (200) Disk Array Device

hdisk2 Available 14-08-01 3542 (200) Disk Array Device

hdisk3 Available 11-08-01 3542 (200) Disk Array Device

hdisk4 Available 14-08-01 3542 (200) Disk Array Device

lsattr:显示设备的属性及可能设定的值。

#lsattr -El dac1

passive_control -no -----------------Passive controller ------False alt_held_reset --no -----------------Alternate held in reset -False controller_SN ---1T14610048 ---------Controller serial number False ctrl_type -------3552 ---------------Controller Type ---------False cache_size ------512 ----------------Cache Size in MBytes ----False

scsi_id ---------0x210213 -----------SCSI ID -----------------False lun_id ----------0x0 ----------------Logical Unit Number -----False utm_lun_id ------none ---------------Logical Unit Number -----False location --------Location -----------Label -------------------True ww_name -------- 0x200600a0b80c213d -World Wide Name False

GLM_type --------low ----------------GLM type ----------------False

fget_config: 显示指定的dar 设备上的控制器和hdisk 之间的关系,及控制器的状态。

#fget_config -l dar0

dac0 ACTIVE dac1 ACTIVE

dac0-hdisk1

dac1-hdisk2

dac0-hdisk3

dac1-hdisk4

在安装FC存贮卡并连接FASTT磁盘柜的P Series计算机上运行cfgmgr时,出现以下报错:

method error : /etc/methods/cfgfdar -l ear0

0514-002: cannot initailize the ODM

解答这个问题是由于没有正确地删除以前的配置信息引起的。要解决这个问题:1、删除所有FASTT逻辑盘在AIX系统中的定义。

#lsdev -C|grep hdisk ==> 获取所有hdisk的列表

#rmdev -dl hdisk2,3,4... ==> 删除所有FASTT逻辑盘的定义

2、删除所有dar设备。

#lsdev -C|grep dar ==> 获取所有dar的列表

#rmdev -dl dar0,1,2... ==> 删除所有dar设备的定义

3、删除所有dac设备。

#lsdev -C|grep dac ==> 获取所有dac的列表

#rmdev -dl dac0,1,2... ==> 删除所有dac设备的定义

4、删除所有fscsi设备。

#lsdev -C|grep fscsi ==> 获取所有fscsi的列表

#rmdev -dl fscsi0,1,2... ==> 删除所有fscsi设备的定义

5、重新运行cfgmgr。

建了RAID的磁盘阵列在使用过程中可能会发生硬盘出现故障需要更换的情况,本文介绍了安全更换硬盘而不破坏数据的详细步骤。

正文 1. 首先需要从RAID定义中逻辑上删除故障硬盘。执行下面的命令:

# smit ssaraid

-> Change Member Disks in an SSA RAID Array

----> Remove a Disk from an SSA RAID Array

2. 屏幕显示出如下的阵列列表:

Change Member Disks in an SSA RAID Array

Move cursor to desired item and press Enter.

Remove a Disk From an SSA RAID Array

Add a Disk to an SSA RAID Array

Swap Members of an SSA RAID Array

-----------------------------------------------------------------------

SSA RAID Array

Move cursor to desired item and press Enter. Use arrow keys to scroll.

hdisk6 --6010337B163E30K good --2.3GB -RAID-5 array

hdisk5 --09523173A02137K good --2.3GB -RAID-5 array

F1=Help ---F2=Refresh ---F3=Cancel

F8=Image --F10=Exit -----Enter=Do

/=Find --- n=Find Next

-----------------------------------------------------------------------

选择要删除的硬盘所在的阵列的名称,在本例中选择 hdisk6。

3. 屏幕显示如下的信息:

Remove a Disk From an SSA RAID Array

Type or select values in entry fields.

Press Enter AFTER making all desired changes.

------------------------------------------[Entry Fields]

SSA RAID Manager ---------------------------ssa1

SSA RAID Array -----------------------------hdisk6

Connection Address / Array Name ------------6010337B163E30K

* Disk to Remove ---------------------------------------------+

F1=Help ---F2=Refresh ---F3=Cancel ---F4=List

F5=Reset --F6=Command ---F7=Edit -----F8=Image

F9=Shell --F10=Exit -----Enter=Do

按下F4键,列出属于该RAID阵列中的硬盘。

4. 硬盘列表显示如下:

Remove a Disk From an SSA RAID Array

Type or select values in entry fields.

Press Enter AFTER making all desired changes.

------------------------------------[Entry Fields]

SSA RAID Manager ---------------------ssa1

SSA RAID Array -----------------------hdisk6

Connection Address / Array Name ------6010337B163E30K

* Disk to Remove ---------------------------------------+

-------------------------------------------------------------------------

---------------------Disk to Remove

Move cursor to desired item and press Enter. Use arrow keys to scroll.

pdisk4 --0004AC50374D00D member --present --1.1GB --Physical

pdisk5 --0004AC510D9100D member --present --1.1GB --Physical

pdisk7 --0004AC510D9900D member --present --1.1GB-- Physical

F1=Help ---F2=Refresh --F3=Cancel

F8=Image --F10=Exit --- Enter=Do

/=Find --- n=Find Next

-----------------------------------------------------------------------

从上面显示的列表中选择需要删除的硬盘。

5. 使用“Set service Mode”服务帮助将需要删除的硬盘设置为维护模式。命令如下:

# diag

---> Task Selection (Service Aids )

------> SSA Service Aids

---------> Set Service Mode -- (选择硬盘)

------------> Set or Reset Service Mode

This will set the drive to service so the drive can

be replaced. You will see a > prompt displayed next

to the drive listing when service is set.

例:

--pdisk0 --AC503429 --00-03-P --1GB SSA C Physical Disk Drive

--pdisk1 --AC510D98 --00-03-P --1GB SSA C Physical Disk Drive

--pdisk2 --AC510D91 --00-03-P --1GB SSA C Physical Disk Drive

--pdisk3 --AC510D96 --00-03-P --1GB SSA C Physical Disk Drive

--pdisk4 --AC50374D --00-03-P --1GB SSA C Physical Disk Drive

> pdisk5 --AC510D91 --00-03-P --1GB SSA C Physical Disk Drive

--pdisk6 --AC510DBB --00-03-P --1GB SSA C Physical Disk Drive

--pdisk7 --AC510D99 --00-03-P --1GB SSA C Physical Disk Drive

6. 物理上拿掉故障硬盘。若不确定是那一块,可以看到故障硬盘的电源灯旁的黄色检查灯是亮的。

7. 物理上安装好替换的硬盘。

8. 按照步骤5的方法将硬盘从维护模式设置回普通模式。

9. 逻辑上从系统中删除旧的硬盘信息,再将新更换的硬盘配置起来:

# rmdev -dl pdisk* (其中,pdisk* 为具体的硬盘号,本例中为pdisk5。) # cfgmgr

10. 下面需要将新更换的硬盘设置为阵列的候选盘:

# smitty ssaraid

---> Change/Show Use of an SSA Physical Disk

---- -> 选择正确的 SSA Raid卡。

从列表中选择正确的硬盘 (屏幕显示如下)

-----------------------------------------------------------------------

--------------------SSA Physical Disk

Move cursor to desired item and press Enter. Use arrow keys to scroll.

#################################################

# SSA physical disks that are members of arrays.

pdisk4 --0004AC50374D00D member --n/a --1.1GB --Physical

pdisk7 --0004AC510D9900D member --n/a --1.1GB --Physical

#################################################

# SSA physical disks that are AIX system disks.

pdisk5 --0004AC510D9300D system n/a --1.1GB Physical

F1=Help -- F2=Refresh --F3=Cancel

F8=Image --F10=Exit ----Enter=Do

/=Find ----n=Find Next

--------------------------------------------------------------------- Make sure the Current Use Parameter is set to Array Candidate Disk on the next screen (listed below). Press Tab on Current Use to change and then Enter to execute.

Change/Show Use of an SSA Physical Disk

Type or select values in entry fields.

Press Enter AFTER making all desired changes.

----------------------[Entry Fields]

SSA RAID Manager ------ssa1

SSA Physical Disk----- pdisk5

CONNECTION address ----0004AC510D9300D

Current Use -----------Array Candidate Disk

11. 将新更换的硬盘添加回RAID阵列中:

# smit ssaraid

---> Change Member Disks in an SSA RAID Array

------> Add a Disk to an SSA RAID Array

--------选择正确的RAID名称,

--------按F4选择硬盘

按回车后,选择的硬盘被加入到RAID阵列中,系统在该硬盘上自动重建信息。

12. 查看信息重建的状态:

# smit ssaraid

---> List Status Of All Defined SSA RAID Arrays

屏幕显示如下:

COMMAND STATUS

Command: OK ----stdout: yes ----stderr: no

Before command completion, additional instructions may appear below.

Unsynced Parity Strips Unbuilt Data Strips

hdisk2 ----3428 ------6856

F1=Help ----F2=Refresh --F3=Cancel --F6=Command

F8=Image ---F9=Shell ----F10=Exit ---/=Find

n=Find Next

PCI-X SCSI RAID Controller概貌

Disk Arrays

RAID技术通过一组磁盘来提供存储数据,这组磁盘被叫做disk array。依靠所选择的RAID 级别,这种磁盘技术可以提供数据冗余来保证数据的安全性和提供系统操作。disk array还可以比单个大硬盘提供更多的数据传输以及输入率。

每一个disk array可以被AIX使用,对操作系统来说它只是一块未做RAID的磁盘。例如,创建disk array之后可以在上面创建文件系统,或使用AIX命令使disk array可以被系统识别进而把disk array加入到卷组中。

PCI-X SCSI RAID控制器通过PCI-X SCSI磁盘组管理器进行管理。PCI-X SCSI磁盘组管理器作为

RAID配置管理的接口来提供服务。

如果一个磁盘组被用来作为启动设备,在安装操作系统aix之前可以通过Diagnostic CD来创建磁盘组。在原启动设备作为磁盘组的一部分的时候需要进行上述操作。

下面显示的为可能的磁盘组配置:

支持的RAID级别

磁盘阵列的RAID级别决定了数据如何存储在磁盘阵列上以及提供的保护级别。当RAID系统的一部分出现故障后,不同的RAID级别通过不同的方法来帮助恢复失去的数据。出了RAID0以外,如果一个磁盘阵列中的单个的磁盘出现故障,磁盘阵列控制器可以通过使用在同一个磁盘阵列中的其他磁盘上存储的数据为出现故障的磁盘再建数据。这种数据再建从操作有少量甚至没有影响对当前的系统程序和用户。PCI-X SCSI RAID控制器支持RAID0,5,6,10。每种被PCI-X SCSI支持的RAID级别分别有它们自己的属性,并使用不同的方法来写数据。

以常用的RAID5为例:

RAID5条带化数据,数据分布在磁盘阵列的所有盘之上。RAID5需要磁盘校验数据。校验数据分布在所有磁盘之上。

对于3块盘的RAID5阵列,阵列数据和校验信息以下面的方式:

如果RAID5磁盘阵列中的一块磁盘出现故障,磁盘阵列仍然可以正常使用。一个RAID5磁盘阵列在单块磁盘出现故障的情况下使用被叫做Degraded模式。无论何时从一个Degraded 的磁盘阵列中读取数据,阵列控制器都通过在可操作使用数据块和校验块来重新计算失败磁盘上的数据。如果第2块磁盘出现故障,则磁盘阵列将处于Failed状态,而且不能再被访问。

RAID6磁盘阵列

RAID6磁盘阵列在单块盘故障的情况下和RAID5没有故障盘的情况下的保护类似。如果第3块盘出现故障,阵列将处于Failed状态,并且不能被访问。

常用磁盘阵列容量磁盘阵列的容量依靠被使用的磁盘的容量以及阵列的RAID级别,计算磁盘阵列的容量,使用下面的方法:

RAID 0 磁盘的容量x磁盘数量

RAID 5 磁盘的容量x(磁盘数量-1)

RAID 10 磁盘的容量x磁盘数量/2

如果磁盘容量不同在同一个磁盘阵列中,所有磁盘都以它们中容量最小的磁盘计算。

RAID组总结

以下提供了每种RAID级别的数据冗余,可使用的磁盘容量,读性能和写性能信息

RAID 数据冗余可使用的磁盘容量读性能写性能

RAID 0 无100% 非常好极佳

RAID 5 非常好67%-94% 非常好

RAID 6 极佳50%-89% 非常好良好

RAID 10 极佳50% 极佳非常好

RAID0不提供数据冗余,但提供高I/O利用率

RAID5创建阵列校验信息以至数据在阵列单个磁盘出现故障时可以再建,提供了比RAID10更多的容量

但性能要稍差。

RAID6创建P和Q校验信息,如果单个或两个阵列中的磁盘出现故障,数据可以再建。提供了比RAID5

更好的数据冗余保护,但性能稍差。

RAID10存储冗余的数据在镜像的磁盘上,针对磁盘故障提供了最大的数据保护,通过了比RAID5,6更好的

性能,但磁盘容量稍差。

stripe-unit size

通过RAID技术,数据被条带化延伸到每个阵列中的磁盘上。这个数据分发计划规范了操作系统寻求数据的方法。在数据存储到阵列中的下一块磁盘前,数据存储在阵列中的一个磁盘上的granularity被叫做stripe-unit size.从阵列中的第一块磁盘到最后一块磁盘的stripe units 的收集被叫做stripe。

可以设置一个PCI-X SCSI 磁盘阵列的stripe-unit size为16KB,64KB或256KB.可以通过设置stripe-unit size, 使之稍大于平均的系统I/O请求来最大化PCI-X SCSI磁盘阵列的性能。对于大的系统I/O请求,使用256KB的stript-unit。对大多数应用推荐的stript size是64KB.

disk array综述

disk array是一个磁盘组,这些磁盘通过阵列控制器共同工作,并提供比单个打磁盘更高传输率和输入输出率。阵列控制器提供索引查找数据如何跨磁盘分布。RAID5,6,10磁盘阵列提供数据冗余,保证在阵列单个磁盘出现故障的情况下无数据损失。

PCI-X SCSI disk array指定如hdisk形式的名字,和AIX上其他的磁盘存储相同。这些名字被自动分派无论何时常见disk array。众多的单个物理磁盘构成了disk array,并且作为candidates 提供服务,单个磁盘在磁盘阵列中通过pdisk的名字显示。pdisk是一个被格式化为522kytes/sector的磁盘。被格式化为512byte/sector的磁盘的名字被指定为hdisk的形式。在磁盘可以被disk array使用之前,磁盘必须被格式化为522bytes/sector。

在PCI-X SCSI Disk Array Manager中的List PCI-X SCSI Disk Array Configuration选项中显示pdisk 和hdisk名字,已经他们相关的location code.

第3列显示设备状态

磁盘阵列状态(hdisks)

对于PCI-X SCSI Disk Array6个合法的状态是Optimal,Degraded,Rebuilding,Failed,Missing和Unknown.

Optimal

array是功能齐备的,可以提供完全的保护(RAID5,6和10),所有阵列成员pdisks处于Active 状态

Degraded

由于磁盘故障阵列组的保护处于degraded状态,或者性能是出于degraded.当一个或多个阵列成员pdisk处于Failed状态,阵列仍然可以发挥功能但针对磁盘故障可能不能再提供完全的保护。当所有成员pdisks出于

Active状态时,由于控制器nonvolatile write cache的故障,阵列不能处于最佳状态。

Rebuilding

array的冗余数据被用来再建。当rebuild过程结束后,阵列将返回Optimal状态。在结束之前,阵列不能对磁盘故障提供完全的保护。

Failed

因为磁盘故障或配置问题,阵列不能再被访问

Missing

一个之前配置的disk array不在存在

Unknown

disk array状态不被确定

物理磁盘状态(pdisks)

pdisk的状态分别为:Active,RWProtected,Failed,Missing,and Unknown.

Active

磁盘功能正常

RWProtected

由于硬件或配置问题,磁盘不能获得

Failed 控制器不能与disk或pdisk通信,这是磁盘阵列处于Degraded状态的原因

Missing 磁盘之前连接到控制器,但当前不能被检测到

Unknown 磁盘状态不能被确定

pdisk说明

在前面输出中的第4列是设备的说明。对于一个阵列,说明表明了阵列的RAID级别。pdisk 的说明表明了是否disk被配置作为Array Member,Hot Spare或者一个Array Candidate.

Array Member

一个522byte/sector pdisk被配置作为一个array的成员

Hot Spare

一个522byte/sector pdisk可以被控制器自动替换一个失败的出故障的disk在一个Degraded 的RAID 5,6或10的磁盘阵列。一个Hot Spare只有在它的容量大于或等于一个磁盘阵列(状态为Degraded)最小磁盘容量的情况下才可以使用。

Array Candidate

一个522byte/sector pdisk成为Array Member或Hot Spare的candidate。

相关文档
最新文档