数据中心流程之关机

尽管工作准则与操作流程对IT运维十分重要,可当数据中心IT人员需要对设备进行关机时,他们通常是不做任何准备就
摘要

尽管工作准则与操作流程对IT运维十分重要,可当数据中心IT人员需要对设备进行关机时,他们通常是不做任何准备就开始关机。这种情况通常来的很快,还没等真正反应过来,IT运维人员就已经开始操作起来,在他们看来,似乎是设备系统升级那样轻松平常。

事实上,很多数据中心对关闭设备都一套自己的标准程序以及响应方式,以此避免给数据中心带来重大损失和事故。

经过精心设计与经过可靠验证的数据中心关机流程对于保障数据中心业务的连续性以及关机中不可预见的意外状况都能起到至关重要的保护作用。

关机操作流程定义了迁移或关闭应用程序;保存重要数据;关闭物理系统;稍后,再成功开机(重启系统)。让我们来看看在关机操作流程中都有哪些重要文档需要我们去记录。

1.验证和更新系统文档

所有数据中心关机流程都是为了最终能够成功重新启动系统,为此,在关闭设备之前做足充分准备是确保关机后能够成功重新启动设备系统的关键。

创建一个全面的(或者至少是当前可行的)关机、开机各种文档的集合是很有必要的。这个文档可以用来记录每个分区的system‘s volume(系统卷标),操作系统、应用程序配置,特别记录在重新启动后期间可能或意外被更改的内容。有很多工具都可以用来创建这个文档,通过工具对这些文档进行统一管理、用工具获取、记录系统状态。不要忘记获取或记录任何一个网络设备或存储阵列的配置状态。

2.明确依赖关系

事实上,企业、组织等机构对设备系统的依赖性是不同的,因此,IT人员在制定设备关机启动流程时,需要考虑以下各种设备的特性:网络设备、存储阵列、DNS服务器、备份服务器数据和调度程序等。当所有重要的设备服务器、存储、网络以及重要的服务(如DNS)等重新启动后,启动顺序(startup sequence)就会转移到重启应用上,紧接着启动独立应用,如:企业销售系统。

接着,再启动与这个应用相关的所有进程,如:公司店面网站。在制定流程的过程中,要识别和了解数据中心内部各种不同的依赖关系。IT人员会记录下依赖关系从而制定合理的流程关闭、重新启动系统、服务和应用程序,以避免系统中断或出现故障,浪费启动时间。如:不在启动服务器之前启动依赖它的存储阵列。

3.执行并验证备份

备份对任何数据中心而言都是重中之重,在设备停运之前,必须对重要数据进行备份。在设备关机之前,验证并完成计划中要备份的系统,并手动备份任何系统中未预期备份的数据或在关机之前备份恢复点目标(RPO,recovery point objective)。

通常,传统的备份方法会试图获取每个服务器上的数据进行单独备份,例如:备份SAN数据;可虚拟化数据中心却可以选择最近的VM-aware (虚拟机感知)进行备份,如快照和远程复制。

备份数据如果只是通过一种方式或工具是根本无法完成的,无论选择哪种工具备份都必须符合自身数据中心业务发展与设备自身需要——最关键的是确保一切数据都已备份,同时测试、验证这些备份是否完整并可恢复。如果时间有限,请集中将时间用于备份重要业务数据。最后提醒大家,未经备份的系统或数据都存在风险。

(备注:恢复点目标(RPO,recovery point objective)是指在因硬件、程序或通信发生故障,而导致的计算机、系统或网络出现故障时,必须从备份存储中恢复以保证系统正常运行的文件的年龄。恢复点目标在时间上是从故障发生时开始向后表示的(即到过去),它可以以秒、分钟、小时或天来表示。它是灾难恢复计划(DRP)中重要的考虑因素。

VM-aware :VM感知存储或虚拟化感知存储是在利用虚拟机(VM)的虚拟化环境中对存储基础设施的智能管理和监视;在VM感知存储环境中的关键因素是存储组件与VM一起管理,而不是作为单独管理的卷或LUN(逻辑单元号)管理。)

4.检查并验证系统硬件

检查硬件状态并识别是哪部分硬件发生故障。管理工具可以将错误报告以邮件或信息的方式告知IT人员,将事件发生记录到log files(日志文件)里或通过设备面板实时跟踪记录事件全过程。但并非被记录的所有事件都能够立即解决。

例如,RAID 6组中的RAID 5磁盘可能会出现问题,并被重写到另一个备用磁盘上,IT人员可能需要一些时间完成更换和重建故障的磁盘。比如:在将VM工作负载迁移或重新启动到其他可用系统的服务器;也有可能在出现类似问题时,即使查看错误日志或看到面板显示信息后,依旧无法立即修复这些问题,这些问题会在系统关机之前被IT人员发现,提醒IT人员再次确认这样的问题会不会影响关机或重启。

IT人员将在关机之前做出明智的决定来处理需要解决的问题,确保待决的问题不会影响重新启动。

5.严格按流程关闭系统