1.
准备与安全(到场前与进场检查)
到机房前确认工单、权限与个人防护装备(PPE)。到达门禁处出示证件并在进出登记簿上签名;确认电源锁定/挂牌(LOTO)是否需要。小分段:工具箱(万用表、红外测温仪、湿度计、手电、标签、笔记本)与便携式巡检表提前准备并充电。
2.
环境参数检查(实时与记录)
记录机房温度、湿度、冷通道/热通道温差、空调设定点。小分段:用温湿度计在机柜前中部、顶部、回风口各测一次;比对BMS/监控值,若偏离>2°C或湿度超标,触发告警并记录时间与数值。
3.
电力与UPS巡检(按日/周/月)
检查市电输入、旁路、UPS状态、负载百分比与电池电压。小分段:用万用表或PDU界面核对三相不平衡、相序与电流;查看UPS日志(停电/切换记录)、电池温度;每月做一次电池浮充测试并记录。
4.
制冷与通风系统保养
核查CRAC/精密空调运行模式、冷凝盘水位、过滤器状态与冷媒警报。小分段:每周清洁滤网、每季检查冷媒压力与蒸发器结霜状况;如发现冷凝水外溢或排水堵塞,立即排水并记录处理步骤。
5.
线路与机柜检查
查看电缆绑扎、接地线、网线标识与机柜门锁。小分段:确认线缆无磨损、无过热痕迹(红外测温>50°C需重点处理);对标识不清或松动的端口立刻更换标签并更新资产管理表。
6.
消防、漏水与安防系统检测
核实烟感、灭火系统状态、漏水探测器在线性与布点覆盖。小分段:每月演练一次手动报警流程并记录响应时间;发现漏水探针报警,先断电并查找来源,随后通知运维主管并上传照片与处理记录。
7.
软件与监控日志标准化记录方法
统一巡检记录格式(CSV/Excel模板字段:日期/检查项/设备ID/状态/数值/处理人/备注)。小分段:所有异常需附截图或照片并填写工单编号;每天同步一次到中央CMDB,变更项须经三级审核签字。
8.
定期维护与更换周期建议
列出关键设备保养周期:空调滤网月更、UPS电池3-5年更换、PDU端口半年检查。小分段:保养时记录起止时间、使用配件编号、消耗品批次,以便追溯与合规审计。
9.
异常处置与升级流程
明确现场处置顺序:发现异常→快速隔离风险(断电/切断回路)→填写临时处置单→通报值班工程师→提交整改工单。小分段:重大事件(供电中断、火灾、洪水)需按SOP启动应急预案并在24小时内提交事件报告。
10.
问:巡检频率如何制定以适应马来西亚气候特点?
答:建议日检温湿度与UPS状态,周检物理线缆与过滤器,月检空调与电池状态,季检冷媒与消防系统。湿热高需要增加温湿度检测频率并加装水浸探测。
11.
问:如何把纸质巡检转成可追踪的数字化记录?
答:采用统一电子表单(含必填项与下拉项)、手机扫码填写、上传照片并自动绑定设备ID,定时同步到CMDB并设定异常自动告警与工单回溯。
12.
问:现场工程师遇到紧急电力故障第一时间要做什么?
答:首先确认人员安全并通知值班,按LOTO断开故障回路,切换到UPS/旁路,记录电压电流参数并上传日志,同时启动备件与第三方电力支持流程。
来源:马来西亚服务器机房的巡检流程与设备保养记录标准化方法