人工智能和机器学习将如何为数据中心提供帮助

有些人认为,人工智能(AI)理解和解决问题时近乎具有神秘的力量。而人工智能广泛应用于人们日常生活的许多领域,
摘要

【金融特辑】光大银行科技部DBA女神带你从0到1揭秘MGR

有些人认为,人工智能(AI)理解和解决问题时近乎具有神秘的力量。而人工智能广泛应用于人们日常生活的许多领域,因此,实现这一目标的硬件开始在数据中心中应用。

人工智能和机器学习将如何为数据中心提供帮助

数据中心本身存在一系列复杂的问题,包括优化和预测。那么,如何采用人工智能这种神奇的技术来改善数据中心运营?

将人工智能应用在数据中心

机器学习(尤其是深度学习)可以检查大量的数据集,并在其中找到不依赖于人类用来理解和预测数据的模型的模式。它还可以预测未来将重复出现的模式。

如今的数据中心设施越来越成熟和齐全,传感器可以提供大量有关IT性能和环境因素的实时和历史数据。2016年,为了提高效率,谷歌公司将人工智能应用到数据中心上,得到了业界关注。

谷歌公司使用其拥有的人工智能技术DeepMind来优化其数据中心的冷却。2014年,该公司宣布其数据中心工程师Jim Gao正在使用人工智能技术来实现推荐引擎。

2016年,该项目利用神经网络优化了谷歌公司在新加坡的数据中心的冷却设施,这些神经网络学习如何预测数据中心的温度,并提供了积极应对的建议。

根据DeepMind的研究工程师Richard Evans的说法,该结果使该数据中心的冷却费用减少了40%,而PUE(能源使用效率)减少了15%。他表示,“由于算法是理解复杂动态的通用框架,因此我们计划将其应用于数据中心环境中的其他挑战。”

该公司2018年宣布的下一步计划是自动运行数据中心冷却系统,人工智能系统在工作人员的监督下调整数据中心的运行设置。为了确保冷却系统安全运行,运营团队限制了其设置,因此只节省了30%的冷却费用。

该系统每五分钟用数千个传感器对数据中心冷却系统拍摄一次快照,并将其输入云中的人工智能系统。这预测了潜在的行动将如何影响未来的能源消耗,并选择了最佳的选择。这将数据发送到数据中心,由本地控制系统验证,然后实施。

项目团队报告系统已经开始产生出乎意料的优化效果。Dan Fuenffinger来自谷歌公司的一家数据中心运营商,他采用该系统工作了很长时间,他说:“我们看到人工智能学会利用冬季的低温条件,产生比正常温度更低的冷却水,这真是令人惊讶,因为这样可以减少数据中心内冷却所需的电能。”

Jim Gao表示,这个成功案例证明了该系统可以安全有效地运作。其决策将受到安全规则的审查,运营人员可以随时接管。

在这个阶段,谷歌公司的人工智能优化只有一个客户,那就是其自身。但这一想法得到了学术界的大力支持。

稳定性很重要

加拿大安大略省麦克马斯特大学计算基础设施研究中心(CIRC)负责人Suvojit Ghosh表示,人类和简单的基于规则的系统可以对任何情况做出反应,但是当环境发生变化时,它们的反应并不相同,而人工智能可以做得更好,因为它能够预测变化。

Ghosh说,“我们知道运行的服务器过热将会导致宕机。但如果有温度波动,这种情况显然会更糟。简单的规则使数据中心迅速达到最佳稳态位置,但在此过程中,它们会使温度突然发生阶段性变化,结果发现这会浪费很多能量。如果温度条件经常变化,那么其能耗可能抵消收益。如果环境温度已经达到21℃~27℃,然后再下调的话,将会浪费电能。”

一些数据中心服务商为此做出了回应。数据中心基础设施管理(DCIM)服务商已经采用了人工智能技术,而一些已经在进行预测分析的公司已经采用了机器学习技术。

分析机构Romonet公司联合创始人Zahl Limbuwala说,“当前机器学习的各个方面都处于平台的初始数据处理阶段,在将传感器和仪表的原始数据输入预测建模引擎之前,对其进行标准化、清理、验证和标记。”

电力和冷却方面的智能化措施有不同的名称。例如华为公司的电力、冷却和DCIM智能化技术名称分别称之为iPower、iCooling和iManager。

与谷歌和其他公司一样,华为公司从简单的实际步骤开始,例如使用模式匹配来控制温度并发现制冷剂泄漏的证据。在电力系统中,它致力于使用人工智能识别和隔离设备故障。

该公司高级营销经理Zou Xiaoteng表示,在拥有1,540个机架的廊坊数据中心,华为公司大幅降低了使用iCooling技术的PUE值。该数据中心设施的功率密度约为每机架6kW,IT负载率为43%。

DCIM供应商Nlyte公司在2018年将其工具与世界上最知名的人工智能项目之一IBM公司的Watson集成之后,将其应用在DCIM产品中。

Nlyte公司首席执行官Doug Sabella当时预测,人工智能技术增强DCIM将带来伟大的成就。