数据中心技术措施,基本原则

2019-09-11 16:04栏目:公司领导
TAG:

百亿级访问量的实时监控系统如何实现?,百亿级实时监控系统

笔者自2016年加入WiFi万能钥匙,现任WiFi万能钥匙高级架构师,拥有10年互联网研发经验,喜欢折腾技术。主要专注于:分布式监控平台、调用链跟踪平台、统一日志平台、应用性能管理、稳定性保障体系建设等领域。

在本文中,笔者将与大家分享一下在实时监控领域的一些实战经验,介绍WiFi万能钥匙是如何构建APM端到端的全链路监控平台,从而实现提升故障发现率、缩短故障处理周期、减少用户投诉率、树立公司良好品牌形象等目标。

WiFi万能钥匙开发运维团队的困扰

始于盛大创新院的WiFi万能钥匙,截至到2016年底,我们总用户量已突破9亿、月活跃达5.2亿,用户分布在全球223个国家和地区,在全球可连接热点4亿,日均连接次数超过40亿次。

随着日活跃用户大规模的增长,WiFi万能钥匙各产品线服务端团队正进行着一场无硝烟的战争。越来越多的应用服务面临着流量激增、架构扩展、性能瓶颈等问题。为了应对并支撑业务的高速发展,我们迈入了SOA、Microservice、API Gateway等组件化及服务化的时代。

伴随着各系统微服务化的演进,服务数量、机器规模不断增长,线上环境也变得日益复杂,工程师们每天都会面临着诸多苦恼。例如:线上应用出现故障问题时无法第一时间感知;面对线上应用产生的海量日志,排查故障问题时一筹莫展;应用系统内部及系统间的调用链路产生故障问题时难以定位等等。

综上所述,线上应用的性能问题和异常错误已经成为困扰开发人员和运维人员最大的挑战,而排查这类问题往往需要几个小时甚至几天的时间,严重影响了效率和业务发展。WiFi万能钥匙亟需完善监控体系,帮助开发运维人员摆脱烦恼,提升应用性能。依据公司的产品形态及业务发展,我们发现监控体系需要解决一系列问题:

◆面对全球多地域海量用户的WiFi连接请求,如何保障用户连接体验?

◆如何通过全链路监控提升用户连接WiFi的成功率?

◆随着微服务大规模推广实施,钥WiFi万能钥匙产品服务端系统越来越复杂,线上故障的发现、定位、处理难度也随之增长,如何通过全链路监控提升故障处理速度?

◆移动出海已经进入深入化发展的下半场,全链路监控如何应对公司全球化的业务发展?

◆……

全链路监控

早期为了快速支撑业务发展,我们主要使用了开源的监控方案保障线上系统的稳定性:Cat、Zabbix,随着业务发展的需要,开源的解决方案已经不能满足我们的业务需求,我们迫切需要构建一套满足我们现状的全链路监控体系:

◆多维度监控(系统监控、业务监控、应用监控、日志搜索、调用链跟踪等)

◆多实例支撑(满足线上应用在单台物理机上部署多个应用实例场景需求等)

◆多语言支撑(满足各团队多开发语言场景的监控支撑,Go、C++、PHP等)

◆多机房支撑(满足国内外多个机房内应用的监控支撑,机房间数据同步等)

◆多渠道报警(满足多渠道报警支撑、内部系统对接,邮件、掌信、短信等)

◆调用链跟踪(满足应用内、应用间调用链跟踪需求,内部中间件升级改造等)

◆统一日志搜索(实现线上应用日志、Nginx日志等集中化日志搜索与管控等)

◆……

监控目标

从“应用”角度我们把监控体系划分为:应用外、应用内、应用间。如下图所示:

图片 1

应用外:主要是从应用所处的运行时环境进行监控(硬件、网络、操作系统等)

应用内:主要从用户请求至应用内部的不同方面(JVM、URL、Method、SQL等)

应用间:主要是从分布式调用链跟踪的视角进行监控(依赖分析、容量规划等)

罗马监控体系的诞生

根据自身的实际需求,WiFi万能钥匙研发团队构建了罗马(Roma)监控体系。之所以将监控体系命名为罗马,原因在于:

1、罗马不是一天成炼的(线上监控目标相关指标需要逐步完善);

2、条条大路通罗马(罗马通过多种数据采集方式收集各监控目标的数据);

3、据神话记载特洛伊之战后部分特洛伊人的后代铸造了古代罗马帝国(一个故事的延续、一个新项目的诞生)。

一个完美的监控体系会涵盖IT领域内方方面面的监控目标,从目前国内外各互联网公司的监控发展来看,很多公司把不同的监控目标划分了不同的研发团队进行处理,但这样做会带来一些问题:人力资源浪费、系统重复建设、数据资产不统一、全链路监控实施困难。目前,各公司在监控领域采用的各解决方案,如下图所示:

图片 2

正如图中所示,罗马监控体系希望能够汲取各方优秀的架构设计理念,融合不同的监控维度实现监控体系的“一体化”、“全链路”等。

高可用架构之道

面对每天40多亿次的WiFi连接请求,每次请求都会经历内部数十个微服务系统,每个微服务的监控维度又都会涉及应用外、应用内、应用间等多个监控指标,目前罗马监控体系每天需要处理近千亿次指标数据、近百TB日志数据。面对海量的监控数据罗马(Roma)如何应对处理?接下来,笔者带大家从系统架构设计的角度逐一进行剖析。

架构原则

一个监控系统对于接入使用方应用而言,需要满足如下图中所示的五点:

• 性能影响:对业务系统的性能影响最小化(CPU、Load、Memory、IO等)

• 低侵入性:方便业务系统接入使用(无需编码或极少编码即可实现系统接入)

• 无内部依赖:不依赖公司内部核心系统(避免被依赖系统故障导致相互依赖)

• 单元化部署:监控系统需要支撑单元化部署(支持多机房单元化部署)

• 数据集中化:监控数据集中化处理、分析、存储等(便于数据统计等)

整体架构

Roma系统架构如下图所示:

图片 3

Roma架构中各个组件的功能职责、用途说明如下:

图片 4

Roma整体架构中划分了不同的处理环节:数据采集、数据传输、数据同步、数据分析、数据存储、数据质量、数据展示等,数据流处理的不同阶段主要使用到的技术栈如下图所示:

图片 5

数据采集

对于应用内监控主要是通过client客户端同所在机器上的agent建立TCP长连接的方式处理,agent同时也需要具备通过脚本调度的方式获取系统性能指标数据。

图片 6

面对海量的监控指标数据,罗马监控通过在各层中预聚合的方式进行汇总计算,比如在客户端中相同URL请求的指标数据在一分钟内汇总计算后统计结果为一条记录(分钟内相同请求进行累加计算,通过占用极少内存、减少数据传输量),对于一个接入并使用罗马的系统,完全可以根据其实例数、指标维度、采集频率等进行监控数据规模的统计计算。通过各层分级预聚合,减少了海量数据在网络中的数据传输,减少了数据存储成本,节省了网络带宽资源和磁盘存储空间等。

应用内监控的实现原理(如下图所示):主要是通过客户端采集,在应用内部的各个层面进行拦截统计: URL、Method、Exception、SQL等不同维度的指标数据。

图片 7

应用内监控各维度指标数据采集过程如下图所示:针对不同的监控维度定义了不同的计数器,最终通过JMX规范进行数据采集。

图片 8

数据传输

数据传输TLV协议,支持二进制、JSON、XML等多种类型。

图片 9

每台机器上都会部署agent(同客户端建立TCP长连接),agent的主要职责是数据转发、数据采集(日志文件读取、系统监控指标获取等),agent在获取到性能指标数据后会发送至kafka集群,在每个机房都会独立部署kafka集群用于监控指标数据的发送缓冲,便于后端的节点进行数据消费、数据存储等。

为了实现数据的高效传输,我们对比分析了消息处理的压缩方式,最终选择了高压缩比的GZIP方式,主要是为了节省网络带宽、避免由于监控的海量数据占用机房内的网络带宽。针对各个节点间数据通信的时序图如下图所示:建立连接->读取配置->采集调度->上报数据等。

图片 10

数据同步

海外运营商众多,公网覆盖质量参差不齐,再加上运营商互联策略的不同,付出的代价将是高时延、高丢包的网络质量,钥匙产品走向海外过程中,首先会对整体网络质量情况有正确的预期,比如如果需要对于海外机房内的应用进行监控则依赖于在海外建立站点(主机房)、海外主站同国内主站进行互联互通,另外需要对监控指标数据分级处理,比如对于实时、准实时、离线等不同需求的指标数据采集时进行归类划分(控制不同需求、不同数据规模等指标数据进行采样策略的调整)

由于各产品线应用部署在多个机房,为了满足各个应用在多个机房内都可以被监控的需求,罗马监控平台需要支持多机房内应用监控的场景,为了避免罗马各组件在各个机房内重复部署,同时便于监控指标数据的统一存储、统一分析等,各个机房内的监控指标数据最终会同步至主机房内,最终在主机房内进行数据分析、数据存储等。

为了实现多机房间数据同步,我们主要是利用kafka跨数据中心部署的高可用方案,整体部署示意图如下图所示:

图片 11

在对比分析了MirrorMaker、uReplicator后,我们决定基于uReplicator进行二次开发,主要是因为当MirrorMaker节点发生故障时,数据复制延迟较大,对于动态添加topic则需要重启进程,黑白名单管理完全静态等。虽然uReplicator针对MirrorMaker进行了大量优化,但在我们的大量测试之后仍遇到众多问题,我们需要具备动态管理MirrorMaker进程的能力,同时我们也不希望每次都重启MirrorMaker进程。

数据存储

为了应对不同监控指标数据的存储需求,我们主要使用了HBase、OpenTSDB、Elasticsearch等数据存储框架。

图片 12

数据存储我们踩过了很多的坑,总结下来主要有以下几点:

• 集群划分:依据各产品线应用的数据规模,合理划分线上存储资源,比如我们的ES集群是按照产品线、核心系统、数据大小等进行规划切分;

• 性能优化:Linux系统层优化、TCP优化、存储参数优化等;

• 数据操作:数据批量入库(避免单条记录保存),例如针对HBase数据存储可以通过在客户端进行数据缓存、批量提交、避免客户端同RegionServer频繁建立连接(减少RPC请求次数)

数据质量

我们的系统在持续不断地产生非常多的事件、服务间的链路消息和应用日志,这些数据在得到处理之前需要经过Kafka。那么,我们的平台是如何实时地对这些数据进行审计呢?

为了监控Kafka数据管道的健康状况并对流经Kafka的每个消息进行审计,我们调研并分析了Uber开源的审计系统Chaperone,在经过各种测试之后,我们决定自研来实现需求,主要是因为我们希望具备任意节点任意代码块内的数据审计需求,同时需要结合我们自己的数据管道特点,设计和实现达成一系列目标:数据完整性与时延;数据质量监控需要近实时;数据产生问题时便于快速定位(提供诊断信息帮助解决问题);监控与审计本身高度可信;监控平台服务高可用、超稳定等;

为了满足以上目标,数据质量审计系统的实现原理:把审计数据按照时间窗口聚合,统计一定时间段内的数据量,并尽早准确地检测出数据的丢失、延迟和重复情况。同时有相应的逻辑处理去重,晚到以及非顺序到来的数据,同时做各种容错处理保证高可用。

数据展示

为了实现监控指标的数据可视化,我们自研了前端数据可视化项目,同时我们也整合了外部第三方开源的数据可视化组件(grafana、kibana),在整合的过程中我们遇到的问题:权限控制问题(内部系统SSO整合)主要是通过自研的权限代理系统解决、去除kibana官方提供的相关插件、完善并自研了ES集群监控插件等。

核心功能及落地实践

系统监控

我们的系统监控主要使用了OpenTSDB作为数据存储、Grafana作为数据展示,TSDB数据存储层我们通过读写分离的方式减轻存储层的压力,TSDB同Grafana整合的过程中我们也遇到了数据分组展示的问题(海量指标数据下查询出分组字段值,通过建立独立的指标项进行数据查询),如下图某机器系统监控效果:

图片 13

应用监控

针对各个Java应用,我们提供了不同的监控类型用于应用内指标数据的度量。

图片 14

业务监控

针对业务监控,我们可以通过编码埋点、日志输出、HTTP接口等不同的方式进行业务监控指标采集,同时支持多维度数据报表展示,如下图所示:

图片 15

我们的业务监控通过自助化的方式让各应用方便捷的接入,如下图监控项定义:

图片 16

日志搜索

为了支撑好研发人员线上排查故障,我们开发了统一日志搜索平台,便于研发人员在海量日志中定位问题。

图片 17

未来展望

随着IT新兴技术的迅猛发展,罗马监控体系未来的演进之路:

• 多语言支撑:满足多语言的监控需求(性能监控、业务监控、日志搜索等)

• 智能化监控:提高报警及时性、准确性等避免报警风暴(ITOA、AIOps)

• 容器化监控:随着容器化技术的验证落地实施,容器化监控开启布局;

总结

罗马(Roma)是一个能够对应用进行深度监控的全链路监控平台,主要涵盖了应用外、应用内、应用间等不同维度的监控目标,例如应用监控、业务监控、系统监控、中间件监控、统一日志搜索、调用链跟踪等。能够帮助开发者进行快速故障诊断、性能瓶颈定位、架构梳理、依赖分析、容量评估等工作。

笔者自2016年加入WiFi万能钥匙,现任WiFi万能钥匙高级架构师,拥有10年互联网...

消除数据中心热点的各种技术措施,数据中心技术措施

Uptime Institute的一项调查研究显示,高达十分之一的机柜运行在温度高于设备可靠性指导原则所推荐的允许范围。目前数据中心的机柜功率密度不断攀升,平均每台机柜的功率密度达到5kW甚至更高,因此,预计受热点困扰的机柜数量将与日俱增,很快超过上述比例。

如果热点迟迟无法消除,时间一久便可能带来严重的威胁,不仅危及IT设备的可靠性与性能,还会影响硬件制造商的保修或维护协议。因此,数据中心运维人员需尽早采取有效措施,避免出现此类风险。

图片 18

1. 什么是热点

许多IT专业人员经常查看热通道的温度,或在冷通道的错误位置查看温度,一旦发现温度过高,便自认为发现了热点。然后,他们会采取各种应对措施,但结果可能令人失望,非但未能消除热点,反而引发更多的热点。搞清究竟什么是热点、热点的根本起因以及如何识别热点对于根除热点至关重要。

(1) 热点的定义

不能将数据中心内随机测得的任何高温点都视作热点。我们将热点定义为:当IT设备进风口的温度高于ASHRAETC9.9所推荐的期望值,即视作热点。一般机柜顶部的位置最容易产生热点。美国供热、制冷与空调工程师学会(ASHRAE)的热指南给出了服务器进风口处温度的推荐值及允许值范围。

(2) 热点产生的根源

数据中心所安装制冷装置的制冷量经常供大于求,特别是当制冷量完全由IT设备“铭牌”上的额定值所决定。倘若如此,那么为何还会出现热点?究其原因,热点的产生并非是制冷量不足或热负荷过大,而是制冷量未能得到充分的使用,换句话说,制冷量是充足的,但未能在需要制冷的区域提供充分的制冷量,这是由于缺乏气流管理所造成的。

图1是一个制冷量未被充分利用的例子,这是来自施耐德电气对一个真实案例的研究。图中显示了一个采用房间级制冷的传统典型数据中心,它的高架地板和吊顶用作送风和回风通道。机房空调先是以一定的压力和速度将冷风送入地板通道。然后,冷风通过高架地板中的穿孔地板(占机房空调气流的54%)和地板上线缆切口(占机房空调气流的46%)从地板通道进入IT空间(即泄漏气流)。

地板上线缆切口的泄漏气流会导致制冷量的损失,因为气流无法到达IT设备的前方,而是绕过了设备。事实上,这些气流并未带走任何热量,而是又绕回到制冷单元。

通过穿孔地板的大部分气流(占穿孔地板风量的96.29%)都流经IT机柜中的设备,但由于缺乏气流管理,并非全部气流都通过设备。一小部分冷风(占穿孔地板风量的3.71%)绕过IT设备又返回到制冷单元。与泄漏气流相同,这些旁通气流也会造成制冷量损失。同时,某些“亟需冷却”的IT设备无法获得足够的冷量,而不得不从机柜后部吸入设备排出的热风(占IT气流量的7.15%),这经常在“亟需冷却”的IT设备的前方造成热点。简而言之,用于减少气流泄漏、旁通与再循环的措施将有助于热点的消除。

(3) 如何识别热点

尽早发现热点对于防止IT设备过热和故障至关重要。我们可以通过以下三种方法发现热点:

  • 最简单、最经济的热点检测方法就是在数据中心内来回巡视,将手放于机柜前部,感觉温度。如果温度较高,则说明存在热点。这种方法的准确性最差,但对于极为明显的热点颇为有效。
  • 手动测量法较为准确,因为仪表可以更准确地测出温度值。此类仪表包括塑料温度贴条、枪式测温计和FLIR红外热像仪。手动测量被认为是一种经济且颇为有效的热点检测方法。尽管如今的红外热像仪售价高达300美元。数据中心运维人员可以利用这些仪表在服务器进风口和机柜的前门位置测量温度值以及测量服务器进风口和排风口间的温差(即服务器的ΔT),以便发现热点。
  • 自动监测被誉为热点识别的最佳方法,可以显示实时数据,说明服务器或数据中心的制冷状态。数据中心物理基础设施管理(DCIM)解决方案的自动监测装置可在系统达到某个阈值时,通过电子邮件或短消息向相关人员发出实时警报。借助DCIM软件,您可以按照自己的具体要求查看每台设备进风口和排风口的实际温度。施耐德电气的StruxureWareTM就是一款典型的数据中心基础设施管理软件,它可以利用从已安装的传感器网络收集到的实时数据来提供详实的三维热分布图。这种方法的精确度最高,但成本也最高。此外,IT设备一般配有内置热传感器,可以监控其热状态并利用IPMI协议报告热点。

其他有助于识别或预防潜在热点的建议包括利用计量型机柜式PDU识别并检查高密度(功率密度在5kW以上的)机柜——因为这些机柜出现热点的可能性更高。在决定进行移动、添加和更改机柜操作后或在数据中心设计阶段,利用CFD软件预测热点。CFD模拟技术可以提供机柜前部温度与压力云图以及机柜周围气流分布的详细三维分析,从而发现潜在热点。该工具的强大之处在于可以发现哪些区域的制冷量被浪费,哪些区域存在冷热气流混合,导致制冷量未被充分利用。

2. 评估所采取的传统措施

当发现热点,数据中心运维人员会采取各种应对措施。不过,并非所有的措施都会奏效。下文将介绍一些传统的应对措施,并阐述这些措施奏效/无效的原由。请注意大部分措施对于减少气流旁通或再循环根本无济于事。

(1) 调低制冷单元的温度设定值

调低送风温度有助于减少热点的说法貌似合乎逻辑,但在处理热点时实为不得已而为之的下下之策,因为这会降低整个制冷系统的效率和制冷量。这种方法的效果取决于机房空调的工作状态。如果制冷系统尚有多余容量(即工作负载不足100%,未达到制冷极限),那么调低温度设定值的做法具有积极的效果。对于靠近机房空调位置的热点,调低温度设定值可以降低热点处的温度。但倘若机房空调正以最大容量(100%满负载)运行,由于系统已达到制冷极限,调低温度设定值是没有效果的,所以无法消除热点。每个制冷系统在给定环境条件下都有固定的最大制冷容量。温度设定值调低后,“最大”制冷容量也随之降低。

(2) 在热通道中放置穿孔地板

有人认为这方法很好,这是因为他们不了解冷通道/热通道布局设计的优势,而将所有高温现象都视作热点。事实上,这种方法非但不能消除冷通道中的热点,还有可能引发更多热点。此外,在热通道中放置穿孔地板(即造成气流旁通)还会减少可用的制冷量。冷通道/热通道布局设计是最为行之有效的方法,因此热通道中根本不存在热点。由于冷通道是IT设备获取制冷量的“冷量容器”,对于IT设备而言,在冷通道内保持低温至关重要。在风冷型大型设备盛行初期,往往通过高架地板提供冷量,制冷单元根据回风温度进行控制。这种方法之所以奏效是因为室内空气温度均一,冷热气流充分混合。而如今,冷通道/热通道的布局设计中特意分别建立冷热两个温度区,形成回风温度的不均一。习惯于均一室内温度设计的人员可能会在热通道中放置穿孔地板,认为这样做就可以解决热点问题。

(3) 将机柜和穿孔地板紧靠制冷单元

有人会觉得将机柜和穿孔地板尽量紧靠制冷单元的做法不错,这是因为他们假定放置在距离制冷单元几英尺范围的机柜和穿孔地板能获得较多的制冷量。但事实上,效果恰恰相反。它可能导致IT设备出现供冷不足的现象,且无法持续消除热点。虽然这一做法可以帮助收集大部分排热,但不具有可预测性,并不是解决热点的高效做法。而这种做法导致IT设备出现供冷不足现象的原因在于,从制冷单元送出的气流具有很高的速度,导致该片区域内的静压很低。这也就是说,该片区域内安装的穿孔地板的供冷量很小,甚至可能会将房间内的气流吸入地板通道内。

确定高架地板下的气流是否存在问题有一个很简单的做法,那就是在穿孔地板上方放置一小纸片。如果纸片被吸向穿孔地板内,则应将穿孔地板更换为实心地板,以平衡高架地板下的通道压力。

(4) 将落地扇置于热点机柜前

有人认为此举可将气流直接集中在某个热点的前方,因此是一种消除热点的好方法。但是,这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。这种做法可以降低设备的运行温度从而消除热点,但成本极高。落地扇的作用基本相当于一个气流混合器,将设备排出的热风与冷风混合,使气流的温度介于低送风温度和高排风温度之间。这还会增加通过设备的气流量。冷热风的混合还会降低制冷系统效率,造成增加除湿/加湿负担,制冷系统容量利用不充分,并可能因制冷冗余造成损失。此外,落地扇还会成为数据中心内的附加热源。

(5) 将气流吹过冰并送入冷通道

有人认为用冰降温是一种简单易行的好方法。虽然此方法有助于缓解热点问题,但冰融化后会变成水,可能溢出容器,造成严重后果。即便使用包装好的冰袋,这种方法也并非上策,因为还有很多更简单有效的方法。我们将在下文中详细讨论这些方法。

(6) 推入便携式制冷单元

有人认为这是一种解决问题的好方法,因为此举可将冷风直接集中在某个热点的前方。但这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。遗憾的是,人们经常将这种方法用作永久性解决方案。便携式制冷单元一般是在失去制冷的情况下应急使用,因为数据中心工作人员可以很方便地将其推入到位。然而,对于如何妥善解决遍布数据中心的热点问题,下面所讨论的最佳方法才是首选的永久性解决方案,不但成本低廉而且非常奏效。

(7) 增加更多制冷单元

有人很自然地将热点问题与制冷量不足关联起来,因此认为增加制冷单元不失为一种理想方法。然而,在多数情况下,制冷量非常充足,只是由于缺乏气流管理,导致到达制冷需求点的制冷量未达到要求的水平。此外,这种方法并非万能,而且在解决热点问题的同时还会产生大量费用支出。Uptime Institute的一项调查研究显示,虽然某些IT机房的制冷量已高达需求量的15倍,但机房中仍有7%到20%的机柜存在热点。究其原因,竟是送入的冷风绕过了IT设备的进风口。正确的解决方案是采用下面所讨论的最佳方法,然后再核定是否需要增加制冷单元。

3. 消除热点的新方法

以上方法司空见惯,但我们大都不推荐使用,因为这些方法对于造成热点的两个主要起因(即气流旁通与再循环)无能为力。如要杜绝气流旁通与再循环现象,必须将冷热气流完全分离,这样热点就根本不会存在。下面的前四种最佳实践之所以有效,正是因为这些实践解决了气流旁通或再循环问题,或同时解决了这两个问题。最后一个新方法只有在气流管理完全落实到位之后方可采用。

(1) 管理机柜气流

许多热点的出现是因为设备排出的热风在机柜内部或机柜周围发生再循环。因此,改善机柜气流管理对于解决热点至关重要。开放的机柜U空间和进出线口是造成热风再循环的主要原因,直接导致热点产生。改善机柜气流状况最简单、最经济有效的方法之一是利用盲板封堵未使用的机柜U空间,并在机柜的进出线口位置安装毛刷。企业应更新数据中心运行流程,规定凡有移动、添加和更改操作,便要安装盲板和毛刷。

某些类型的交换机和路由器采用侧向气流。如果在安装这些设备的数据中心内,机柜气流采用从前向后的传统模式,则交换机/路由器的排出的热风可能返回进风口并造成热点。

我们可以利用机柜侧向气流分配单元以可预测方式直接向侧向气流设备送入冷风,而不会造成热点。如果平均制冷总量充足,但在功率密度高于均值的机柜中产生热点,此时可以增加风机辅助型设备,通过改进气流状况和增加制冷量来改善制冷效果。风机辅助型设备设备可有效地从功率密度为3kW以下负载的相邻机柜“借用”气流以支持机柜负载。此方法可最大限度地降低机柜顶部和底部间的温差,并防止设备排出的热风再循环至机柜的进风口。所有排风设备在部署时必须十分小心,以确保来自相邻空间的气流不会造成相邻机柜温度过高。这些设备应使用UPS供电,避免设备在断电期间发生制冷中断。在高密度环境中,启动备用发动机期间也可能发生过热现象。

(2) 管理机房气流

在改善机柜气流管理后,下一个重要步骤是改善机房内的气流管理。首先,是密封高架地板中所有的开口。使用毛刷密封机柜后部和PDU下面的进线口。导致意外气流泄漏大都由这些开口造成。还可利用空气阻尼泡沫或软垫密封制冷单元周围的缝隙和其他地板空隙,在地板缺损的部位铺上实心地板,找出造成气流旁通的穿孔地板并改用实心地板。例如,如果一个空机柜前铺了穿孔地板,则应将其换为实心地板。此外,还可遵照侧栏中的操作程序对地板下的气流进行重新平衡。正确铺设地板并密封高架地板中的缝隙有助于回收利用损失的制冷量。

另一个导致热点问题的因素是机柜顶部上方和机柜行末端周围发生的冷热气流混合。解决这一问题的一个最佳实践是通过遏制通道和/或机柜气流将冷热气流分开。通道气流遏制不仅有助于消除热点,与传统的非气流遏制数据中心设计相比还更加节能。

可以用一个送风设备替换机柜的后门,从而将其变为一个主动式风管机柜。需注意这些设备将使机柜的总深度增加大约250mm,这可能会增大每两行相邻机柜之间的间距。通常情况下排入热通道的热风会被收集起来并向上推送,然后沿管道进入回风通道。此举可防止气流在机柜进行再循环并提升制冷系统的效率和制冷量。主动式独立垂直风管系统中的风扇可支持高达12kW的机柜功率密度,并能克服不佳通道压力或因服务器排风口线缆过度密集而导致的压降。但主动式垂直风管系统很容易为数据中心的其他区域带来意想不到的问题,因此在部署安装时应格外小心。在这些设备中必须使用盲板和机柜侧面板。主动式风管系统是耗电设备,因此需要监控和维护。

(3) 转移问题负载

如上所述,转移问题负载的方法是在发现“问题”负载之后将其转移到低密度机柜,从而消除热点。为机房配备制冷设备,让机房冷却到低于机柜潜在峰值的一个平均值,并将负载分摊到几个机柜,从而将任何负载超过设计平均值的机柜负载分流。请注意,将设备负载分摊到多个机柜会使机柜内出现大量未使用的垂直空间。必须用盲板将这些空间密封,防止制冷性能降低。如果可以拆除一台服务器或其它关键性设备,此举几乎毫无成本却可解决热点问题。

(4) 改变温湿度传感器的位置

在多数陈旧的数据中心,都是在机房空调回风气流中安装温度探测器,使得气流具有不可预测性。此举还会导致机房空调负载不均衡,从而使服务器进风口的温度发生波动。将温度探测器转移到送风气流中(这里的送风可控制而且可预测)可使IT设备进风口的温度更加平稳。如果与气流遏制方法结合使用,改变温度探测器的位置还能提高送风温度,从而减少制冷系统的能耗,同时无需担心送风温度是否会有大幅波动。

(5) 利用数据中心基础设施管理软件控制制冷单元的气流

有些系统可以根据IT机柜前方的温度控制单个机房的制冷单元。这些系统可使用模糊算法动态预测和调整制冷单元的风扇转速,并测算哪些制冷单元可关闭。通过控制进入数据中心的风量可以限制旁通气流量。Vigilent制冷系统就是这种系统的一个典型。

4. 结束语

热点会严重影响服务器的可靠性和性能,甚至会造成服务器的损坏。热点通常出现在IT设备的进风口位置,原因包括低效的气流管理,如冷气流泄漏(即气流旁通)和设备排出的热风再循环等问题。巡视感知温度、手动测量温度或自动监测是三种识别热点的主要方法。

数据中心运维人员为消除热点,采用了许多应对措施,但大都不尽人意,有的仅能作为应急情况使用,而有的却无济于事,有的甚至会使问题雪上加霜。消除热点的最佳实践包括机柜和机房的气流管理、气流遏制、问题设备转移、改变温度传感器位置以及通过数据中心物理基础设施管理软件控制制冷单元的气流。用这些方法解决热点问题不仅简单易行,而且成本低廉,行之有效。

Uptime Institute的一项调查研究显示,高达十分之一的机柜运行在温度高于设备可靠性...

选购DCIM的四项“基本原则”

如果是购买几台x86服务器或其他常用的IT设备,大多数企业用户想来不会犯怵,因为用得多、见得多,所以都大致知道该去参考哪几项关键配置或参数。然而,换做我们今天谈的DICM,情况就可能没那么乐观了。

那么,有没有一些关键指标可供人们评估和选择DCIM解决方案?答案是有的。本文就试图为用户准备一张神奇的清单,用户可以带着它去“拷问”自己的DCIM供应商。

需要特别说明的是,本文核心内容节选自施耐德电气第170号白皮书——《避免评估与实施DCIM解决方案过程中的常见误区》,在此向该白皮书作者、施耐德电气数据中心科研中心高级研究员Patrick Donovan表示感谢。

四项基本原则

对于IT解决方案而言,通常来说“没有最好,只有最适合”,因此不同的用户基于需求和预算的不同会做出不同选择。尽管如此,施耐德电气认为,无论是何种规模的用户,还是要确保所采用的DCIM解决方案最好能够符合DCIM技术发长期展趋势,能够无缝扩展并继续应用于下一代数据中心,同时无需大幅更改数据中心的现有运行方法和流程。

基于上述思路,施耐德电气提出以下四个评估DCIM的关键指标

可扩展的、模块化的和灵活的系统

开放式通信架构

标准化、预制化设计

积极的供应商支持结构

1.可扩展的、模块化的和灵活的系统

模块化和可扩展性的优势不难理解,即要支持“边成长边支付”的扩容模式、具有更强大的容错能力以及更短的平均故障恢复时间等。

灵活性的重要性在于,即使数据中心在未来发生演进和变化,软件套件仍能继续保持其效用。如果软件的扩展或升级非常困难且/或成本高昂,那么随着兼容问题的出现或功能的丧失,软件极有可能被淘汰。

以下列出了一些可用于询问供应商的推荐问题,这些问题可帮助您确定他们提供的产品是否具备以及在多大程度上具备可扩展性、模块化特性和灵活性。

1.进行产品升级和增加许可证的成本和流程是怎样的?

2.进行升级时是否必须由厂商提供升级服务?还是我自己安装一个补丁或更新即可?

3.我是否可以只选择目前需要的工具,以后再增加其他工具?还是我必须现在就购置并安装全套产品?

4.产品扩展对我现在的运行流程会产生怎样的干扰?

5.是否可以对报告工具和结果进行定制,以满足我公司利益相关者的需求?

6.在系统中增加/删除IT 系统和基础设施组件的难度有多大?

2.开放式通信架构

这一特性指的是系统能够通过各种不同的标准通信协议与第三方设备和软件进行交互。性能出色的DCIM 系统要求获得全面而且准确的电力、制冷、空间和IT 资源使用状况视图,同时还需要(最好是实时)了解它们之间的相互依存关系。这些先进的现代化系统能够主动搜集所有必要数据,为用户进行规划和做出运行相关决策提供良好的依据。举例来说,如果DCIM 软件无法与某个特定的制冷单元或UPS 通信,它将无法准确判断其容量水平或当前的状态。从而使用户很难或根本不可能实时做出理想的规划决策。如果通信能力有限,则将难以准确回答所有的重要问题,包括应将下一个服务器放置在什么位置,供电/制冷容量将在何时耗尽,或某个更改将对系统产生什么影响等。

以下对供应商的调查问卷,可帮助您确定某个特定解决方案在多大程度上能够提供IT系统和设施系统的完整视图。

1.要求供应商提供他们支持的所有协议的清单。

2.将此清单与需要管理的设备和系统所支持的协议进行比较。

3.说明可使用的API(应用编程接口)的分类或列出所有现在使用的API 以及典型用途举例。

4.要求供应商说明DCIM 服务器和其他在用管理系统(如BMS 或 VM Manager)之间分享和/或接收数据必须遵循的流程。

3.标准化和预制化设计

标准化设计意味着系统的构建是基于以前的实践经验和经过实地检验和认可的最佳实践。预制化设计则意味着大部分旨在支持软件与电力、制冷和IT 系统通信并解读这些系统的输出数据的复杂编程工作已经全部完成。

简言之,我们应当避免使用基于“一次性专用”设计的高度定制化管理系统和软件。但是,标准化和预制化并不意味着系统不可以定制。事实上,一个设计精良的模块化系统应当能够在不影响整体系统完整性的前提下通过改造工具包来适应特定的需求。

以下列出了为判断系统的标准化水平而需要向供应商询问的问题。

1.解决方案是否采用了一个开放的通信架构?

2.解决方案是否采用了一个可扩展的模块化架构?

3.安装解决方案之后需要完成多少配置或编程工作?请说明安装和运行解决方案时必须具备哪些资源(知识、技能、时间等)。

4.DCIM 服务器能否自动发现包括第三方设备在内的网络设备并对其进行分类?

5.我能否轻松地将我的DCIM 系统复制到其他地点?

6.软件的默认设置是否基于最佳实践和实际使用经验?

4.积极的供应商支持结构

如同评估任何一种企业级软件一样(+本站微信networkworldweixin),我们也应对DCIM 供应商的总体能力和支持结构进行评估和比较。

解决方案安装完毕之后,这些特质会直接影响其长期有效性。供应商在DCIM 市场的投入力度、在行业组织中的活跃程度和协作以及设施与IT 系统之间的交互范围都能显示出用户将获得的长期支持服务的质量和数量。用户应当确信供应商能够在数据中心的整个生命周期之内始终为其提供支持,而且管理系统也将不断更新并在确保干扰最小化的前提下适应不断变化的技术趋势或商业条件。许多供应商都提供这些系统的安装、配置、培训、甚至运行服务。这些服务的范围和成本是在评估阶段需要额外考虑的一个问题。特别是对于那些工艺流程不够成熟、缺乏资源或缺乏必要的知识来自行完成管理的企业组织,这些软件服务可能是确保充分发挥DCIM 系统功能和价值的正确方法。

1.以下列出了一些可帮助您判断供应商支持服务的级别和质量的问题。

2.供应商是否支持广泛使用的开放通信协议,以确保解决方案能满足未来需求?

3.供应商是否建立了面向DCIM 市场的长期战略,或他们仅仅是一个拥有短期市场侧重点和市场退出战略的初创企业?

4.供应商是否以当地语言提供本地支持,以实现对问题的快速有效响应?

5.供应商的支持问题上报流程是怎样的?DCIM 安装和运行服务代表是否接受过良好培训?

6.供应商是否提供DCIM 系统安装、配置、培训和运行服务?

此外,有效的DCIM 解决方案确实能够将其简化和理顺,并提供一个清晰的数据中心系统视图,但是,这一功能的实现还取决于操作人员能否做好他们自己的工作,即遵循正确的流程来安装、运行和维护DCIM 系统。即使是最优秀的解决方案也需要采用完善的管理流程。流程不完善是导致无法获得DCIM 预期效能的一个常见原因。

关于如何建立建立、实施和长期维持关键流程,有以下六个基本建议:

  1. 向供应商了解安装和运行某个解决方案需要具备哪些流程和资源;

2. 将此要求与自身现有的能力和资源进行比较,确定需要新建或增加哪些流程或资源;

3. 如果无法开发新的流程或增加更多资源(参见误区3),则应选择一个与当前能力相匹配的解决方案;

  1. 正式定义新的流程(何人、何事、何时、何地), 请管理团队分配资源并指定流程负责人;

  2. 重点关注资产管理、系统配置、利益相关者报告和报警集成流程;

6. 从“小规模部署”开始,在开始时只为数据中心的一个小区域(如一个机柜行、区域部署或机房)部署某几个DCIM 功能,然后在此基础上逐步扩展。


图片 19


如果是购买几台x86服务器或其他常用的IT设备,大多数企业用户想来不会犯怵,因为用得多、见得多,所以都大...

版权声明:本文由ag真人发布于公司领导,转载请注明出处:数据中心技术措施,基本原则