服务器操作系统的先进性分析,容错与关键业务

2019-11-14 18:21栏目:公司领导
TAG:

高可靠性总是与关键业务联系在一起。据统计,金融系统宕机所造成的损失为平均为1000万美元。因此,关键业务应用总是要求系统7×24小时不中断运行。对可靠性的要求高达99.999%,也就是5个9的水平,这意味每年宕机时间累计不超过5分钟。久而久之,具有5个9高可靠性的容错服务器总是和关键业务应用联系在一起。

在服务器端操作系统领域,已经初步形成三大体系:一是以技术驱动“开拓疆土”的Unix体系;二是在垄断基础上“攻城掠地”的Windows体系:三是在开放旗帜下实施“农村包围城市”的Linux体系。

在全世界的夜晚时间,我们可以让低级别的应用软件保持运行,这些设备的使用率就更加高效。在白天的时间段,运转的通常是电子邮件服务器,而在夜间可能就是某些数据仓库,而不是那些用于运行某类工作负载的专用服务器”Rasit表示。

关键业务应用需要高可靠性,但是容错服务器并不是金融、电信计费的专利。在很多需要高可靠性的应用场合,容错服务器都有用武之地。以首都机场小火车为例,国际港旅客进出都要乘坐小火车。如此小火车的调度和控制非常关键,系统的计算量不大,但是需要高可靠性,就需要承担调度和控制任务的服务器具有高可靠性。在电力控制、钢铁企业都需要系统具有高可靠性。

从2001年以来,基于Linux的服务器操作系统逐步发展壮大起来。国内的几个主要的Linux厂商和科研机构,国防科技大学、中科红旗等先后推出了Linux服务器操作系统产品,并且已经在政府、企业等领域得到了应用。国外的NoveltSuSe)、红帽公司也相继推出了基于Linux的服务器系统。而且,从系统的整体水平来看,Linux服务器操作系统与高端Unix系列相比差距越来越小,在很多领域已经实现了共存的局面。

云计算也减少了某些服务器在闲置状态下开启的需求,Rasit补充说。这是因为企业通常只在白天的工作时间有满负荷运行工作负载的需求--如果要完成特殊项目可能要求的能力更多,那么他们可以求助云提供商或者传统服务提供商来透支这种能力。

随着芯片技术的进步,以及生产工艺水平的提高,服务器产品标准化日趋成熟,如今系统的可靠性大大提升。可以说,服务器宕机是小概率事件。“小概率事件一经产生就是一个大事件。”某行业企业CIO说。

服务器操作系统在当前Linux服务器操作系统成果的基础上,针对上述差距,结合国内用户的实际需求,进行重点研发改进,以达到在政府企业办公、高性能计算、集群系统以及其他一些领域可以完全替代国外商用服务器操作系统的且的。

惠普公司企业业务事业部负责基础架构软件和刀片服务器销售的亚太区和日本地区副总裁兼总经理Aman Neil Dokania在一封电子邮件中指出,许多服务器(比如惠普的ProLiant服务器和刀片系统)都是获得能源之星认证的,因此更具能效。

为了应对服务器宕机,用户多采用双机系统冗余。当其中一个系统宕机时,由另外一个系统接替服务器工作。但是需要注意的是,双机系统很难实现无缝过渡,备用服务器接替工作需要时间。如果是首都机场小火车,就会出现停运的事件。春节期间,香港昂平360缆车故障,都在提醒我们,可靠性问题没有小事情。

一、功能

与关闭服务器不同,让服务器处于待机状态将“节约大量能源并且在企业需要的时候不会影响到服务器运转的灵活性”,Dokania表示。

如今,虚拟机倍受追捧。系统可靠性并不依赖于单台服务器的质量,而是构建在虚拟资源池的基础上,系统应用与物理服务器无关。在虚拟化时代,高可靠性的问题是否迎刃而解呢?

1)面向国产CPU的支持和优化。服务器操作系统与国产高端通用CPU形成良性互动,支持中科院计算所龙芯系列CPU和国防科大镪可飞腾系列CPU的研制,到2010年完成同国产离端通用CPU的配套,成为基于国产CPU硬件平台的主流操作系统。服务器操作系统的研究内容和技术路线同国际主流CPU发展趋势及国产CPU发展规划一致,不仅能有针对性地攻克操作系统内核中硬件相关模块的核心技术,而且能够为CPU的研制提供方便高效的调测试平台。目前,国际主流操作系统开发商和CPU开发商均在互动的基础上协同发展,如微软和Intel的Wintel联盟、SUN的Solaris操作系统与SPARC CPU、lBM的AIX操作系统与PowerCPU等,Linux的成功也离不开Intel、AMD、IBM、SUN、HP等芯片开发商的大力支持。服务器操作系统采用类似的技术路线和合作机制,在研制过程中和CPU相关研制单位密切配合,具有明显的先进性。

“我们相信某些用户会将服务器设置为待机模式而不是完全关闭他们,因为这样做的话,当他们需要重新激活服务器时速度要快的多”Dokania表示“最终这都取决于应用软件工作负载的重要程度和业务所需的服务级别”。

Vmotion,也就是虚拟机在线迁移被寄予厚望。当虚拟机产生故障时,在线迁移到另外一台虚拟机。实际上,这是一种典型的误解。Vmotion可以解决计划内的停机,如系统维护、升级时,可以暂时将虚拟机迁移到其他服务器,维护升级完成之后,在迁移回来。此外,利用Vmotion的功能,可以在一定阶段,如晚间业务的波谷期,将虚拟机迁移到少数服务器,关闭多余的服务器,达到绿色节能,降低运维成本的目的。但Vmotion不能够解决计划外的意外宕机。但承载虚拟机的物理服务器意外宕机时,虚拟机是没有办法进行热迁移的。

2)面向多路众核体系结构的支持与优化。多核体系结构是当前和未来一段时间内的主流微处理器体系结构,这一点已成为学术界和产业界的共识。目前主流的通用微处理器—般片上集成4个核,根据各厂家的发展蓝图,到2010年左右的主流微处理器将至少集成8个核,未来采用更大规模的多路众核体系结构服务器必将成为主流。服务器操作系统研制的服务器操作系统将在内核中重点针对多路众核体系结构的支持和优化展开研究,突破处理器硬件抽象、功耗管理、任务管理、存储管理、虚拟化支持等方面的关键技术,服务器操作系统的研究内容与技术路线同国际主流服务器操作系统在多路众核方面的研究相关性和吻合度都比较高,所关注的技术重点也是目前国际操作系统学术界和工业界关注的热点,具有先进性。

不过企业用户可能仍然会选择关闭他们的服务器,Dokania补充并解释说,这种情况可能包括对硬件升级的考虑。

从VMware的解决方案就可以看出结论,虚拟机环境下提升系统的可靠性,不是通过Vmotion,而是通过HA模块来提供的。所谓HA就是虚拟机环境中的双机冗余。同样的,HA的切换也需要时间。针对高可靠性的需求,VMware不是依靠HA,而是提供了Fault Tolerance模块,也就是类似容错机的解决方案。从VMware的选择,就可以知道容错较之双机具有更高的可靠性。

二、性能

考虑关闭非虚拟化的工作负载

版权声明:本文由ag真人发布于公司领导,转载请注明出处:服务器操作系统的先进性分析,容错与关键业务