ag真人数据中心在合并过程中的七个存储错误,系

2019-09-11 16:05栏目:公司领导
TAG:

故障诊断 | 系统级追踪诊断方法及案例分享,故障诊断案例

点击上方蓝色文字关注↑↑↑↑↑

所谓操作系统,是应用程序与服务器硬件进行沟通的中间层。应用程序的所有操作,都是和操作系统进行沟通交互。操作系统负责将所有交互转化为设备语言,进行硬件交互。

我们在进行Oracle故障调试和内核原理工作的时候,经常需要了解后台运行的动作和细节。一些故障场景,如ORACLE后台进展慢、程序无法启动、无法登陆、相同环境执行结果却大不相同等问题,就需要操作系统级别监控,检查定位问题。

Oracle自身已经提供了很多这类型的工具,如oradebug、各种等待事件和跟踪方式。此外,各类型的操作系统提供出很多系统级别工具,帮助我们进行监控。

 

我们先来看一个简单的示例:

LGWR进程写 online redo log是否用到缓存?

这里的这个缓存不是指数据库缓存,操作系统的文件缓存,如果对这个问题不明白,我们先看另外一个问题,我们如果怀疑存储有问题,经常会使用DD命令对磁盘进行测试,相关命令如下所示,那这个命令对磁盘的操作是直接写磁盘还是把数据写到文件缓存里去?

我们来实地进行测试验证看一下,这是在我电脑虚拟机上的一个测试结果,DD了2G的文件,花了4.99秒的时间,实际上这个命令结束的时候数据没真正写到磁盘上去,对于磁盘的写到缓存就返回了。我们另外看一条命令

这里加了一个标志,就是ofag=sync,加完这个标示之后,我们发现写磁盘的速度下降了,写2G的文件花了8秒,多用了60%的时间。这就是文件系统缓存的作用,文件系统缓存大大增加了主机的性能。

我们现在回到之前那个问题,LGWR进程写redo log 会不会用到缓存呢?我们使用strace –p命令来跟踪LGWR进程,为方便观察我们添加一组新的redo日志组并进行切换。

通过分析TRACE信息我们发现,LGWR进程对online redo log打开使用了o_sync标示,该标示表示直接写入存储设备。

TRUSS/TUSC/STRACE是什么?

下面我引用一下TRUSS的官方解释,TUSC与STRACE工具功能基本一样。

它是一个在系统层处理复杂问题非常有用的工具,用来跟踪一个进程的系统调用或者信号产生的情况。适用于不同的系统环境。

它们适用于不同的Unix环境:

•      Truss : AIX,Solaris

•      Tusc  :HP-Unix(需单独安装)

•      Strace:Linux

Truss常用参数介绍

参数 介绍
-a
显示在每一执行系统调用中传递的参数字符串。
-c 计数跟踪系统调用、故障和信号而不是逐行显示跟踪结果。跟踪命令终止或 truss 中断时生成摘要报告。若还使用 -f 标志,计数包含所有跟踪的系统调用、故障和子进程信号。
-d 每行输出包含时间戳记。时间从跟踪开始以每秒显示。跟踪输出的第一行显示测量单个时间戳记的基本时间。缺省不显示时间戳记。
-D 每行输出显示增量时间。增量时间表示从由该线程引起的最后报告事件起计时引起事件的 LWP 的逝去时间。缺省不显示增量时间。
-e 显示在每一执行系统调用中传递的环境字符串。
-f 跟在 fork 系统调用产生的所有子进程之后,并包含跟踪输出中的信号、故障和系统调用。 通常,仅跟踪第一级命令和进程。如果指定 -f 标志,进程标识与每行跟踪输出一起显示哪个进程执行系统调用或接收信号。
-l 显示有关 LWP 进程的标识(线程标识)及 truss 输出。输出中缺省不显示 LWP 标识。
-o 指定用于跟踪输出的文件。缺省时输出指向标准错误。
-p 将参数作为一列现存进程的进程标识而不是要执行的命令解释到 truss。 倘若进程用户标识或组标识与用户的用户标识或组标识匹配或者用户是特权用户,truss 控制并开始跟踪每个进程。

Tusc常用参数介绍

Strace常用参数介绍

参数 介绍
-c 统计每一系统调用的所执行的时间,次数和出错的次数等.
-d 输出strace关于标准错误的调试信息.
-f 跟踪由fork调用所产生的子进程. 
-ff 如果提供-o filename,则所有进程的跟踪结果输出到相应的filename.pid中,pid是各进程的进程号.
-F 尝试跟踪vfork调用.在-f时,vfork不被跟踪.
-h 输出简要的帮助信息.
-i 输出系统调用的入口指针.
-q 禁止输出关于脱离的消息.
-r 打印出相对时间关于,,每一个系统调用.
-t 在输出中的每一行前加上时间信息.
-tt 在输出中的每一行前加上时间信息,微秒级.
-ttt 微秒级输出,以秒了表示时间.
-T 显示每一调用所耗的时间.
-v 输出所有的系统调用.一些调用关于环境变量,状态,输入输出等调用由于使用频繁,默认不输出.
-V 输出strace的版本信息.

下面我们看两个简单的使用示例:

首先是使用strace –tt date来跟踪date命令,使用-tt参数在每一行的行头上加上时间信息,到微秒级别。

另外一个示例就是使用strace –d cate命令统计所有函数调用的次数及总时间占用,这个对于命令跟踪的分析统计非常有用

一个SQLPLUS连接慢的问题

接下来我们来看一个案例,这个案例是一个SQLPLUS连接慢的问题,AIX 7.1的操作系统,11.2.0.3 两节点RAC数据库,检查硬件的安装环境没有问题,重新配置环境变量也不能解决问题。

对于这种问题,我们首先要进行一些排查,排除一些可能性:

1、  我们看一下使用sqlplus/ as sysdba慢不慢,经过反馈,sqlplus / as sysdba也慢,连接时间要5秒左右。

2、  远程连接慢不慢?

  1. 本地使用远程连接慢不慢  sqplus username/[email protected] 澄清: 测试也慢,慢约5秒钟左右。

  2. 其它主机使用远程慢不慢?澄清:同样也慢, 慢约5秒钟左右。

以上判断表明这个连接慢并非一定和Listener有关,同时也可以排除网络问题引起的监听连接慢,所以先需要解决sqlplus / as sysdba 慢的问题,很大可能在ORACLE数据库的连接处理机制上面。

我们使用TRUSS命令去跟踪跟踪sqlplus / as sysdba连接命令,发现不断出现sigpromask、_sigaction及thread_setmystate函数调用。

那这些函数代表什么?

之后对这些函数进行分析,其主要功能如下:

We see in that truss that main reason weare waiting is that the forked thread is looping on some signal handlingmodification :

 They impact the way memory isconfigured (read/write protected, guard pages...)

通过上述分析发现,连接的时候慢与内存页的分配有关,通过进一步检查内存参数发现,pre_page_sga设置为true。接下来通过测试可以重现这个问题,实际验证的确如此:设置为true,问题重现,设置为false,问题消失,并且发现这个参数为True的情况下,SGA内存越大连接变慢的越明显。

这种行为正常吗?

通过查询MOS文档Notes 289585.1,我们了解知这个行为是正常。

关注本公众号,回复:prelection,你可以找到本文的相关视频文档。

相关阅读:

DBA生存警示:系统存储级误删除案例及防范建议

故障诊断:DRM导致Oracle RAC节点Hang住

故障分析:数据库一致性关闭缓慢问题诊断

深入内核:监听器的工作原理与故障诊断分析

资源下载

关注公众号:数据和云(OraNews)回复关键字获取

‘2017DTC’,2017DTC大会PPT

‘DBALIFE’,“DBA的一天”海报

‘DBA04’,DBA手记4经典篇章电子书

‘RACV1’, RAC系列课程视频及ppt

‘122ARCH’,Oracle 12.2体系结构图

‘2017OOW’,Oracle OpenWorld资料

‘PRELECTION’,大讲堂讲师课程资料

只需四步轻松搞定瘦客户机运维管理

为用户挑选合适的设备可以为运行在数据中心的桌面带来诸多益处,但首先,你得选对瘦客户机。在之前的文章中,我们介绍了一些选择瘦客户机的技巧,例如要考虑一致性、内存扩展性等。实际上,企业真正要用好瘦客户机就必须拥有一套集中管理基础设施,这样才能降低长期运维开销。

ag真人 1

第一步:找对管理工具

主要的还是你要明白你自己环境中的具体需求,然后看供应商是否有相应工具可用。如果工具不够灵活或者难以使用,就需要考虑更换终端类型或者供应商了。一些供应商针对特殊的瘦客户端类型提供了不同的工具。寻找能够针对瘦客户端应用组策略和进行批量固件升级的工具,理想的情况是在设备启动时自动进行。如果终端管理工具能够很好地和现有的硬件及资产管理系统协同工作,那就更好了。

例如戴尔Wyse云客户端管理器(Dell Wyse Cloud Client Manager)提供了基于云计算的新的管理方法。可以在本机及外部实现针对戴尔Wyse瘦客户机与零客户端的基于云的远程配置和管理功能,还可以根据个人或群组成员身份来相应规定终端用户权利和使用权限,以提升效率以及使用户能够主动自我管理,从而显著减轻IT部门的负担。

第二步:前期测试不可少

最佳方式是在分支办公室进行管理特性测试。如果你准备在远程站点中部署瘦客户端设备,那么就需要一种远程办公室员工能够部署的瘦客户机类型。为了进行测试,将两个瘦客户机设备带到远程办公室,一个保持未拆封状态。在桌面上部署第一个设备,使其处于工作状态。然后将包装未拆封的那个交给当地员工,让他将其和部署好的那个进行互换。这样做的目的是查看当现有的瘦客户端损坏后是否能够直接邮寄一个新的瘦客户端到分支办公室以进行替换。

更为严格的测试是在一个空桌子上,仅仅提供网络连接和电源,而没有可替换的瘦客户端。理想情况下,新的设备在到达分支办公室前不需要进行任何配置,并且当地IT员工也不需要接受任何培训。

相比于那些在到达分支办公室前需要提前加载特定镜像的客户端来说,通过分支办公室测试的终端能够降低支持成本。而最糟糕的管理特性是瘦客户端在部署过程中需要遵循以下长达10页的检查列表,每个设备必须针对特定用户进行系统重装。

第三步:使用更简单的设备

一般而言,零客户端比瘦客户端更易管理。两者的区别是零客户端是一种拥有最简配置和灵活性的设备,只能和一种虚拟桌面基础设施(VDI)产品配合使用。

一些零客户端使用了原本用于标准PC CPU的简单固件,比如Wyse的Xenith系列,是专为Citrix HDX定制的零客户端,只需要6秒就可以启动并开始运行。Wyse Xenith和Citrix XenDesktop服务器可以根据具体要求自动完成所有设置。另外Wyse Xenith可以非常灵活的进行配置,这些配置不需要通过任何的管理软件。对于用户来说,从包装箱中取出来连接到网络就可以跑起来。而对于PC over IP或PCoIP, Wyse P25系列使用Teradici的定制芯片,是适用于VMware PCoIP的零客户机,拥有CAD、3D实体建模、视频编辑等功能。

瘦客户端需要使用操作系统以及所有相关的补丁和配置。瘦客户端使用标准的CPU,并且通常拥有标准的操作系统。Wyse拥有25种不同的设备类型,许多其他供应商也拥有自己的设备类型。

通常用户桌面上的设备越简单,就越容易管理。零售、教育或者物流这些行业中的用户并不需要太多的功能特性,在VDI部署方面,零客户端是较好的选择。对于一些设备来说,配置工具就是一个额外的动态主机配置协议,或称之为DHCP,一些系统设定和一个包含几个文件的文件夹。

第四步:网络连接必须好

要记住,即使主桌面位于数据中心,也需要使用本地操作系统。以前的远程显示协议不能处理多媒体网站,所以需要使用本地Web浏览器和媒体播放器来提供良好的用户体验。

现在多数都使用高性能显示协议,一些对图形性能要求较高的网站,如动漫等都能很好显示。那么问题来了,对于本地操作系统最大的需求来自于无线、虚拟专用网络(VPN)和互联网语音协议(VoIP)。

因此,无线网络连接是必须的。如果没有足够时间来部署有线网络,临时办公室可以使用Wi-Fi,手机用户也可以在瘦客户端笔记本上使用3G/4G网络。瘦客户端的本地操作系统可以配置无线网卡、运行VPN客户端或者VoIP软件电话,但是大多数零客户端都不能实现这种功能。

VPN是一种加强远程办公安全的方式,尽管大多数VDI产品都使用自己的特性来实现安全访问,而不是使用VPN。

随着人们意识到VDI提供的员工移动办公特性需要在电话环境中体现,VoIP正在得到越来越多的重视。大多数电话产品都拥有某种VDI集成特性,可以在虚拟桌面内启动软件电话,使用瘦客户端来拨打真正的VoIP电话。这需要软件同时安装在虚拟桌面和瘦客户端上,所以电话产品只能工作在部分类型的瘦客户端上,通常这些设备运行着Windows 7。


ag真人 2


为用户挑选合适的设备可以为运行在数据中心的桌面带来诸多益处,但首先,你得选对瘦客户机。在之...

数据中心在合并过程中的七个存储错误,数据中心七个

在当今的商业环境中,企业的兼并和收购是司空见惯的事情。企业合并的关键是如何将两家公司的IT基础设施组合起来。IT部门在确保合并成功方面起着关键作用,但也是企业合并失败的主要原因。在企业急于完成合并时,IT专业人员在存储方面通常会犯七个常见的错误。

错误1 - 仓促执行

第一个错误是仓促执行。这个过程的第一步应该是IT部门能够为合并后的企业提供数字资产的范围。这一步骤包括使用软件解决方案来存储物理存储系统和这些系统存储的数据。

对于物理存储系统的评估,应清点诸如品牌、型号、存储介质的类型,以及附属于哪个物理主机。它还应提供有关每个存储系统的负载量的信息。负载不同于可用容量,它涉及到系统支持附属主机的繁忙程度。

ag真人 3

物理审计的目标应该是IT团队制定一种策略来决定哪些存储系统需要退役,哪些系统可用于增加工作负载,并且应该保持它们的状态。

对于数据本身的评估,IT部门应提供有关正在存储的实际数据的详细信息。企业正在寻求根据活动和重要性对数据进行分类。在大多数情况下,大部分数据(超过85%)是非活跃的,可用于归档存储或迁移到成本较低的存储层。在这个关键时刻识别这些数据是至关重要的。它向IT规划人员显示了他们需要关心哪些数据块需要存储和保护。

错误2 - IT部门不了解目标

第二个错误是,IT部门在不了解组织运行的各种流程以及利益相关者的关注的情况下实施迁移。让IT部门参与各方利益相关者对系统合并的讨论,以了解他们的关注点和优先事项,这是非常重要的。

IT部门和利益相关者没有进行这种讨论的原因是,它们往往是徒劳无益的,因为双方都没有足够的背景信息或对未来的战略提出现实的看法。为了使这些讨论富有成效,在利益相关方参与之前进行评估步骤至关重要。在评估结束时,IT部门应该制定一个基本策略,确定哪些应用程序应该在什么地方以及哪些应用程序应该迁移。IT部门需要确切地知道这一举措。

从本质上讲,IT部门希望通过合并的结果来启动与IT存储选项的对话。它应该是IT和利益相关者之间对话的起点。同样,重要的是在应用任何改变之前进行对话。这些对话中的反馈将影响实际的执行方式。

错误3:限制选择

大多数企业在数据中心合并方面所犯的第三个错误是,试图合并到一个数据中心,甚至是数据中心内的一个存储系统中,从而限制了他们的选择。在过去,这种整合的动机主要是基于技术的限制,因为多个数据中心的互连以及管理多个存储系统是昂贵而复杂的。

目前的企业具备更高的带宽、软件定义网络(SDN),以及现代数据管理软件,可以经济高效地管理多个数据中心的多个存储系统。

具备多个数据中心的组织通常有几个优点:首先,潜在员工的人才储备明显增加。无论企业经营状况如何,寻找有才能的员工永远是一个挑战,而让这些员工迁移到一个集中的地点会让事情变得更糟。但是,远程办公室并不能满足这样的需求,远程工作的工作人员需要直接访问特定的应用程序和数据集,在许多情况下,这意味着企业需要建设运营一个本地化的数据中心。

第二个好处是让数据更接近创造点。许多行业在特定地区创建或采集数据。例如媒体和娱乐业中的现场拍摄,能源和勘探行业的现场服务。而如果数据中心靠近这些位置可以及时提供价值。

最后,这些额外的数据中心可以更加冗余,因为它们可以互相备份。在某个数据中心发生故障的情况下,其他数据中心可以代替。如果IT实施SDN和数据管理等技术,则这些数据中心之间的故障转移和恢复则是无缝的。

多站点组织的关键在于确定每个位置的作用,以及在特定位置需要哪些数据来支持特定角色。IT团队不要让多站点方法导致数据效率低下。即使在多站点组织中也存在巩固和优化数据存储的机会。

错误4 - 移动大量凌乱的数据

多站点的组织的数据中心仍然需要移动数据。企业通常需要将数据移动到另一个位置进行处理或存储,也有大量的数据从当前的存储系统中删除。在大多数数据中心,至少有85%的系统数据在一年中没有进行评估。那些非活跃数据应采取措施进行验证,以避免出现“仓促执行”这样的错误。

问题是企业如何处理所有这些非活跃数据。实际上,其中大部分数据可能会被删除。问题是有一些数据是绝对不能被删除的,可能在未来具有价值。对哪些数据整理和删除,在组织合并期间是一项艰巨的任务。在许多情况下,这些数据保存在成本更低、更安全的存储介质上,将会保存所有的数据。但是,这并不意味着所有的数据应该存储在主存储器上。

辅助存储系统专门用于存储这类数据,例如Quantum的Lattus对象存储,Scalar磁带库和Glacier等云服务。为了降低成本,它们是采用商品化的硬件和高容量驱动器进行存储。它们还具有数据弹性功能,以确保存储的数据不受存储媒介故障和数据损坏的影响。

数据管理软件解决方案是实现辅助存储系统优势的关键,该解决方案将自动将非活跃数据从主存储移动到辅助存储。这些解决方案还将提供对数据新位置的透明访问,这样用户就可以访问它,就像它从未移动过一样。

存储解决方案的组合可能是一个挑战,因为组织要求从不同的部分组合一个有凝聚力的策略。NAS存储系统、数据管理软件和几个辅助存储(对象,磁带和云计算)层。幸运的是,由StorNext公司提供支持的昆腾Artico设备提供了前端NAS数据管理功能,并能够连接到对象、磁带或云存储,以实现长期的数据保留。

通过使用辅助存储系统和数据管理解决方案,IT部门可以安全地存储非活跃数据,从而大大减少工作集的数据,可以将重点放在活跃数据上。例如,在一个拥有500TB数据的数据中心中,如果将工作集的数据减少到75TB,将会使其管理变得更加容易。

错误5 - 缺少运营成本

大多数组织在合并过程中犯的第五个错误是假设合并需要大量额外的IT支出。辅助存储系统和数据管理软件的实施应该通过释放主存储上的容量来节省成本。多年以来,许多组织不需要购买额外的主存储设备。

数据管理解决方案的实施也应该能够节省运营成本。 IT部门每天花费一定的时间确保将正确的数据存储在正确的存储器上,重新平衡存储资源,因为系统容量耗尽或移动数据以获得更好的性能。数据管理解决方案可以自动解决这些问题,从而使IT部门能够解决其他任务。

错误6 - 无尽的升级

IT部门假定存储升级和系统更新是一种常态,在合并时尤其如此,“新系统”可能实际上是旧系统,而企业在合并时也许不再需要另一个旧系统。过去,将数据从旧系统迁移到新系统是一个耗时很长的任务,出错的机率很高。因此必须将数据复制到新系统中,然后更新配置文件以指示数据的新位置。

使用像Artico这样的数据管理解决方案,数据可以自动地由数据管理软件移动到新系统。由于数据管理解决方案是数据定位的中心点,因此不需要更新任何配置文件。数据自动移动到新系统,而不会中断用户的应用。

错误7 –备份所有内容

企业的另一个合并目标是数据保护过程。组织可能花费过多的时间试图选择一个备份应用程序来保护企业的数据。虽然这种努力很好,但实际情况是大多数组织需要多个应用程序才能完成工作。有些应用程序在保护某些运行环境方面效果较好,但很少有可以很好地保护所有内容的应用程序。

数据保护硬件是一个可以进行整合的领域。数据保护硬件通常分布在每个数据保护应用程序中。昆腾的DXI数据保护设备等硬件解决方案使企业的所有数据保护应用程序能够将数据直接发送到单个设备,整合备份存储并提高辅助的数据存储效率。这些系统还具有广域网高效性,可以将数据复制到其他站点,在站点之间交叉复制数据,甚至将数据复制到云端。

通过整合备份存储,IT部门可以在没有压力的情况下启动为整个企业选择单一备份解决方案的流程。由于需要历史访问权限,集中式存储解决方案还允许IT部门轻松地保留一个原有备份应用程序的实例。

结论

兼并或收购的目标是使合并后的企业业务运行得更好。换句话说,其目标是1 + 1 = 3(或更多)。 IT部署也有同样的机会,可以创建一个更好地响应业务需求的IT组织。首先,必须处理两个公司的数据资产,这似乎是一个艰巨的工程。如果IT部署通过建立强大的数据管理基础和巩固备份来避免这些常见的合并错误,那么在合并之后,将会为企业提供一个更强大、更高效的数据中心。

在当今的商业环境中,企业的兼并和收购是司空见惯的事情。企业合并的关键是如何...

版权声明:本文由ag真人发布于公司领导,转载请注明出处:ag真人数据中心在合并过程中的七个存储错误,系