SQL试用指南,海量数据

2019-10-19 15:23栏目:公司领导
TAG:

用户要面临的挑战是即要完成服务器迁移又不会损失解决方案中所需的功能和资源或者引发过多的宕机从而招致用户对IT部门的投诉。

很多年前,业界就在讨论一个话题:如何应对海量数据?特别是一些需要存储大量用户数据的行业,金融、电信、保险等热门行业。用户几乎在一天的每个小时,都有可能产生大量数据,这些行业的存储设备,必须要将期间产生的数据一丝不苟地记录下来。随着数据量的迅速增加,很多行业用户开始想办法变“数”为宝,从海量数据中挖掘有价值的信息。

对于很多熟悉关系型数据库,又想尝试Google App Engine的开发者来说,Datastore成了他们的梦魇,而且要把现有应用移植到 Google App Engine 的最大问题也是 Datastore。我尝试了建立Google Cloud SQL数据库,并往其中导入数据,操作不难,感觉还不错!

因此当你小心谨慎的实施迁移的过程又不愿遭受损失整个系统的风险,那么你该如何应对这两种艰难的状况呢?你又该如何满足用户对零宕机的苛刻要求呢?以下是帮助你规避这些风险的五个提示。

如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题。然而,当人们发现数据库中的数据可以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了。

传统的应用大多使用关系型数据库作数据存储,但由于关系型数据库对做系统扩展时通常需要进行大量的修改,所以这类系统起初都会靠升级系统硬件来增加性能,但如果硬件升级愈高,性价比会愈低,所以对这种系统做扩展很困难。

提示1:了解系统之间的从属性

大数据汹涌来袭

而Google App Engine的Datastore是NoSQL Database,这种数据库扩展系统是比较简单的,比如可以买10台中级机器去组成一个高级的系统,如果不够可以再添加机器,理论上系统可以无限伸延。NoSQL Database是没有Join Table之类的语法的,你只能靠应用程序层面来实现Join Table,当然这会从某种程度上增加程序开发的难度。

虽然IT员工可能不愿意承认这一点,但某些员工可能确实不完全了解一项解决方案在既定的迁移战略中是如何工作的。以Exchange Server为例。更改为Exchange Server可以用几种方式完成,从单个用户迁移简单的电子邮箱转移的操作到从整个服务器转移到新的域这种第三方解决方案如果必要的话)都涵盖在内。

当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击又会是另外一种处理方式。很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来。有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

对于很多熟悉关系型数据库,又想尝试Google App Engine的开发者来说,Datastore成了他们的梦魇,而且要把现有应用移植到Google App Engine的最大问题也是 Datastore,很多人因此却步。

面临的挑战是这种迁移会对诸如Good Technologies服务,黑莓企业级服务器,Lync和移动技术套装向ExchangeOutlook WebAccess/App,OutlookAnywhere和ActiveSync)本地迁移的系统产生影响。与在电子邮箱服务器迁移过程中将这些生态系统解决方案考虑在内的方法不同,你可以非常快速的导出所有的移动用户。但是无法全面了解所有的外围系统,而你的目标迁移系统可能会依赖这些外围系统或者相互依赖,从而让你陷入真实迁移的梦魇。

如今大数据的概念也存在着很多的炒作和大量的不确定性。为此,编者详细向一些业内专家详细了解有关方面的问题,请他们谈一谈,大数据是什么和不是什么,以及如何应对大数据等问题,将系列文章的形式与网友见面。

但一切都会因为Google Cloud SQL的推出而有所好转,上次介绍了GOOGLE CLOUD SQL主要特性和功能限制,并介绍了申请步骤,经过差不多三天的等待后,申请通过,之后我尝试了建立Google Cloud SQL数据库,并往其中导入数据,操作不难,感觉还不错!

提示2:知道什么是必须要进行迁移的

有人将多TB数据集也称作"大数据"。据市场研究公司IDC统计,数据使用预计将增长44倍,全球数据使用量将达到大约35.2ZB1ZB

10亿TB)。然而,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。

EMC曾经表示,它的1000多个客户在其阵列中使用1PB千兆兆)以上的数据数据,这个数字到2020年将增长到10万。一些客户在一两年内还将开始使用数千倍多的数据,1EB1艾字节 = 10亿GB)或者更多的数据。

对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据,另外是把计算机聚合成服务器集群越来越简单。IDC认为,这三大因素的结合便催生了大数据。同时,IDC还表示,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个"V"判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。

多样性是指,数据应包含结构化的和非结构化的数据。

体量是指聚合在一起供分析的数据量必须是非常庞大的。

而速度则是指数据处理的速度必须很快。

大数据"并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。

Garter表示,全球信息量正在以59%以上的年增长率增长,而量是在管理数据、业务方面的显著挑战,IT领袖必须侧重在信息量、种类和速度上。

量:企业系统内部的数据量的增加是由交易量、其它传统数据类型和新的数据类型引发的。过多的量是一个存储的问题,但过多的数据也是一个大量分析的问题。

种类:IT领袖在将大量的交易信息转化为决策上一直存在困扰 - 现在有更多类型的信息需要分析 - 主要来自社交媒体和移动情景感知)。种类包括表格数据数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多种类。

速度:这涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快和数据必须被多快地处理以满足需求。

虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义,在大数据里面寻找模式帮助组织机构做出更好的商业决策。

...

1.Google Cloud SQL 的 Console 的主界面是这样的,你会发现左边的导航栏会比之前多两个链接:Google Cloud SQL 和 Google Cloud Storage

版权声明:本文由ag真人发布于公司领导,转载请注明出处:SQL试用指南,海量数据