一、引言
要说云计算发展史,不得不提到行业老大哥亚马逊(AWS)。亚马逊公司是全球最大的电子商务公司之一,作为一个拥有海量数据的电商平台,亚马逊必须具备高可靠、灵活可扩展以及安全性较强的基础设施来支撑业务发展。为了更好的管理与使用基础设施,早在2002年,亚马逊公司内部启动了一个项目,目标是通过构建一个可靠且可扩展的基础设施平台来支持亚马逊电商业务的快速增长。
随着互联网的快速发展,各企业对计算、存储等资源的需求也在快速增加。对于中小型企业来说,传统的基础设施是重资产区,不但要大量采购物理设备来支撑业务发展,还需要投入巨大人力成本来搭建和维护自己的基础设施设备,极大限制了公司的业务发展。而亚马逊公司也意识到云计算市场的发展潜力,依托在项目中积累的大量基础设施技术和经验,于2006年正式推出,并首次以资源租赁方式向外部开放云计算平台(AWS),解决了行业痛点,使得企业可以通过租赁方式更加灵活的按需使用计算、存储等资源服务。
三年后,阿里巴巴集团也看到了云计算这个巨大的市场,2009年阿里巴巴集团也决定将云计算作为战略重点,并成立了阿里云事业部。起初,阿里云主要为阿里巴巴集团内部的业务提供云计算服务,包括电子商务、金融、物流等领域。随着云技术的积累,面对不断发展和市场需求的增长,阿里云逐渐开始向外部客户提供云计算服务,成为一家真正意义上的云计算服务提供商。2010年微软云全面上线,这一年也是国内云计算发展的元年。不仅有像亚马逊、微软这样的国际云计算厂商进入中国,国内以 BAT 为代表的互联网企业以集团旗下各业务公司为使用客户基础,也都纷纷投入云计算行业,意图在蓝海里分一杯羹。2012年金山成立金山云公司,2015年百度云对外开放运营,至此百花齐放,从IaaS到PaaS再到SaaS服务,云计算行业飞速发展。
二、云计算有哪些部署模式
从云的发展史我们可以看出,起初建立云平台的初衷是助力自身企业内部的业务发展(私有云),后逐渐对外开放运营(公有云)。随着公有云的发展,大量的互联网企业纷纷上云,而部分传统行业对于数据交由他人保管还是保持谨慎的态度,基于数据安全角度考虑,一些核心数据仍希望运行于企业内部的基础设施之上。各云厂商为消除客户顾虑,在客户本地数据中心建设私有云环境,核心业务在本地私有云平台运行,非核心业务迁移上公有云(混合云),既解决了客户对核心数据安全方面的后顾之忧,又为客户基础设施成本问题解了难,还为客户业务切公有云奠定合作基础。还有一些例如:金融、政府等对基础设施安全或其他方面有特殊需求的行业,为满足这些特殊行业的高质量或高标准需求,各云厂商又在公有云上为特殊行业定制专有区以满足其对基础设施的要求(专有云)。
三、光大云的部署模式
光大云平台是由光大科技建设并负责运营的一个云平台,提供专属可控的云基础设施资源服务,具有私有属性,数据存储的安全合规方面,较公有云有较大优势,属于光大集团旗下私有云平台。同时,因光大云主要服务于光大集团旗下各子公司,目的是协助集团旗下各子公司简单轻松上云,解决上云、用云、管云阶段人员和技术投入问题,为集团各企业节约基础设施投入成本,所以兼具托管与运营属性。
所以,光大云平台属于集团旗下私有托管云平台,其使用方式与公有云类似,各租户使用独立账号登录云平台,进行云上资源的创建与维护,通过租户隔离的方式将各租户资源进行隔离,互不可见,互不影响。
四、上云规划建议
既然云有这么多的部署模式,在不同模式下我们如何进行云上的业务使用规划?这就需要先对其平台使用有一个初步的了解。云基础设施最基本的产品有主机、网络、防火墙。以下我们重点以公有云和私有云举例为大家详细讲解。
1、资源区域选择
公有云环境,以阿里云、腾讯云、华为云为代表,各大云厂商基础产品功能类似。在云主机资源选择方面,首先需要确认业务是否具有地域性质,根据不同地域选择相同地域云主机提供服务网络质量会更好(如果业务需要灾备或高可用,可以选择跨地域,或跨AZ来部署)。
私有云环境,一般不需要单独指定或选择云主机资源创建的地域信息。因为公司自行建设的私有云平台,地域位置是公司根据业务情况整体规划,所以不会像公有云多地区可选,对终端用户使用来讲更简单,无需选择,平台创建云主机默认指定地域或可用区信息。
2、主机类型选择
选择适合自身业务的云主机类型往往会事半功倍。
公有云厂商服务客户需求庞杂,云厂商为应对多样化的客户需求,也考虑资源的充分利用(例如:在通用型物理机上建大内存云主机,此时宿主机内存被完全使用,但CPU却未被完全分配,也无法继续分配了),物理服务器采购类型较为丰富,所以产品发布时也具备多样的云主机类型可供客户选择,例如大内存型、高IO型、计算型等等各类型云主机,厂商会根据不同云主机类型,进行针对性性能优化(各厂商文档库中均会详细介绍不同类型云主机的特点,建议选择前仔细研读)。
私有云环境下,在建立之初就会针对公司业务特点选购合适配置的物理机设备来搭建私有云平台,云主机类型已经固定无需单独选择,或选项较少,相比于公有云场景更贴合公司业务场景。
3、虚拟私有网络
规划前我们需要了解,云上网络配置有哪些?都是做什么的?
如果想创建一台云主机,首先需要有一个虚拟私有网络VPC(Virtual Private Cloud),在虚拟私有网络中创建对应子网网络,提供云主机使用。虚拟私有网(VPC)与子网关系密不可分,子网是虚拟私有网络的子集,所有云资源都必须部署在子网内,可参考下图:
在这里,VPC的作用是划分出一个虚拟网络逻辑区域出来,用于定义网络区域的用途,真正赋予云主机IP的是VPC中的子网。并且用户可以定义多个VPC虚拟网络或在某个VPC中,划分多个子网网段用于不同的用途。
4、云上网络访问控制
在提到虚拟私有网络,还需要了解云上如何实现的网络访问控制。一般云平台会通过以下两个产品实现云主机的网络访问控制。
安全组(虚拟防火墙):
各云厂商对于安全组的叫法可能略有不同。安全组是一种虚拟防火墙,具备有状态的数据包过滤功能,用于控制云主机粒度的出入流量,是重要的网络安全隔离手段。
虚拟防火墙(ACL/网络访问控制列表):
虚拟防火墙是一种子网级别的可选安全层,用于控制进出子网的数据流,可以精确到协议和端口粒度。
安全组和虚拟防火墙的关系如下图:
外部请求云主机,会先通过虚拟防火墙策略查看是否匹配,符合访问策略即可进入VPC到达子网,向云主机转发请求,请求通过云主机前会再通过云主机绑定的安全组,查看是否允许放行,安全组放行后请求才能进入云主机操作系统。
(如云主机操作系统层也有防火墙例如:iptables等安全限制,还需要经过这些系统内的安全限制才能最终请求到业务系统)
5、上云网络规划
云上网络规划方面是重中之重,因为一旦业务开始运行,后期如需调整,网络变更成本较高。
对上述VPC、子网、安全组、虚拟防火墙产品了解后,我们可以根据云上产品特性做上云前的网络规划。
首先我们需要判断业务管理模式是集中管理型,还是项目管理型。
集中管理型模式,是指业务按功能类场景划分,例如测试业务、准生产业务、生产业务、互联网业务等,有严格的功能区划分。
项目管理型,是指以项目管理作为主要管理单位,各组织都实行项目化管理,即根据需要设立众多的临时项目部。
根据不同业务管理模式,云上规划略有不同。
集中管理型:
建议在云上通过VPC做功能区隔离,各功能区下的不同项目,可以通过子网做区分管理。如下图:
在如上管理模式中,各功能区通过VPC实现网络的隔离,网络默认互相不通。同VPC下项目子网默认互通,可以通过虚拟防火墙(ACL)或安全组进行访问控制。
部分公有云厂商产品有项目功能,可以新建自定义项目,云主机分配至不同项目便于日常的运维管理,但这个项目功能类似于在页面为各云主机打了一个项目标签,不能作为独立的资源隔离空间使用(VPC不区分项目)。
光大云平台项目功能与公有云不同,多了一层项目区功能,项目区可以实现资源隔离管理,可以做更细粒度的资源管理。用户可以在自己的VDC(租户)下根据需求创建不同项目区作为功能区使用,功能区内通过VPC做各项目的隔离,同项目下不同业务主机可以划分不同子网管理,如下图:
项目管理型:
建议可以在云上通过VPC做项目隔离,一个VPC作为一个项目,项目下不同区域业务主机可以划分不同子网进行管理。
IP段划分规划建议:
在公有云场景下,各租户间网络相互独立,互不影响。例如A用户使用了192.168.1.0/24这个段的IP,B用户也可以用,低层通过vxlan技术进行封装隔离,极大的放任客户操作的自由性。用户可以根据企业自身IP规划情况来自定义云上主机使用IP段,但需要注意以下两点:
① 虽然目前公有云VPC已支持在创建后增加IP段,但已建子网IP段不可添加或更改,所以需要考虑划分的IP段数量,是否可以满足未来项目组或子网下业务的使用(建议根据实际需求划分不要直接给一个大段,导致IP资源浪费)。
② 需要考虑后期是否有云上与云下公司、机房互通的需求,云上IP段规划建议不要与自有机房、办公区网段冲突,这样后期如果想用混合云或者云上云下互访,可以走专线内部打通,不至于因IP冲突导致不可用。
③ 在私有云场景下,各VPC子网IP段往往已完成规划,无需使用方自行规划,因此也不需要考虑IP冲突等问题,使用方只需要申请资源使用即可,对不是很了解云的使用人员更为友好。
访问控制设计建议:
建议根据实际业务流量情况合理利用虚拟防火墙和安全组功能,不建议为前期方便进行策略配置混用。
安全组绑定粒度到云主机,云主机建议按流量走向划分两个安全组进行绑定,一个作为东西向流量(内部通讯)访问控制使用,另一个安全组可以作为南北向流量(外部通讯)访问控制使用。这样的意义在于策略条目较多时便于快速查找与问题定位。
如某个策略需要对整个子网或多个子网生效时,选择虚拟防火墙(ACL)绑定一个或多个子网生效,以实现全局策略下发。
注意:在ACL放行后,还需在安全组放行相应策略,否则会因为流量先通过虚拟防火墙(ACL)导致被拦截。
部分云平台安全组为白名单机制,不支持拒绝策略。当有外部异常请求时,也可以配置虚拟防火墙(ACL)拒绝指定源IP的请求,将异常请求拦截在子网之外。
五、云上问题如何快速定位
现阶段云平台已较为成熟,除平台变更升级后导致的大面积异常问题外,个人觉得云上较为普遍的是租户侧业务适配或使用上的一些问题,例如云上安全策略配置导致不通,使用ELB配置模式与业务不匹配,或应用层、系统内原因导致的网络访问不通等问题较为常见。下面,为大家分享下遇到云主机网络问题,例如云主机无法ssh连接、云主机丢包、业务访问慢、业务访问问题等要如何排查。
排查思路
因云环境较为复杂,云上问题往往涉及多方,并不能武断判断业务系统异常,就一定是云平台的问题。在排查问题时,我们应该初步判断问题大致的位置,问题是出在云内,还是云外,是云主机本身问题,还是业务系统问题,这样才能快速有效的进行问题定位,解决问题。
如何判断是不是云平台的问题?
想要判断是否是云平台提供的服务出了问题,其实比较容易。只需要通过关键路径分段排查方法,找到云的边界点,以这个边界点作为中间点分别向两端进行排查,即可快速排查定位问题点。
例如:云主机80端口访问不通,我们需要先判断边界前后是否有问题。
云外:客户端可以访问其他80端口服务器,来判断客户端出访80端口是否正常,如正常说明客户端出向正常,则边界向西排查云内。
云内:基于同子网下云主机互通原则,先在云内找一台同网段云主机请求测试,查看是否可以访问80端口,如果同网段访问不通,可以初步定为在边界以西(云内)。再查看云主机内请求自身80端口是否存在问题,如果存在问题,即可判定为系统层或应用服务问题导致,与云平台无关。如果无问题,即可判断问题大致在服务器与同子网客户端云主机之间,可进一步详查两台云主机间的安全组与虚拟防火墙(ACL)策略,查看系统内路由是否缺失。如以上排查都未定位问题,建议联系云提供商查看是否是云服务问题导致。
如果同网段访问通讯正常,可以初步判断问题出在子网外与云外客户端之间链路。详查云主机绑定的安全组与虚拟防火墙(ACL),如仍未能定位,可以联系云提供商查看云机房出口是否有收到请求,以判断是否为云机房内问题,还是公网运营商链路问题。
提示:专线接入用户,还需注意专线接入的路由配置,例如光大云上的远端子网配置。
六、总结
云计算是业务快速发展的一个必然选择,更好的理解云上产品的功能特性,对我们业务的使用甚至架构设计都可以起到很好助力。本篇以云计算发展史引入讲解云的部署模式与云上规划建议,通过经验分享的方式使大家对云上的规划与使用有了进一步的理解,希望通过本篇的分享,大家可以结合业务场景更好的使用云产品为业务增彩。
文章作者 | 姜海博
原文始发于微信公众号(EBCloud):云计算时代-走近云计算
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论