架构|浅析分布式、集群及高并发

分布式是指将一个业务拆分不同的子业务,分布在不同的机器上执行,集群是指多台服务器集中在一起,实现同一业务,可以视为一台计算机,一个云计算平台,就是通过一套软件系统把分布式部署的资源集中调度使用。要应对大并发,要实现高可用,既需要分布式,也离不开集群。
分布式 架构|浅析分布式、集群及高并发
文章图片

将一个大的系统划分为多个业务模块,业务模块分别部署到不同的机器上,各个业务模块之间通过接口进行数据交互。区别分布式的方式是根据不同机器不同业务。
上面:service A、B、C、D 分别是业务组件,通过API Geteway进行业务访问。
注:分布式需要做好事务管理。
分布式是否属于微服务?
答案是肯定的。微服务的意思也就是将模块拆分成一个独立的服务单元通过接口来实现数据的交互。
微服务架构
微服务的设计是为了不因为某个模块的升级和BUG影响现有的系统业务。微服务与分布式的细微差别是,微服务的应用不一定是分散在多个服务器上,他也可以是同一个服务器。 分布式和微服的架构很相似,只是部署的方式不一样而已。
分布式服务架构与微服务架构概念的区别与联系是怎样的
分布式:分散压力。
微服务:分散能力。
当下理解
分布式:不同模块部署在不同服务器上;
作用:分布式解决网站高并发带来问题;
集群:相同的服务;
多台服务器部署相同应用构成一个集群;
作用:通过负载均衡设备共同对外提供服务;
SOA[组装服务/ESB企业服务总线];
业务系统分解为多个组件,让每个组件都独立提供离散,自治,可复用的服务能力;
通过服务的组合和编排来实现上层的业务流程;
作用:简化维护,降低整体风险,伸缩灵活;
微服务[找到服务/微服务网关open API];
架构设计概念,各服务间隔离(分布式也是隔离),自治(分布式依赖整体组合)其它特性(单一职责,边界,异步通信,独立部署)是分布式概念的跟严格执行;
SOA到微服务架构的演进过程;
作用:各服务可独立应用,组合服务也可系统应用
集群 集群:是指多台服务器集中在一起,实现同一业务,可以视为一台计算机。多台服务器组成的一组计算机,作为一个整体存在,向用户提供一组网络资源,这些单个的服务器就是集群的节点。
分布式中的每一个节点,都可以做集群。 而集群并不一定就是分布式的。上面的分布式开发案例中,每一个功能(A-D功能)都可以建立一个集群,某一个功能的服务器垮了,其它的服务器可以顶上来。
集群是个物理形态,分布式是个工作方式。分布式是以缩短单个任务的执行时间来提升效率的;集群则是通过提高单位时间内执行的任务数来提升效率。比如:如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行该任务需10小时。采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型)而采用集群方案,同样提供10台服务器,每台服务器都能独立处理这个任务。假设有10个任务同时到达,10个服务器将同时工作,1小时后,10个任务同时完成,这样,整身来看,还是1小时内完成一个任务!
两个特点
可扩展性:集群中的服务节点,可以动态的添加机器,从而增加集群的处理能力。
高可用性:如果集群某个节点发生故障,这台节点上面运行的服务,可以被其他服务节点接管,从而增强集群的高可用性。
集群分类
常用的集群分类
1.高可用集群(High Availability Cluster)
高可用集群,普通两节点双机热备,多节点HA集群。
2.负载均衡集群(Load Balance Cluster)
常用的有 Nginx 把请求分发给后端的不同web服务器,还有就是数据库集群,负载均衡就是,为了保证服务器的高可用,高并发。
3.科学计算集群(High Performance Computing Cluster)
简称HPC集群。这类集群致力于提供单个计算机所不能提供的强大的计算能力。
两大能力
负载均衡:负载均衡能把任务比较均衡地分布到集群环境下的计算和网络资源。
集群容错:当我们的系统中用到集群环境,因为各种原因在集群调用失败时,集群容错起到关键性的作用。
简单总结
分布式,从狭义上理解,也与集群差不多,但是它的组织比较松散,不像集群,有一定组织性,一台服务器宕了,其他的服务器可以顶上来。
分布式的每一个节点,都完成不同的业务,一个节点宕了,这个业务就不可访问了。
1. 分布式是指将一个业务拆分不同的子业务,分布在不同的机器上执行。
2. 集群是指多台服务器集中在一起,实现同一业务,可以视为一台计算机。
分布式的每一个节点,都可以用来做集群。而集群不一定就是分布式了。
什么是云计算平台? 一个云计算平台,就是通过一套软件系统把分布式部署的资源集中调度使用。要应对大并发,要实现高可用,既需要分布式,也离不开集群。比如负载均衡,如果只是一台服务器,这台宕机了就完蛋了。分布式的难点,就是很多机器做存在依赖关系的不同活儿,这些活儿需要的资源、时间区别可能很大,某些机器还可能罢工,要怎么样才能协调好,做到效率最高,消耗最少,不出错。
分布式的应用场景?
平时接触到的分布式系统有很多种,比如分布式文件系统,分布式数据库,分布式WebService,分布式计算等等,面向的情景不同,但分布式的思路是否是一样的呢?
1.简单的例子
假设我们有一台服务器,它可以承担1百万/秒的请求,这个请求可以的是通过http访问网页,通过tcp下载文件,jdbc执行sql,RPC调用接口…,现在我们有一条数据的请求是2百万/秒,很显然服务器hold不住了,会各种拒绝访问,甚至崩溃,宕机,怎么办呢。
一台机器解决不了的问题,那就两台。所以我们加一台机器,每台承担1百万。如果请求继续增加呢,两台解决不了的问题,那就三台呗。这种方式我们称之为水平扩展。如何实现请求的平均分配便是负载均衡了。
另一个栗子,我们现在有两个数据请求,数据1九十万,数据2八十万,上面那台机器也hold不住,我们加一台机器来负载均衡一下,每台机器处理45万数据1和40万数据2,但是平分太麻烦,不如一台处理数据1,一台处理数据2,同样能解决问题,这种方式我们称之为垂直拆分。
水平扩展和垂直拆分是分布式架构的两种思路,但并不是一个二选一的问题,更多的是兼并合用。下面介绍一个实际的场景。这也是许多互联网的公司架构思路。
2.实际的例子
我此时所在的公司的计算机系统很庞大,自然是一个整的分布式系统,为了方便组织管理,公司将整个技术部按业务和平台拆分为部门,订单的,会员的,商家的等等,每个部门有自己的web服务器集群,数据库服务器集群,通过同一个网站访问的链接可能来自于不同的服务器和数据库,对网站及底层对数据库的访问被分配到了不同的服务器集群,这个便是典型的按业务做的垂直拆分,每个部门的服务器在hold不住时,会有弹性的扩展,这便是水平扩展。
在数据库层,有些表非常大,数据量在亿级,如果只是纯粹的水平的扩展并不一定最好,如果对表进行拆分,比如可以按用户id进行水平拆表,通过对id取模的方式,将用户划分到多张表中,同时这些表也可以处在不同的服务器。按业务的垂直拆库和按用户水平拆表是分布式数据库中通用的解决方案。
3.分布式一致性
分布式系统中,解决了负载均衡的问题后,另外一个问题就是数据的一致性了,这个就需要通过同步来保障。根据不同的场景和需求,同步的方式也是有选择的。在分布式文件系统中,比如商品页面的图片,如果进行了修改,同步要求并不高,就算有数秒甚至数分钟的延迟都是可以接受的,因为一般不会产生损失性的影响,因此可以简单的通过文件修改的时间戳,隔一定时间扫描同步一次,可以牺牲一致性来提高效率。
但银行中的分布式数据库就不一样了,一丁点不同步就是无法接受的,甚至可以通过加锁等牺牲性能的方式来保障完全的一致。
在一致性算法中paxos算法是公认的最好的算法,Chubby、ZooKeeper 中Paxos是它保证一致性的核心。这个算法比较难懂,我目前也没弄懂,这里就不深入了。
高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。我们讲的并发、高并发,通常是指并发访问。也就是在某个时间点,有多少个访问者同时到来,如果一个系统每天都有千万以上的访问量,就是一个高并发的系统。
提高系统并发能力的方式,方法论上主要有两种:垂直扩展(Scale Up)与水平扩展(Scale Out)。前者垂直扩展可以通过提升单机硬件性能,或者提升单机架构性能,来提高并发性,但单机性能总是有极限的,互联网分布式架构设计高并发终极解决方案还是后者:水平扩展。
提升单机处理能力。垂直扩展的方式又有两种:
(1)增强单机硬件性能,例如:增加CPU核数如32核,升级更好的网卡如万兆,升级更好的硬盘如SSD,扩充硬盘容量如2T,扩充系统内存如128G;
(2)提升单机架构性能,例如:使用Cache来减少IO次数,使用异步来增加单服务吞吐量,使用无锁数据结构来减少响应时间;
互联网分层架构中,各层次水平扩展的实践又有所不同:
(1)反向代理层可以通过“DNS轮询”的方式来进行水平扩展;
(2)站点层可以通过nginx来进行水平扩展;
(3)服务层可以通过服务连接池来进行水平扩展;
(4)数据库可以按照数据范围,或者数据哈希的方式来进行水平扩展;
各层实施水平扩展后,能够通过增加服务器数量的方式来提升系统的性能,做到理论上的性能无限。
那怎么解决高并发带来的性能和体验问题呢?
1、优化代码,优化业务逻辑和优化SQL
2、集群与分布式
集群就是每台电脑上的服务器都具有相同的功能,处理请求时调用那台服务器都可以,主要为了分流(通俗的讲就是多台tomcat放相同的代码)。分布式开发是将不同的业务放到不同的服务器中,处理请求需要多台服务器的帮助,这样大大提高了一个请求的处理速度,并且分布式和集群可以同时使用。
使用集群有两个方法:一是在静态资源集群。二是应用程序集群。静态资源集群方法比较简单华。使用程序集群在处理过程中最重要的问题就是Session 同步问题。使用Session 同步有两种处理方法:一是在Session 发生变化后自动同步到其他服务器上,第二种就是使用程序管理Session。并且所有使用集群的服务器都使用同一个Session,使用默认的Tomcat也是第一种方式,简单配置就可以实现了,使用第二种方式就是专门的服务器安装Mencached等高效的缓存程序来管理session。
3、什么是数据库缓存,为什么是要使用缓存?
大多数据库一些常见的关系型数据库的数据都存储在电脑的磁盘中,使用在高并发的情况下,业务应用对数据库产生的增加删除修改查询的操作会造成和查询的压力等,也会使数据库和服务器造成巨大的压力,为了解决数据库以上问题,使用缓存数据是不可缺少的。
使用缓存数据就是为了数据库服务器端甚至不访问数据库服务器进行数据的增加删除修改查询操作,在高并发下,也能最大程度的降低对数据库服务器的访问压力也同时解决数据库服务器的压力。
4、提高应用数据响应速度
能使用缓存的都使用缓存,比如用户,信息等缓存,多使用点内存来做缓存,这样就可以大量的减少与数据库的交互,大大提高了数据库的性能。
1.数据库SQL语句优化和表结构优化等。SQL语句优化,语法优化和处理逻辑优化。
2.使用常用的框架Redis等。最关键的是什么时候创建缓存,以及什么时候失效机制。
3.缓存,使用程序直接保存到内存中。主要使用Map集合等。
4.分布式数据库将不同的表存放到不同的数据库中,然后再放到不同的服务器中。事务处理,多表查询等。
5.批量读取和延迟修改,高并发情况可以将多个查询请求合并到一个。高并发且频繁修改的可以暂存缓存中。
6.NoSql和Hadoop,NoSql,not only SQL,比较灵活高效。Hadoop,将一个表中的数据分层多块,保存到多个节点。每一块数据都有多个节点保存。集群可以并行处理相同的数据,还可以保证数据的完整性。
7.读写分离,数据库服务器配置多个,配置主从数据库。写用主数据库,读用从数据库。
高并发实例:
在会计汇有个投票调查项目,是和财政部合作的,会计人员进行填写完调查结果后,将获得5个学分。通过短信向全国500万会计人员发送短信,这时高峰期会有10万多用户同时在线答题。
解决办法是:
1、使用了LVS + Nginx四台机器进行负载均衡
2、用了Spring + Redis实现4台Tomcat的Session共享
3、答题页面静态化,
4、用户提交答卷后临时存放在Redis中,直接返回结果。
【架构|浅析分布式、集群及高并发】5、定时器每隔一段时间将Redis数据保存到MySQL

    推荐阅读