什么时候需要java 9.99.999.9999%的可靠性

点击联系发帖人 时间：2016-12-05 19:30

超变sf99999

UPS系统的可靠性与可用性概念-五星文库
免费文档下载
UPS系统的可靠性与可用性概念
导读：UPS系统的可靠性与可用性概念，1-1可靠性的基本概念，不论是元器件还是一个由元器件构成的系统，为了在这些设备或系统工作时，就提出了&可靠性&与&可用性&的概念，一、可靠性，我们把元器件或系统在设定的时间段t内无损坏的概率定为该元器件或系统的&，所谓无损坏是指在规定的条件下该元器件或系统在规定的时间内圆满地完成了被要求的任务，该元件的可靠性p(
UPS系统的可靠性与可用性概念
1-1 可靠性的基本概念
不论是元器件还是一个由元器件构成的系统，人们都希望它们在使用中不要出故障甚至尽可能的少出故障。但由于任何元器件都是有一定寿命的，所以不出故障是相对的、有条件的，比如半导体器件在高温下就容易出故障甚至缩短寿命，为此，人们就尽可能的将工作温度降低，如给功率元器件加散热器、进行强迫风冷或水冷等等。
为了在这些设备或系统工作时，其出故障的概率到底有多少，如何进行估算和描述，使人们做到心中有数，以便在出故障前或故障后有一个相应的对策。为此，就提出了&可靠性&与&可用性&的概念，并用一些相应的量和表达式去描述它。下面就进行一些介绍。
一、可靠性
我们把元器件或系统在设定的时间段t内无损坏的概率定为该元器件或系统的&可靠性&，用一个时间函数p(t)表示。所谓无损坏是指在规定的条件下该元器件或系统在规定的时间内圆满地完成了被要求的任务。假设某类元件的平均寿命为Ti小时，而对它们的工作时间定为t，当然应取t& Ti。很显然，当t≥Ti时，该元件的可靠性p(t)就会降低，损坏率增大，就称该元器件的损坏率为&不可靠性&，用一个时间函数q(t)表示。它与可靠性之间的关系就有
q(t)= 1- p(t) （1）
由式中可见，即使在t& Ti时，损坏的可能性也是存在的，即不可靠性函数q(t)是该元件工作时间的概率分布率，而元件的工作时间又是一个随即变量。
如果可靠性函数p(t)是已知的，则它的值完全取决于元件本身的可靠性，并且有下面显而易见的性质二、故障频率
假如对大量的元件进行可靠性试验，并记录下试验中元件损坏的时间，则单位时间内故障元件的数量与最初受试元件总数量之比称作&故障频率&。
可以用可靠性函数p(t)来表时故障频率。设最初受试元件总数量为n，则在[t到dt]时间内元件损坏的平均数为
n[q(t+dt)-q(t)]=nq'(t) (3)
就是说，在单位时间内的t瞬间平均损坏q'(t)个元件，所以故障率就等于
由式（3）可以看出
q'(t)=[q(t+dt)-q(t)]
代入式（1）
q'(t)=[1- p(t+dt)]- [1- p(t)]= [- p(t+dt)+ p(t)]
=-[ p(t+dt) - p(t)] = - p'(t)
所以故障率可用可靠性导数的负值表示
三、平均无故障时间MTBF(Mean Time Between Failures)
我们将元件正常工作时间的数学期望称为元件的&平均无故障时间&，用T表示。因为不可靠性函数q(t)是时间的概率分布率，所以平均无故障时间T为
四、故障&强度&
故障&强度&也称作失效率。是指工作中元件的可靠性随着时间的延长而越来越小，所以必须研究工作中的元件在每一瞬间的可靠性程度。骤然看起来，好像故障率已完全可以表示元件的可靠性程度，无须再用另外的量，其实不然，为了说明其必要性，举一个下面的例子。
例：假定试验1000个同类的元件，在工作的第一个小时内损坏了50个，工作了20个小时后还剩下100个好的，而在以后的一小时内又坏了10个。试问在工作的第一个小时内或从开始至工作20小时后，何时段该类元件的工作较可靠？
故障率在开始的一小时内为：50/=5%；20小时以后的一个小时内则为:10/100=10%。从比较较中可以看出，还是在初始一小时的元件故障率低一些，因为在第一个小时内，每20个元件中才坏一个；而20个小时以后的一个小时内，每10个元件中就坏一个。但从绝对值上看，第一个小时坏的元件数却是20小时以后一个小时的5倍。所以，单用故障率还不足以描述上面的情况。
由上面的例子可以得出用下述方法表达的定义：将单位时间内损坏的元件数量与在该瞬间工作元件总数之比作为表示每一瞬间元件可靠性程度的数值，并将该值称为&故障强度&，用一个时间函数a(t)表示
由上面的曲线可以看出，整个曲线可以分成三个部分：在时间的最初阶段故障强度较高，这是因为受试元件中通常有一些存在缺欠的次品，在开始工作不久后就损坏了，这惩治为&早期失效&。由于这些元件的故障，也就增高了其平均故障强度；在t1~t2这段时间内，曲线比较平直，表示故障强度稳定程度不变；从t2瞬间开始，元件进入&老化&期，故障强度又开始增加了。
在实际应用中，人们总是对从t1开始后的元件可靠性感兴趣，即对图3的故障曲线感兴趣。而且在设计系统时，人们总是试图使元件在系统中的工作时间小于t2，所以在t2之后元件开始显著地老化。因此。在t2以前这段时间的故障强度a(t)是一个常数，也即失效率是一个常数，用a表示，这时元件可靠性表达式就可写成下面的形式
五、元件串联与并联的可靠性
元件是构成电路的基本单元，在电路中它被串联或并联使用。图4示出了元件的串联和并联模型。（a）为串联式结构，E为信息，它要经过单元（元件或设备）1，2，3，…，n才能由A传输到B，若系统中任意一个单元故障，都会破坏信息E的传输，我们称这样的系统结构形式为串联系统。设该系统中对应各单元的可靠性分别p1，p2，p3，…，pn，则串联系统的可靠性PC为：
Pc=P1?P2?P3…Pn（11）
上面讨论的系统可靠性都是假设个单元互相独立的情况，即一个单元故障并不影响其它单元的可靠性。如果是一个各单元不独立的系统，当一个或部分单元的损坏会改变其它单元的可靠性时，系统可靠性的计算就变得相当复杂了。在此情况下，系统可靠性就可以用单元可靠性得积分来表示。此外，为了计算系统的可靠性，需要知道单元的条件可靠性，比如当温度、湿度、气压、振动等条件变化时而导致可靠性的变化，就需要做大量的统计工作。
我们以计算由两个并连单元（该单元的可靠性服从指数定律）所构成系统的可靠性为例。设a1为第一个单元的故障强度（失效率），a2为第二个单元的故障强度（失效率），a1-2是第一个单元在第二个单元损坏时的故障强度，a2-1是第二个单元在第一个单元损坏时的故障强度。那麽系统在t时间内不损坏的概率（即可靠性）是三个概率之和：未损坏单元的概率（可靠性）P1,第一个单元在时间t内损坏而第二个单元在该时间内未损坏的概率（可靠性）P2, 以及第二个单元在时间t内损坏而第一个单元在该时间内未损坏的概率（可靠性）P3。则概率
有此例可以看出，计算单元不独立系统的可靠性是多麽的复杂！
不独立的系统还是很常见的，但如果系统中不独立的元件不多，对系统可靠性来说也可得到较好的估算。假设当部分单元损坏时，其余单元的可靠性或式改变或是减小。比如图5（a）所示的单相全桥整流器，比如一个整流管VD1发生穿通故障（虚线所示）时，直接受到影响而改变可靠性的就有保险丝RD、二极管VD2、滤波电容C等；图5（a）所示的单相全桥逆变器，当一个功率管VT2发生穿通故障（虚线所示）时，直接受到影响而改变可靠性的主要有VT4和电池组GB等。很显然上述的两个系统都因一个单元的故障而破坏了整个系统的正常工作，这样的系统可靠性就很低。相反，如果部分单元故障不会改变其余单元的可靠性，那麽这个系统的可靠性就很高。在这两种极限情况下的系统可靠性就容易估算了
六、平均修理时间的引入
在电源电路系统中，有好多构成的单元故障是不可维修的，但系统本身却是可以维修的，因此就引入了称为平均维修时间MTTR(Mean Time To Repair)和维修率m的概念。此二者的关系为：
1-2 可用性（Availability）
一、可用性概述
(1)可用性的提出
新经济时代的一个明显趋势就是各种规模的数据中心普遍建立，局域网、广域网、互联网等互相联接，形成了无所不达的信息通道。从人们的日常生活到丰富多彩的广义的社会活动、无不对该信息通道形成一定程度的依赖性，如果在信息通道的任一环节出现故障，受影响的不是一个点，而是一条线、一个面，将造成不可估量的损失。权威机构的研究表明，如果一个网站宕机，一个潜在的客户就会在 8 秒钟之内离开，而去访问另一个网站；如果一个路由器宕机，局域网上就可能有几百个用户无法工作；如果一个光纤室宕机，就可能有几千个用户断开网络连接。随着公司、员工、客户和供应商与技术的联系越来越多，也越来越依赖于技术，这些连接的重要性也呈几何级数增加，而维护电子商务的需求也使这种需要更进一步。不管您当前的可用性预期是什么，明天对可用性的预期都会向更高迈进一步。因此，数据中心规划应当包含能够满足未来需要的空间。
系统的可靠性属于硬件范畴，是可以用上式表达和计算的，由于当代系统的复杂性，如IDC，有一些因素是不好用可靠性表达式的概念全部包括的。比如，人员误操作造成的故障，老鼠、爬虫之类由通风口或风道侵入机内而导致的故障，无关人员进入机房的不规范行为（如不及时关闭进入时打开的机房门造成机房温度和湿度的突变、化纤工作服与机柜摩擦产生的高压火化、在机房内使用不该使用的电器等）造成的故障，等等。像这些因素对系统可靠性造成的影响，在系统中如何包括进去，于是就提出了一个&可用性&（Availability）的概念。
在设计系统时，设计者根据系统的重要性一般要对系统的可用性提出类似可靠性的一个概率值要求，即在规定时间内系统被有效利用的百分比，比如：要求99.9%、99.999%、99.99999%等。系统的实施就按照这个要求把可用性指标分配给各硬件单元和软件单元。
当然，这里的软件单元是广义的，比如包括制定管理制度等。
（2）允许年停机时间的计算
一般都习惯用一年停机多长时间来横将系统的有效可用性，这样既直观又省事。这种计算要借助于可靠性数据，下面给出了可靠性级别和年停机时间的计算方法。
可用性级别可用性数据% 允许年停机时间
低可用性 99.5% 43.8 h
较好可用性 99.9% 8.8 h
NT CLUSTERS 99.95% 4.4 h
UNIX CLUSTERS 99.99% 53 min
容错系统高可用性（1） 99.999% 5 min
容错系统高可用性（2）99.9s
一年允许停机时间的计算：
允许年停机时间t=一年的天数（n）×24（小时）×60（分钟）×（1-可用性）
例：对应容错系统要求可用性为99.99999%，其年允许停机时间为
t=365×24×60×（1-0.9999999）=0.05256（min）=3.1536（s）
（3）可用性与可靠性的区别
由于可靠性与可用性的一般计算表达式都是
所以人们有时就对可靠性与可用性之间的差异产生误解。但是有一些细微的差别在系统可维修或不可维修时会有所体现。
所谓可靠性(Reliability) P(t)是指：一个合格的单元或系统，在时刻0 到时刻 t 的间隔内不发生故障的概率。质量是&产品或服务的特性和特征的汇总，它影响着该产品满足外在或潜在需求的能力&而可靠性只是表征质量的一个方面，它表示产品在预期有效的使用寿命内满足外在或潜在需求的能力。
所谓可用性（Availability）A(t)是指：一个单元或系统，在时刻0 到时刻 t 的间隔内正常运行的概率。可靠性通常低于可用性，因为可靠性要求系统在 [0, t] 的整个时间段内必须正常运行；而对于可用性，要求就没有那么高：系统可以发生故障，然后在时间段 [0, t] 内进行修复。修复以后，只要系统仍能够继续运行，继续运行的时间仍然可以被计入系统的可用性。因此，可用性通常大于可靠性。即
A(t)&P(t) （30）
如果系统是不可维修的，那么在 [0, t] 时间段内无法完成维修，当然也无法继续运行。这样一来，可用性就等于可靠性。即
A(t) = P(t)
图6示出了系统可用性随时间的变化曲线。由图中可以看出，如果系统是可维修的，那麽它的可用性在开始阶段有一些下降，这是因为：从硬件上说，比如一个数据中心，开始安装的一些设备由于前期的一些缺欠（运输中碰撞造成的接插件松动、元器件接触不良，大气中诸如盐雾之类腐蚀蒸汽侵入电路插脚接触中的空隙而导致的触点被腐蚀，
因长期放置而使机内一些备用的各类电池容量和性能下降以及一些元器件的早期失效等等；从软件上说，数据中心机房刚刚建立，一些制度一时还无法健全，工作人员的素质、经验和习惯也由一个适应阶段等。这一些都是使可用性降低的因素。随着时间的延长，早期故障的硬件因素逐步被剔除，严格的机房制度逐步完善，人员的素质、经验和习惯都得到了改善，使系统进入了长时间的稳定期。从理论上这个时间可以是无穷大。
如果系统是不可维修的，这种情况多数是比较简单的单元系统（比如保险丝、组合电容器、达灵顿晶体管、智能功率模块IPM）、特殊加工的系统或某些特殊用途而不允许维修的系统比如被灌封的变压器、被灌封的模块电源、密封的水下设备、大部分运行中的
卫星设备等等。它们的可用性是随着时间的推移而降低的。这时的可用性就是它的可靠性。而可靠性不可能是无穷大的。
二、现代数据中心可用性需考虑的几个主要问题
（1）在数据中心影响可用性的因素
在当前的许多数据中心环境下，一般多把正常运行时间定为&五个9&，即 99.999% 的可用性，这相当于每年的宕机时间约为5分钟。一般宕机时间持续一个小时甚至更长，相当于约每 10-20 年发生一次宕机事件。在通常情况下，由于众多数据中心子系统的相互作用，要达到这一目标非常困难。99.999% 的数据中心可用性意味着每个子系统的可用性级别要比这个值高得多。因为所有子系统叠加的宕机时间必须等于或小于 5 分钟。因此对这些因素需要认真考虑，尤其是在确定减少宕机时间所需要的费用时。
包含总结汇报、党团工作、旅游景点、出国留学、考试资料、文档下载以及UPS系统的可靠性与可用性概念等内容。本文共2页
相关内容搜索什么时候需要99.999%的可靠性？
运维派推荐
运维派问答社区是专注于IT运维领域的学习、交流、互助的平台，这是属于IT运维人自己的技术社区。
> 什么时候需要99.999%的可靠性？
1群： - 运维综合
2群： - 运维综合
3群：1689067
- Linux Shell脚本
微信：yunweipai（或扫描以下二维码）
高可用是IT世界中的一个重要领域，不过，对大多少IT公司或组织来说，高可用性达到99.999%是没必要的。
一个公司或组织是否需要99.999%的可靠性，依赖许多因素：软件成本，公司财力能否承担等。
“当你的设备处理人命关天的事情，或业务中断一分钟就会损失百万美刀，那么你可以考虑99.99%的可靠性。”Robertson（Linux高可用项目开发者）如是说。
权衡高可用的付出与得到
实现高可用系统的成本，不论是99.99%还是99.999%，都包含了软件成本，硬件成本，人力成本，还有培训支出。当一个公司打算要做高可用系统之前，最好先权衡，构建高可用系统的成本，与系统业务中断所带来的损失，哪个付出更多。若不想付出太多的资金在构建高可用系统上，那么就得分析你的系统，什么时候会出现业务中断，控制住业务中断所带来得损失，以及构建快速恢复的能力。
实际上，关乎每分钟有百万美刀的系统，也可以不用做5个9的高可用系统，只要能够控制到有计划地中断业务（也可以说是中断业务可控制），如在交易时候业务不中断业务即可。
根据爱默生对41家数据中心的统计数据报告发现：“非计划的业务中断是导致公司业绩损失的主要因素”。报告中还指出：“业务中断后的故障定位，分析与解决，也需要耗费不少财力”。
如果一个公司的业务承诺的可靠性是99.99%，那么每年只允许业务中断8.76小时。如果业务中断导致的损失是每小时100万，那么一年的损失是876万。
但是，如果这个公司承诺的可靠性是99.999%，那么每年只允许业务中断不超过1个小时，如果业务中断导致的损失是每小时100万，那么一年的损失小于100万。
我们可以算到，可靠性从99.99%提升到99.999%，可以挽回大概700万的损失。那么这种情况下是值得的。
但是如果你提升可靠性到99.999%上面的花费，超过了700万，那保持99.99%的可靠性也是一种选择。
任何产品都需要考虑投入与产出比，那么你允许的业务中断时间是多少？
99.99%的可靠性对大多数业务来说是足够的，对于一些离线业务，99.9%可靠性大部分场景下也够用了。
实现99.99%的可靠性
在一些领域，99.999%可靠性是必须的，如运输行业。假如火车控制系统故障了，那么可能成千上万的旅客就会被滞留。（天朝的7.23事故大家都知道）
这种场景下，实现99.999%可靠性通常使用容错处理，包含软件的容错和硬件的容错。常见的软件容错有负载均衡，就是多个实例同时提供服务。当软件容错不起作用时候，就需要用到硬件容错，硬件容错一半是做硬件冗余，如两个服务器做主备。
转载请注明： &
与《什么时候需要99.999%的可靠性？》相关的文章.
长微博分享
博主暂未提供此篇文章的长微博，请联系站长。
二维码分享
打开微信（或者其他社交APP），选择“发现”，进入“扫一扫”拍摄即可。【图文】可靠性与系统可靠性_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
可靠性与系统可靠性
上传于||暂无简介
大小：439.50KB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢}

我就爱股票网