磁盘阵列控制器模式对比

admin · 发表于 2008-2-22 15:14:42

本文从低层原理上，深入透析了目前存在的7种模式的组成原理，结构，并深刻分析了各种级别相对于单盘IO速率的变化。

Raid0

Raid0是这样一种模式：我们拿5块盘的raid0为例子。

　　上图中5个竖条，分别代表5个磁盘上的一个extent，也就是竖条的意思，每个磁盘被逻辑的划分为N个这种extent。然后再在磁盘相同偏移的extent上，横向逻辑分割，形成strip，一个strip横跨过的extent个数，称为strip lenth，而一个strip和一个extent交叉带，称为一个segment，一个segment中所包含的data block个数，称为strip depth。Data block，可以是N倍个扇区大小的容量，应该可以调节，或者不可调，随控制器而定。
　　Raid0便是将一系列连续编号的data block，分布到多个物理磁盘上，扩散IO，提高性能。其分布的方式，如图所示：这个例子中，条带深度为4，则0、1、2、3号data block，被放置到第一个条带的第一个segment中，然后4、5、6、7号block，放置到第一个条带的第二个segment中，依此类推，条带1放满后，继续放条带2。这种特性，称为“局部连续”，因为block只有在一个segment中是物理连续的，逻辑连续，就需要跨物理磁盘了。

　　对外来说，参与形成raid0的各个物理盘，会组成一个逻辑上连续，物理上也连续的虚拟磁盘。磁盘控制器对这个虚拟磁盘发出的指令，都被raid控制器截获，分析，根据block映射关系公式，转换成对组成raid0的各个物理盘的真实物理IO请求指令，收集或写入数据之后，再提交给主机磁盘控制器。

　　Raid0还有另一种非条带化模式，即写满其中一块物理磁盘之后，再接着写另一块，直到所有组成磁盘全部写满。这种模式，对IO写没有任何优化，但是对IO读，能提高一定的并发IO读几率。

在进一步讲述raid0和其他raid级别之前，我们先来看一下IO的种类。IO按照可以分为：读/写IO，大/小块IO，连续/随机IO，顺序/并发IO。下面我们来分别介绍每一种IO。

　　读/写IO，这个就不用多说了，读IO，就是发指令，从磁盘读取某段扇区的内容。指令一般是通知磁盘开始扇区位置，然后给出需要从这个初始扇区往后读取的连续扇区个数，同时给出动作是读，还是写。磁盘收到这条指令，就会按照指令的要求，读或者写数据。控制器发出的这种指令＋数据，就是一次IO，读或者写。

　　大/小块IO，指控制器的指令中给出的连续读取扇区数目的多少，如果数目很大，比如128，64等等，就应该算是大块IO，如果很小，比如1，4，8等等，就应该算是小块IO，大块和小块之间，没有明确的界限。

　　连续/随机IO，连续和随机，是指本次IO给出的初始扇区地址，和上一次IO的结束扇区地址，是不是完全连续的，或者相隔不多的，如果是，则本次IO应该算是一个连续IO，如果相差太大，则算一次随机IO。连续IO，因为本次初始扇区和上次结束扇区相隔很近，则磁头几乎不用换道或换道时间极短；如果相差太大，则磁头需要很长的换道时间，如果随机IO很多，导致磁头不停换道，效率大大降底。

　　顺序/并发IO，这个的意思是，磁盘控制器每一次对磁盘组发出的指令套（指完成一个事物所需要的指令或者数据），是一条还是多条。如果是一条，则控制器缓存中的IO队列，只能一个一个的来，此时是顺序IO；如果控制器可以同时对磁盘组中的多块磁盘，同时发出指令套，则每次就可以执行多个IO，此时就是并发IO模式。并发IO模式提高了效率和速度。

说完了4种IO模式，我们再来说2个概念：

　　IO并发几率。单盘，IO并发几率为0，因为一块磁盘同时只可以进行一次IO。对于raid0，2块盘情况下，条带深度比较大的时候（条带太小不能并发IO，下面会讲到），并发2个IO的几率为1/2。其他情况请自行运算。

　　IOPS。一个IO所用的时间＝寻道时间＋数据传输时间。IOPS＝IO并发系数/（寻道时间＋数据传输时间），由于寻道时间相对传输时间，大几个数量级，所以影响IOPS的关键因素，就是降底寻道时间，而在连续IO的情况下，寻道时间很短，仅在换磁道时候需要寻道。在这个前提下，传输时间越少，IOPS就越高。

　　每秒IO吞吐量。显然，每秒IO吞吐量＝IOPS乘以平均IO SIZE。Io size越大，IOPS越高，每秒IO吞吐量就越高。设磁头每秒读写数据速度为V，V为定值。则IOPS＝IO并发系数/（寻道时间＋IO SIZE/V），代入，得每秒IO吞吐量＝IO并发系数乘IO SIZE乘V/（V乘寻道时间＋IO SIZE）。我们可以看出影响每秒IO吞吐量的最大因素，就是IO SIZE和寻道时间，IO SIZE越大，寻道时间越小，吞吐量越高。相比能显著影响IOPS的因素，只有一个，就是寻道时间。

　　下面我们来具体分析一个从上到下访问raid0磁盘的过程。假如某一时刻，主机控制器发出指令：读取初始扇区10000
长度128。Raid控制器接受到这个指令之后，立即进行计算，根据对应公式（这个公式是raid控制器在做逻辑条带化的时候制定的）算出10000号扇区所对应的物理磁盘的扇区号，然后依次计算出逻辑上连续的下128个扇区所在物理磁盘的扇区号，之后，分别向对应这些扇区的磁盘，再次发出指令，这次是真实的读取数据了，磁盘接受到指令，各自将数据提交给raid控制器，经过控制器在cache种的组合，再提交给主机控制器。

分析以上过程，我们发现，如果这128个扇区，都落在同一个segment中的话，也就是说条带深度容量大于128个扇区的容量（64K），则这次IO就只能真实的从这一块物理盘上读取，性能和单盘相比会减慢，因为没有任何优化，反而还增加了raid控制器额外的计算开销。所以要提升性能，让一个IO尽量扩散到多块物理盘上，就要减小条带深度，磁盘数量不变的条件下，也就是减小条带大小strip size。让这个IO的数据被控制器分割，同时放满第一个segment、第二块物理磁盘上的第二个segment。。。。。。。依此类推，这样就能极大的占用多块物理盘。在这里大家可能存在一个误区，就是总是以为控制器是先放满第一个segment，再放满第二个segment，其实是同时进行的，因为控制器把每块盘要写入或者读取的数据都计算好了，是同时进行的。所以，raid0要提升性能，条带做的越小越好。但是这里又一个矛盾出现了，就是条带太小，导致并发IO几率降底，因为如果条带太小，则每次IO一定会占用大部分物理盘，而队列中的IO就只能等待这次IO结束后才能使用物理盘。而条带太大，又不能充分提高传输速度，这两个是一对矛盾，按照需求来采用不同的方式。

我们接着分析raid0相对于单盘的性能变化。根据以上总结出来的公式，可以推得以下表格：

RAID0 : S, l4 c0 C: O IOPS ! t8 }% P& ?- X6 B7 Q; ]5 _3 \|	读 9 `: k# y; Z3 v/ }$ N) z				写 : }; M( o r- [ k, j' B
	并发IO ! k6 h8 p' \|- X0 l' t0 t		顺序IO " j& f' O3 c! X" h+ u+ b		并发IO ' G. T' n: J! w* V7 z		顺序IO 5 [& N7 \) N+ N9 a
	随机IO : M/ u3 B/ n+ A! B/ a	连续IO 9 v* b% X3 F4 P	随机IO 5 v: ?+ r t) z. O$ Z	连续IO & M; C2 ]5 s. e) F: `	随机IO 0 R1 k8 \|9 K0 r6 t9 @	连续IO ! \( Z5 ?" s N; s+ D/ X" k# ?4 Q+ d	随机IO ) t3 r7 z& n8 [7 r9 z: J' W# Y	连续IO , L0 ^! j7 v8 O/ E& {1 [
Io size/strip size较大 $ f M/ p! C/ ^6 J# N6 Q	不支持 ' b. k; q* v9 s	不支持 , b- V! A& a0 E6 [	提升极小 9 g- d" b: a$ q: I% Z5 l4 e) U	提升了N乘系数倍 & n1 l; B l: c+ o3 n	不支持 9 Q! a( }$ i/ q* m6 t- C	不支持 - c3 K9 \; e) {; Q' o9 X	提升极小 ' _$ n: B# o. ~) o7 m- Z	提升了N乘系数倍 $ w$ G7 f) I& Q6 t( s- h6 Z
Io size/strip size较小 5 Q- p6 }. H8 K: g	提升了（1＋并发系数）倍 % j! c6 @' e4 P5 z	提升了（1＋并发系数＋系数）系数倍 ' M8 x2 s" q4 d7 u' r	提升极小 ! j* S* s) o. e4 g	提升了系数倍 - h6 g2 S9 U! w6 k	提升了（1＋并发系数）倍 9 s6 B+ {+ ]( }9 M; q7 E9 C; ?	提升了（1＋并发系数＋系数）倍 ]0 w. r5 v5 c% J: z3 e: I5 R# G	提升极小 ! w5 }- [& L$ c. E" J	提升了系数倍 ) [/ Y: i# r. E9 W

注：并发IO和IO size/strip size是一对矛盾，两者总是对立。N＝组成raid0的磁盘数目。系数＝io size/strip size和初始LBA地址所处的strip偏移综合系数，大于等于1。并发系数＝并发IO的数量

Raid1
Raid1是这样一种模式，我们拿2块盘的例子来说明：

Raid1和raid0不同，raid0对数据没有任何保护措施，每个block都没有备份或者校验保护措施。Raid对虚拟逻辑盘上的每个物理block，都在物理盘上有一份镜像备份。也就是说数据有两份。对于raid1的写IO，速度不但没有提升，而且有所下降，因为数据要同时向多块物理盘写，时间以最慢的你个为准，因为是同步的。而对于raid1的读IO请求，不但可以并发，而且就算顺序IO的时候，控制器也可以象raid0一样，从两块物理盘上同时读数据，提升速度。Raid1没有srip的概念。同样我们总结出一个表格：

RAID1 & R% X( a9 {7 ]: q) F# Y IOPS * N* X; ^2 b9 a4 O$ W* r' Z- f	读 # q2 e" w2 g- U0 p, k5 a+ }% z				写 ! H7 C3 N5 G/ N. c% O1 l
	并发IO % [" n' O1 {$ O0 G# J& o( g		顺序IO 7 Z3 N. k6 P6 K		并发IO 0 Q! x/ a2 x7 e0 f6 D		顺序IO $ `+ Q4 E$ C0 ]3 a$ a
	随机IO ( t$ d- x9 m1 A& [9 b% J' q6 S: i6 Q9 F	连续IO & B* G8 f2 S8 \3 g- Q7 G' E2 S3 E	随机IO % U( p7 _8 G+ I7 f3 A1 ?$ W	连续IO 5 p7 N, k2 u8 Z0 u- C! q+ N% d	随机IO 9 m( L# \6 C/ Q' r- L# h	连续IO 8 r8 ~9 l1 O! \|2 B( R# w3 W0 L	随机IO c! \|: d- \" z: V! K1 w7 r, v	连续IO # K) @; A2 \ o# w! U
$ {( b( I. ~( m$ H7 r% R5 X" O	提升N或者并发系数倍 4 l( z0 Z# R/ g9 V0 f- u	提升N倍或者并发系数 & ~; L5 p3 A" c; b% h& U* a, y# c	提升极小 7 b1 Q* b. X/ A" C, Y5 H- u0 i	提升了N 倍 2 u) n" n) {- ?" O) Z	不支持 ) I! V G7 g9 p9 ^7 R' Q	事物性IO可并发，提升并发系数倍 . V+ Q' V" s' x7 w* k# S3 I	没有提升 ! Y9 [# H# b2 a$ v9 l# e" t! a0 \8 W	没有提升 : ?0 g3 r9 g/ h, A. o9 L

注：raid1没有strip的概念。N＝组成raid1镜像物理盘的数目。

在读、并发IO的模式下，由于可以并发N个IO，每个IO占用一个物理盘，这就相当于提升了N倍的IOPS。由于每个IO只独占了一个物理盘，所以速度相对于单盘并没有改变，所以不管是随机还是顺序IO，相对单盘都不变。
在读、顺序IO、随机IO模式下，由于IO不能并发，所以此时一个IO可以同时读取N个盘上的内容，但是是在随机IO模式下，那么寻道时间影响很大，纵使同时分块读取多个磁盘的内容，也架不住寻道时间的抵消，所以性能提升极小
在读、顺序IO、连续IO模式下，寻道时间影响到了最低，此时传输速率为主要矛盾，同时读取多块磁盘的数据，时间减少为1/N，所以性能提升了N倍。
写IO的时候和读IO情况相同，就不做分析了。写IO因为要同时向每块磁盘写入备份数据，所以不能并发IO，也不能分块并行。但是如果控制器把优化算法做到极至的话，还是可以并发IO的，比如控制器从IO队列中提取连续的多个IO，可以将这些IO合并，并发写入磁盘。前提这几个IO必须是事物性的，也就是说LBA必须连续，不然不能作为一个大的合并IO，而且和文件系统也有关系，文件系统碎片越少，并发几率越高。

Raid2

raid2是一种比较特殊的raid模式，他是一种专用raid，现在早已被淘汰。他的基本思想是，IO到来之后，控制器将数据分割开，在每块物理磁盘读或者写1bit。这里有个疑问，磁盘的最小IO单位是扇区，512字节，如何写入1bit呢？其实这个写入1bit，并非只写入1bit。我们知道上层IO，可以先经过文件系统，然后才通过磁盘控制器驱动来向磁盘发出IO，最终的IO大小，都是N倍的扇区，也就是Nx512字节，N大于等于1，不可能发生N小于1的情况，即使你需要的数据只有几个字节，那么也同样要读出或者写入整个扇区，也就是512字节。明白这个原则之后，我们再来看一下raid2中所谓的“每个磁盘写1bit”是个什么概念。IO最小单位为扇区，512字节，我们就拿一个4块数据盘＋3块校验盘的raid2系统给大家来说明一下。这个环境中，raid2的一个条带大小是4bit（1bit乘4块数据盘），而IO最小单位是一个扇区，那么如果分别向每块盘写1bit，就需要分别向每块盘写一个扇区，每个扇区只包含1bit有效数据，这显然是不好的，因为太浪费空间，没有意义。因为IO数据到来时，我们拿以下IO请求为例：写入初始扇区10000长度1，这个IO目的是要向LBA10000写入一个扇区的数据，也就是512字节。Raid2控制器接受到这512字节的数据之后，先将其放入cache，然后计算需要写入的物理磁盘的信息，比如定位到物理扇区，分割数据成bit，然后一次性写入物理磁盘扇区。

也就是说第一块物理盘，控制器会写入本次IO数据的第1、5、9、13、17、21。。。。。。。。。。。等等位，第二块物理盘会写入2、6、10、14、18、22。。。。。。。。。。等等位，其他两块物理盘同样方式写入。直到这样将数据写完。我们可以计算出来，这512字节的数据写完之后，此时每块物理盘只包含128字节的数据，也就是一个扇区的四分之一，那么这个扇区剩余的部分，就是空的。如果要利用起这部分空间，那么等下次IO到来之后，控制器对数据进行bit分割，将要填入这些空白区域的数据，控制器将首先读出原来的数据，然后和新数据合并之后，一并再写回这个扇区，这样做效率和速度都大打折扣。我们可以发现，其实raid2就是将原本连续的一个扇区的数据，以位为单位，分割存放到不连续的多块物理盘上，因为这样可以全组并行读写，提高性能。每个物理磁盘扇区其实是包含了N个扇区的“残体”。那么如果出现需要更新这个IO的4个扇区中某一个扇区的情况，怎么办？这种情况下，必须先读出原来的数据，和新数据合并，然后在一并写入。其实这种情况出现的非常少。我们知道上层IO的产生，一般是需要先经过os的文件系统，然后才到磁盘控制器这一层的。所以磁盘控制器产生的IO，一般都是事务性的，也就是这个IO中的所有扇区，很大几率上对于上层文件系统来说，是一个完整的事务，所以很少会发生只针对这个事务中某一个原子进行读写的情况。这样的话，每次IO很大几率都会包含入这些逻辑上连续的扇区的，所以不必担心经常会发生那种情况，即便发生了，控制器也只能按照那种低效率的做法来做，不过总体影响较小。但是如果随机IO比较多，那么这些IO初始LBA，很有可能就会命中在一个两个事务交接的扇区处，这种情况，就导致速度和效率大大降低了。连续IO出现这种情况的几率非常小了。

Raid2因为每次读写都需要全组磁盘联动，所以为了最大化其性能，最好保证每块磁盘主轴同步，使得同一时刻每块磁盘磁头所处的扇区逻辑编号都一致，并存并取，达到最佳性能，如果不能同步，则会产生等待，影响速度。

基于raid2的并存并取的特点，raid2不能实现并发IO，因为每次IO都占用了每块物理磁盘。

Raid2的校验盘对系统不产生瓶颈，但是产生延迟，因为多了计算校验的动作。校验位和数据位是一同并行写入或者读取的。Raid2采用海明码来校验数据，这种码可以判断修复一位错误的数据，并且使用校验盘的数量太多，4块数据盘需要3块校验盘，但是随着数据盘数量的增多，校验盘所占的比例会显著减小。
Raid2和raid0有些不同，raid0不能保证每次IO都是多磁盘并行，因为raid0的分块相对raid2以位为单位来说是太大了，而raid2由于她每次IO都保证是多磁盘并行，所以其数据传输率是单盘的N倍，为了最好的利用这个特性，就需要将这个特性的主导地位体现出来，而根据IOPS＝IO并发系数/（寻道时间＋数据传输时间），寻道时间比数据传输时间大几个数量级，所以为了体现数据传输时间减少这个优点，就必须避免寻道时间的影响，而避免其影响的最佳做法就是：尽量产生连续IO而不是随机IO，所以，raid2最适合连续IO的情况。另外，根据每秒IO吞吐量＝IO并发系数乘IO SIZE乘V/（V乘寻道时间＋IO SIZE），如果将IO size也增大，则每秒IO吞吐量也将显著提高。所以，raid2最适合的应用，就是：产生连续IO，大块IO的情况，不言而喻，文件服务，视频流服务等等这些应用，适合raid2，不过，raid2的缺点太多，比如校验盘数量多，算法复杂等等，它逐渐的被raid3替代了。

RAID2 4 w j3 d: W3 c3 e IOPS ; w" U. m0 F. o9 Y	读 1 w3 S% p* C% q4 g; o			写 ' o, g4 W+ s. f
	顺序IO ' k0 h" N: O7 E9 R			顺序IO ; Y7 U! y# [ m# ]3 ]( k0 w) C
	非事务性随机IO ! z. B0 t0 n% u7 n0 \* q- \( c	事务性随机IO 5 {/ g E% ^9 I' f# n7 _8 [	连续IO " D2 v% ~5 X. c* P( k$ ~+ j	非事务性随机IO 5 N; {$ G1 C) D	事务性随机IO : T, b% o5 N1 u4 \1 C7 I5 t	连续IO + e9 c: \|) s' ]/ A; \|; E/ L
IO满足公式条件 * i K9 _6 H- x8 ]2 m/ {- r	提升极小 & B- [. m- E/ }$ g H( s) u	提升极小 0 r) u" j9 \; Q) C+ N	提升N倍 9 y( A/ L0 W2 v: D	性能降低 8 \& y5 B1 D. _( c( m- B- f, T	提升极小 : r6 A6 f- D- x4 ?2 ]	提升N倍 / p# d8 e( [$ l; I5 x" p

注：N＝数据盘数量。Raid2不能并发IO

Raid3

由于raid2缺点比较多，比如非事务性IO对他的影响，校验盘数量太多等等。Raid2的劣势，就在于它的将数据以bit为单位，分割，将原本物理连续的扇区，转变成物理不连续，逻辑连续的，这样就导致了它对非事务性IO的效率低下。为了从根本上解决这个问题，raid3出现了。既然要从根本上解决这个问题，首先就是需要抛弃raid2对扇区进行分散的做法。Raid3保留了扇区的物理连续。Raid2将数据以bit为单位分割，这样为了保证每次IO占用全部磁盘的并行性。而raid3同样也保留了这个特点，但是没有以bit为单位来分散数据，而就是以扇区或者几个扇区为单位来分散数据。Raid3还采用了高效的XOR校验算法，但是这种算法只能判断数据是否有误，不能判断出哪一位有误，更不能修正。XOR校验使得raid3不管多少块数据盘，只需要一块校验盘就足够了。

Raid3的每一个条带，其长度很小，深度为1。这样的话，每个segment的大小一般就是1个扇区或者几个扇区的容量。以上图的例子来看，4块数据盘，一块校验盘，每个segment，也就是图中的一个block portion，假如为2个扇区大小，也就是1k，则整个条带大小为4k，如果一个segment大小为8个扇区，即4k，则整个条带大小为16K。

我们还是用一个例子来说明raid3的作用机制。比如，一个4数据盘，1校验盘的raid3系统，segment size为2个扇区大小即1k。raid3控制器接受到了这么一个IO：写入初始扇区10000长度8，即总数据量为8乘512字节＝4k。则控制器先定位LBA10000所对应的真实物理LBA，假如LBA10000恰好在第一个条带的第一个segment的第一个扇区上，那么控制器将这个IO数据里的第1、2个512字节写入这个扇区，同一时刻，第3、4个512字节会被同时写入这个条带的第二个segment中的两个扇区，其后的数据同样被写入第3、4个segment中，此时恰好是4k的数据量。也就是说这4k的IO数据，同时被写入了4块磁盘，每块磁盘写入了两个扇区，也就是一个segment，他们是并行写入的，包括校验盘，也是并行写入的，所以raid3的校验盘没有瓶颈，但是有延迟，因为增加了计算校验的开销。但现代控制器一般都使用专用的XOR硬件电路而不是cpu来计算xor，这样就使得延迟降到最低。上面那个情况是IO size刚好等于一个条带大小的时候，如果IO size小于一个条带大小呢？我们接着分析，还是刚才那个环境，此时控制器接收到IO大小为2K的写入请求，也就是4个连续扇区，那么控制器就只能同时写入两个磁盘了，因为每个盘上的segment是2个扇区，其他两个磁盘此时就是空闲的，也只能得到两倍的单盘传输速率。我们再来看看IO size大于一个条带大小的情况，会发生什么。还是那个环境，控制器收到的IO size＝16k。则控制器一次所能并行写入的，是4k，这16k就需要分4批来写入4个条带。其实这里的分4批写入，不是先后，而还是同时，也就是这16k中的第1、5、9、13k将由控制器连续写入磁盘1，第2、6、10、14k，连续写入磁盘2，依此类推，直到16k数据全部写完，是并行一次写完，这样校验盘也可以一次性计算校验值并且和数据一同并行写入。而不是“分批”。

通过比较，我们发现，与其使得IO size小于一个条带的大小，空闲一些磁盘，不如使得Io size大于或者等于条带大小，使得没有磁盘空余。因为上层IO size是不受控的，控制器说了不算，但是条带大小是控制器说了算的，所以如果将条带大小减少到很小，比如2个扇区，一个扇区，则每次上层IO，一般情况下都会占用所有磁盘，进行并发传输。可以提供和raid2一样的传输速度，并避免raid2的诸多缺点。Raid3和raid2一样，不能并发IO，因为一个IO要占用全部盘，就算IO size小于strip size，因为校验盘的独享，也不能并发IO。

RAID3 - Y5 ? C2 A$ J; H9 e) f* Q IOPS 2 e+ Z7 k+ A- B7 V( u0 ]% L L/ \7 A	读 ! G) V6 n) n9 L8 M9 k, Y8 c5 L				写 4 _7 E& K) e7 ~- c/ S4 c
	并发IO 7 w5 P; l$ B; V% Z) t! M% P/ R		顺序IO & T) V0 h# a* k$ h5 l( X		并发IO ! `5 h2 \' y4 M: B5 G		顺序IO * [* w" ~" p: F' K' {2 Q
	随机IO , E1 p5 T- f0 n	连续IO 9 O; _; w9 i& ~9 W2 Q: y	随机IO ; f9 F+ B9 x8 S) E( D# O	连续IO & K, q- \|* H( d. p7 R# V1 D	随机IO + H Y3 z, Y" P7 x5 B- t	连续IO 1 D# Z; e: C! I" `' @, \	随机IO 7 i: b( `% N/ K; D; p6 k5 F	连续IO 4 Q7 c2 k, R8 N! p
Io size大于strip size 9 Y) }4 \|% H3 F( T, j* h- a	不支持 D4 e- U8 K: L) ^ T K	不支持 0 }8 ~) Q: x! s) \! n: e/ y	提升极小 4 Q& k$ }1 }7 L5 g; \% U/ Y. k	提升了N倍 # I; R7 J/ z1 G" V* l8 [1 \|	不支持 # s9 _) S9 p) A9 X+ W	不支持 4 M( U3 a4 O- R; I9 z& U& d* E3 x	提升极小 7 r% B( Y, I* s. F! Z9 \|	提升了N倍 ) x0 K( o* P/ k; M8 S2 }2 y0 I3 w
Io size小于strip size L! m1 V! J, N7 d& m9 @: d n	不支持 8 A% Q! Q M+ v u% G5 M t	事物性IO可并发，提升并发系数倍 2 U' _- ]) m8 v7 x	提升极小 2 s: H* ?% b* k. Y) v8 N	提升了N乘IO size/strip size倍 " k' ?5 P8 \|' k" E	不支持 $ ^' g3 S! n+ S6 ~3 j	事物性IO可并发，提升并发系数倍 $ W7 G' ?7 P* x2 c	提升极小 # x) b' O& G9 v- k. t E	提升了N乘IO size/strip size倍 4 ^. k" b0 T# U

注：N＝组成raid3的数据磁盘数量。和raid2相同，事物性连续IO可能并发。
和raid2一样，raid3同样也是最适合连续大块IO的环境，但是它比raid2成本更低，更容易部署。
具体分析：
不管任何形式的raid，只要是面对随机IO，其性能比单盘没有大的优势，因为raid作所的只是提高传输速率，并发IO，容错。随机IO只能靠降低单个物理磁盘的寻道时间来解决。而raid不能优化寻道时间。所以随机IO，raid3也同样没有优势。
连续IO，因为寻道时间的影响因素可以忽略，raid3最拿手，因为象raid2一样，raid3可以大大加快数据传输速率，因为他是多盘并发读写。所以理论上可以相对单盘提高N倍的速率。

Raid4

不管是Raid2还是raid3，他们都是为了大大提高数据传输率而设计，而不能并发IO。诸如数据库等等应用，他们的特点就是随机IO和小块IO。想提高这种环境的IOPS，根据公式：IOPS＝IO并发系数/（寻道时间＋数据传输时间），随机读导致寻道时间很大，靠提高传输许率已经不是办法。所以观察这个公式，想在随机IO频发的环境中提高IOPS，唯一能够做的，只有提高IO并发系数，不能并发IO的，想办法让他并发IO，并发系数小的，想办法提高系数。
在raid3的基础上，raid4被发展起来。我们分析raid3的性能的时候，曾经提到过一种情况，就是io size小于strip size的时候，此时有磁盘处于空闲状态，而如果抓住这个现象，同时让队列中的下一个IO来利用这些空闲的磁盘，岂不是正好达到并发IO的效果了么？所以raid4将一个segment的大小做的比较大，以至于平均IO size总是小于strip size，这样就能保证每个IO少占用磁盘，甚至一个IO只占用一个磁盘。
是的，这个思想对于读IO是对路子的，但是对于写IO的话，有一个很难克服的问题，那就是校验盘的争用。考虑这样一种情况：4块数据盘＋1块校验盘组成的raid4系统，某时刻一个IO占用了前两块盘＋校验盘，此时虽然后两块是空闲的，可以同时接受新的IO请求，但是如果接受了新的IO请求，则新IO请求同样也要使用校验盘，由于一块物理磁盘不能同时处理多个IO，所以新IO虽然占有了数据盘的写权限，但是写校验盘的时候，仍然要等旧IO写完后，才能写入校验，新IO才能完成，这样的话，就和顺序IO无异了，数据盘可并发而校验盘不可并发，这样不能实现并发IO。
下面我们来说几个概念。

整条写、重构写与读改写

整条写（Full-stripe Write）：整条写需要修改奇偶校验群组中所有的条带单元，因此新的奇偶校验值可以根据所有新的条带数据计算得到。不需要额外的读、写操作。因此，整条写是最有效的写类型。整条写的例子，比如raid2，raid3。他们每次IO总是几乎能保证占用所有盘，因此每个条带上的每个segment都被写更新，所以控制器可以直接利用这些更新的数据计算出校验数据之后，在数据被写入数据盘的同时，将计算好的校验信息写入校验盘。

重构写（Reconstruct Write）：如果要写入的磁盘数目超过阵列磁盘数目的一半，采取重构写方式。在重构写中，从这个条带中不需要修改的segment中读取原来的数据，再和本条带中所有需要修改的segment上的新数据计算奇偶校验值，并将新的segment数据和没有更改过的segment数据以及新的奇偶校验值一并写入。显然，重构写要牵涉更多的I/O操作，因此效率比整条写低。重构写的例子，比如raid4中，如果数据盘为8块，某时刻一个IO只更新了一个条带的6个segment，剩余两个没有更新，则重构写模式下，会将没有被更新的两个segment的数据读出，和需要更新的前6个segment的数据计算出校验数据，然后将这8个segment连同校验数据一并写入磁盘。可以看出，这个操作只是多出了读两个segment中数据的操作。

读改写（Read-Modify Write）：如果要写入的磁盘数目不足阵列磁盘数目的一半，采取读改写方式。读改写过程如下：（1）从需要修改的segment上读取旧的数据；（2）从条带上读取旧的奇偶校验值；（3）根据旧数据、旧校验值和需要修改的segment上的新数据计算这个条带上的新的校验值；（4）写入新的数据和新的奇偶校验值。这个过程中包含读取、修改、写入的一个循环周期，因此称为读改写。读改写计算新校验值的公式为：新数据的校验数据＝（老数据 EOR 新数据） EOR 老校验数据。如果待更新的segment已经超过了条带中总segment数量的一半，则此时不适合使用读改写，因为读改写需要读出这些segment中的数据和校验数据，而如果采用重构写，只需要读取剩余不准备更新数据的segment中的数据即可，而后者数量比前者要少，所以超过一半，用重构写，不到一半，用读改写。整条更新，就用整条写。写效率：整条写>重构写>读改写。

明白了这些概念之后，我们就可以继续深入理解raid4了。如果仅仅根据争用校验盘来下结论说raid4不支持并发IO，在经过了以上三个概念的描述之后，看来显然是片面的。我们设想这样一种情形，某时刻一个IO只占用了全部磁盘的几块盘，另一些磁盘空闲，如果此时让队列中下一个IO等待的话，那么当然不可实现并发IO。此时我们考虑：如果队列中有这样一个IO，它需要更新的LBA目标和正在进行的IO恰好在同一条带上，并且处于空闲磁盘，而又不冲突，那么此时我们恰好就可以让这个IO也搭一下正在进行的IO的顺风车，反正都是要更新这个条带的校验segment，与其两个IO先后更新，不如让他们同时更新各自的数据segment，而控制器负责计算本条带的校验块。这样就完美的达到了IO并发。但是，有个问题，这种情况遇到的几率真是小之又小。即便如此，控制器如果可以对队列中的IO目标LBA进行扫描，将目标处于同一条带的IO，让其并发写入，这就多少类似NCQ技术了，不过这种技术需要上层软件的配合，因为乱序IO，会失去事务的顺序性，所以还需要上层软件作一些处理。

除了在控制器内部实现这种算法之外，我们还可以直接在上层来实现这种模式。上层就是指操作系统的文件系统。因为文件系管理着底层磁盘。文件系统决定数据写往磁盘上的哪些扇区。所以完全可以在文件系统这个层次上，将两个不同事物的IO写操作，尽量放到相同的条带上，也就是说，比如一个条带大小为16k，可以前8k放一个IO的数据，后8k放也另一个IO的数据，这两个IO在经过文件系统的计算之后，经由磁盘控制器驱动程序，向磁盘发出同时写入整个条带的操作，这样就构成了整条写，如果实在不能占满整条，那么也应该尽量达成重构写模式，这样不但并发了IO，还使得写效率增加。这种在文件系统专门为raid4做出优化的方案，最点型的就是netapp公司的磁盘阵列操作系统data ontap，这个操作系统中文件系统模块称为WAFL。WAFL文件系统的设计方式确保能够最大限度地减少校验盘寻址操作。上图右半部对比显示了WAFL如何分配同样的数据块，从而使得RAID 4更加有效。 WAFL总是把相关的数据块写到彼此邻近的条带中，消除校验盘上的长时间寻址操作。只要可能，WAFL也把多重数据块写到同样的条带中，从而进一步减少校验盘上的阻塞。FFS在上图左半部中使用六道独立的条带，因此致使六个校验盘块需要更新。上图右半部中，WAFL使用仅仅3道条带，即只有三个校验块需要更新。从而大大提高了RAID性能，消除了校验盘瓶颈。

RAID4 9 J' w' l/ `5 e+ z. C4 [% h IOPS 5 X* E+ ^7 a$ g m4 @	读 0 z- H: H7 n4 p! T; }' S				写 1 L, `5 z8 i0 ?6 p5 v: C5 Z
	特别优化的并发IO + L1 \! N: e* a7 }		顺序IO ! D% j9 {; H" ]6 E; K* s		特别优化的并发IO 2 v; ~, v5 ]% r# k+ p0 u' u		顺序IO " Y( d9 m6 q X, x S" \8 k) H
	随机IO & T3 y/ [ S; n3 W: A	连续IO - W5 T( O. b; c- H	随机IO " K0 d( y/ S% h( t) c, o0 i C$ l	连续IO 6 c% H1 Z! ^$ `/ t: z	随机IO & A, A7 r; J# v6 g. d' {3 \|	连续IO * k' N" j7 f( Y) t" p$ Q8 I c	随机IO : T# Y3 \* `! G	连续IO ( }5 c/ S, m6 ]
Io size/strip size较大 ; n5 i* L6 Z! @	冲突 9 _5 M4 P0 W# ~ v! k( c	冲突 " R0 }; H$ [0 w	提升极小 9 F* U' [, Q. Q* N	提升了N倍 2 [; ]( R( X) n, y	冲突 & J" g0 `5 ?# n3 O) V0 F	冲突 / l1 A5 f' b# W+ s7 B	没有提升 + r$ Y7 c7 Q' P2 q# Y M6 `	提升了N倍 8 H$ y& m; x8 d
Io size/strip size较小 : \$ B4 K& L F$ d% O1 r0 D" e0 ^	提升极小 - p8 t* P4 `& C* F6 Y1 y	提升并发系数倍 - \|' { g$ D" z5 {, N* M	几乎没有提升 3 M% H9 X( o+ B' P* d	几乎没有提升 - k- t* U$ b L/ P1 f! X- \+ N+ G/ w# s	提升并发系数倍 1 F: w W% w4 p& q, a0 a9 n	提升并发系数乘N倍 9 [: k0 L& r% I4 }$ X1 o/ `	性能降底 ( I! H V: ?5 `	性能降底 # }+ \* r3 m8 }3 k+ H0 G

注：N为raid4数据盘数量。Io size/strip size太大则并发IO几率很小。
值得注意的是，如果io size/strip size的值太小，则顺序IO读，不管是连续还是随机IO，几乎都没有提升。顺序IO写，性能下降，因为io size很小，又是顺序IO，则只能进行读改写，性能降底不少。
所以，如果要使用raid4，不进行特别优化，是不行的，至少要让他可以进行并发IO。我们观察表格可知，并发IO模式下，性能都有所提升。然而如果要优化到并发几率很高，实则不容易。目前只有netapp的WAFL文件系统还在使用raid4，其他产品均未见使用。面临淘汰，取而代之的是拥有高并发几率的raid5系统。

Raid5

为了解决raid4系统不能并发IO困难的窘境，raid5相应而出。Raid4并发困难，是因为他的校验盘争用的问题，如果能找到一种机制，能有效解决这个问题，则实现并发就会非常容易。Raid5恰恰解决了校验盘争用这个问题。Raid5采用分布式校验盘的做法，将校验盘打散在raid组中的每块磁盘上。如图所示。每个条带都有一个校验segment，但是不同条带中其位置不同，在相邻条带之间循环分布。为了保证并发IO，raid5同样将条带大小做的较大，以保证每次IO数据不会占满整个条带，造成队列其他IO等待。所以，raid5如果要保证高并发率，那么每个IO几乎都是读改写模式，尤其是在随机IO的情况下，所以raid5拥有较高的写惩罚，但是在随机IO频发的环境下，仍然能保持较高的IOPS。
们来分析一下raid5具体的作用机制。以上图为例的环境，条带大小80k，每个segment大小16k。某一时刻，上层产生一个写IO：写入初始扇区10000
长度8，即写入4k的数据。控制器收到这个IO之后，首先定位真实LBA地址，假设定位到了第1个条带的第2个segment（位于图中的磁盘2）的第1个扇区（仅仅是假设），则控制器首先对这个segment所在的磁盘发起IO写请求，读出这8个扇区中原来的数据到cache，与此同时控制器也向这个条带的校验segment所在的磁盘（即图中的磁盘1）发起IO读请求，读出对应的校验扇区数据并保存到cache，随后利用XOR校验电路来计算新的校验数据，利用公式：新数据的校验数据＝（老数据 EOR 新数据） EOR 老校验数据。现在cache中存在：老数据，新数据，老校验数据，新校验数据。然后控制器立即再次向相应的磁盘同时发起IO写请求，将新数据写入数据segment，将新校验数据写入校验segment，并删除老数据和老校验数据。
在上述过程中，这个IO占用的，始终只有1、2两块盘，因为所要更新的数据segment我们假设位于2盘的1条带的2号segment，而这个条带对应的校验segment位于1盘，自始至终其他任何磁盘都没有用到。那么如果此时队列中有这么一个IO，他的LBA初始目标假如位于图中下方红框所示的数据segment中（4盘），IO长度也不超过segment的大小，而这个条带对应的校验segment位于3盘上，这两块盘未被其他任何IO占用，所以，此时控制器就可以并发的处理这个IO，和上方红框所示的IO，达到并发。
Raid5相对于经过特别优化的raid4来说，在底层就实现了并发，可以脱离文件系统的干预，任何文件系统的IO，都可以实现高并发几率，而不像基于wafl文件系统的raid4，需要在文件系统上规划计算出并发环境。
Raid5磁盘数量越多，可并发的几率就越大。

RAID5 * W1 d1 ~5 B8 r% V IOPS 7 x8 @. h4 M3 F, M6 B1 `	读 0 j* z2 o' _4 t! g				写 8 b3 L) F x9 D: Q% K
	并发IO 0 I# } ~/ q5 E# X5 g7 n		顺序IO 0 I2 _( c+ m, f) b		并发IO & T/ I, v5 b* K* R( d		顺序IO - s* P* N$ [$ @" b! {$ R
	随机IO ) m: \' S1 k0 S% ?+ N! F	连续IO 3 c2 O7 a8 W8 S# q- R& } B	随机IO , \|$ u; G% h) h' \| M	连续IO / b. }0 k: Q" c$ c k8 o	随机IO & i( \|$ l5 d4 \7 h, t	连续IO / l$ S" {: w7 J: \|7 H4 I& `0 m7 @	随机IO 1 d; E- ^% e. t	连续IO 9 f. q( J6 d' s% i. l7 W0 Z
Io size近似strip size . j# k- u* e2 ^# k1 H1 ]	不支持 0 b. H# S* Q$ ?% b	不支持	提升极小 / t' K% m6 }. @	提升了N倍 ! O& u( i, t& b( s1 ?/ {- z; `	不支持 " b* y( P" l# ~. U \	不支持 ( ?7 n. d( k0 H3 _2 [2 O! o3 P" a	提升极小 6 d* H7 I: i6 @, p6 F* g	提升了N倍 , q, {% S4 A# \: o
IO size大于segment size重构写 1 ]0 N ?& `- V3 H# R! [7 p	提升并发系数倍 ( z$ c# F- f. y- H# Z	提升并发系数倍 / J4 H1 S- D! f$ W. }! E; a	几乎没有提升 : W9 I' x; R/ [4 X/ J* d: a6 J	提升了IO size/segment size倍 5 [% K1 O6 B/ z7 Z2 T, A	提升并发系数倍 & b7 M( ~% ?! Z+ V$ q1 ^	提升并发系数倍 4 K$ M' Z' S+ _. R9 T7 w	性能下降 " v# d5 w4 F9 @, q3 b4 c* p	提升极小 . m5 E$ j. V/ }- C; P* y
Io size小于segment size读改写 # I7 [ v! p7 ?0 T1 Y6 E	提升并发系数倍 2 I3 M8 O% n! z4 c1 F8 d	提升并发系数倍 ! O0 E8 ~. ^2 D/ n* P7 v3 B	提升极小 ! F3 c$ W1 Z% A" f	没有提升 # K# S, T. U' R N	提升并发系数倍 & F/ k2 ~( S# V$ O x. V& S7 [3 B	提升并发系数倍 q5 H/ b" @- N7 K' X; V	性能下降 3 x; T! i N% ]) B$ X	性能下降 2 W* m/ y% N. m% Y) a1 B

raid5最适合小块IO，并发IO的情况下，性能都较单盘有所提升。

Raid6

raid6之前的任何raid级别，最多能保障在坏掉一块盘的时候，数据仍然可以访问，但是如果同时坏掉两块盘，则数据将会丢失。为了增加raid5的保险系数，raid6被创立。Raid6比raid5多增加了一块校验盘，同时也是分布打散在每块盘上，用另一个方程式来计算新的校验数据，这样，raid6同时在一个条带上保存了两份数学上不相关的校验数据，这样能够保证同时坏两块盘的情况下，数据依然可以通过联立这两个数学关系等式来求解丢失的数据。Raid6较raid5在写的时候，会同时读取或者写入额外的一份校验数据，不过由于是并行同时操作，所以比raid5慢不了多少。其他特性和raid5类似。

RAID6 " u6 v2 [" o4 W6 B IOPS # X: V& {6 Y! A6 n; s( q) P7 V8 D4 \1 V	读 K; A9 a9 U6 T" W* E				写 9 R6 H2 E& _8 k
	并发IO $ M4 X) F, P* B& [. o" ^		顺序IO " @. B3 n- N( ^! F5 g: q		并发IO ' A, [4 P( k& _1 M		顺序IO 9 e: u( @2 @4 g8 T. D2 l
	随机IO 7 ?3 o1 C( ], C: t% u, o# @& F' z	连续IO : L. \- U, v+ @; p5 j. m	随机IO & Y8 V# H1 D/ [0 Z7 W1 c	连续IO ; w2 ]4 x: p E, Y* ^	随机IO 8 E5 E1 z; [: V) R4 F# b, M	连续IO * x5 M- O: O1 a# ?, s	随机IO & Q% Q1 S5 }2 s8 n	连续IO 3 i9 k3 ^! E5 w" \|+ h
Io size近似strip size # N! r7 x0 B \. R, R) Z3 O* H	不支持 ; [4 L/ ]7 `/ \|& h# J0 _	不支持 1 _) `6 g/ ^ y' V) D	提升极小 $ a# e/ i: m [% h% @, G2 E	提升了N倍 . V& [& D& F+ Y5 U	不支持 4 E1 ?4 W0 D4 R R- z- X: m	不支持 8 h+ L- \- i R1 k, g+ W+ {' u	提升极小 2 O) f: b l* \|0 `0 k2 I	提升了N倍 , i. E ]" G3 O# I% o: Q! D
IO size大于segment size重构写 % n3 x5 v1 A( ~2 P4 o	提升并发系数倍 , a3 w- J; D' E$ ?- e5 w% w	提升并发系数倍 - A8 k4 ~& [* E$ F9 B$ e6 X) l% E9 A) V	几乎没有提升 6 n2 j8 T! ]: i, y- a. t: N, T	几乎没有提升 3 H, O/ e' w2 z) C	提升并发系数倍 1 C8 s' C% N2 e	提升并发系数倍 5 C) ^! B2 b, i) r+ R2 O	性能下降 , n0 @& ]9 P9 g5 V	提升极小 ( ?; P# x9 @ @0 J9 C$ y. K6 x0 ^
Io size小于segment size读改写 , x) u- \& R4 R0 Y2 t% L2 q5 X	提升并发系数倍 " P9 {$ W& e- T6 q	提升并发系数倍 " Z0 i) l( _7 W2 \' C8 d	提升极小 # P9 ~5 c: [5 e! u3 s! g	没有提升 ( J- [; z0 q; l( b" f8 A	提升并发系数倍 , \# Q7 o( R; {/ z& T	提升并发系数倍 4 `# i' t7 c- ? K; A: q: ?	性能下降 2 K/ o8 H% d1 b0 j1 n	性能下降 0 o* q, n& w% \|. V, g. f- d' E, X

		自动登录	找回密码
密码			立即注册

磁盘阵列控制器模式对比

浏览过的版块