IOPS (Input/Output Per Second)即每秒的輸入輸出量(或讀寫次數(shù)),是衡量磁盤性能的主要指標(biāo)之一。IOPS是指單位時(shí)間內(nèi)系統(tǒng)能處理的I/O請(qǐng)求數(shù)量,一般以每秒處理的I/O請(qǐng)求數(shù)量為單位,I/O請(qǐng)求通常為讀或?qū)憯?shù)據(jù)操作請(qǐng)求。隨機(jī)讀寫頻繁的應(yīng)用,如OLTP(Online Transaction Processing),IOPS是關(guān)鍵衡量指標(biāo)。另一個(gè)重要指標(biāo)是數(shù)據(jù)吞吐量(Throughput),指單位時(shí)間內(nèi)可以成功傳輸?shù)臄?shù)據(jù)數(shù)量。對(duì)于大量順序讀寫的應(yīng)用,如VOD(Video On Demand),則更關(guān)注吞吐量指標(biāo)。
傳統(tǒng)磁盤本質(zhì)上一種機(jī)械裝置,如FC, SAS, SATA磁盤,轉(zhuǎn)速通常為5400/7200/10K/15K rpm不等。影響磁盤的關(guān)鍵因素是磁盤服務(wù)時(shí)間,即磁盤完成一個(gè)I/O請(qǐng)求所花費(fèi)的時(shí)間,它由尋道時(shí)間、旋轉(zhuǎn)延遲和數(shù)據(jù)傳輸時(shí)間三部分構(gòu)成。
尋道時(shí)間Tseek是指將讀寫磁頭移動(dòng)至正確的磁道上所需要的時(shí)間。尋道時(shí)間越短,I/O操作越快,目前磁盤的平均尋道時(shí)間一般在3-15ms。
旋轉(zhuǎn)延遲Trotation是指盤片旋轉(zhuǎn)將請(qǐng)求數(shù)據(jù)所在扇區(qū)移至讀寫磁頭下方所需要的時(shí)間。旋轉(zhuǎn)延遲取決于磁盤轉(zhuǎn)速,通常使用磁盤旋轉(zhuǎn)一周所需時(shí)間的1/2表示。比如,7200 rpm的磁盤平均旋轉(zhuǎn)延遲大約為60*1000/7200/2 = 4.17ms,而轉(zhuǎn)速為15000 rpm的磁盤其平均旋轉(zhuǎn)延遲約為2ms。
數(shù)據(jù)傳輸時(shí)間Ttransfer是指完成傳輸所請(qǐng)求的數(shù)據(jù)所需要的時(shí)間,它取決于數(shù)據(jù)傳輸率,其值等于數(shù)據(jù)大小除以數(shù)據(jù)傳輸率。目前IDE/ATA能達(dá)到133MB/s,SATA II可達(dá)到300MB/s的接口數(shù)據(jù)傳輸率,數(shù)據(jù)傳輸時(shí)間通常遠(yuǎn)小于前兩部分時(shí)間。
因此,理論上可以計(jì)算出磁盤的最大IOPS,即IOPS = 1000 ms/ (Tseek + Troatation),忽略數(shù)據(jù)傳輸時(shí)間。假設(shè)磁盤平均物理尋道時(shí)間為3ms, 磁盤轉(zhuǎn)速為7200,10K,15K rpm,則磁盤IOPS理論最大值分別為,
IOPS = 1000 / (3 + 60000/7200/2) = 140
IOPS = 1000 / (3 + 60000/10000/2) = 167
IOPS = 1000 / (3 + 60000/15000/2) = 200
固態(tài)硬盤SSD是一種電子裝置, 避免了傳統(tǒng)磁盤在尋道和旋轉(zhuǎn)上的時(shí)間花費(fèi),存儲(chǔ)單元尋址開銷大大降低,因此IOPS可以非常高,能夠達(dá)到數(shù)萬(wàn)甚至數(shù)十萬(wàn)。實(shí)際測(cè)量中,IOPS數(shù)值會(huì)受到很多因素的影響,包括I/O負(fù)載特征(讀寫比例,順序和隨機(jī),工作線程數(shù),隊(duì)列深度,數(shù)據(jù)記錄大小)、系統(tǒng)配置、操作系統(tǒng)、磁盤驅(qū)動(dòng)等等。因此對(duì)比測(cè)量磁盤IOPS時(shí),必須在同樣的測(cè)試基準(zhǔn)下進(jìn)行,即便如何也會(huì)產(chǎn)生一定的隨機(jī)不確定性。通常情況下,IOPS可細(xì)分為如下幾個(gè)指標(biāo):
Toatal IOPS,混合讀寫和順序隨機(jī)I/O負(fù)載情況下的磁盤IOPS,這個(gè)與實(shí)際I/O情況最為相符,大多數(shù)應(yīng)用關(guān)注此指標(biāo)。
Random Read IOPS,100%隨機(jī)讀負(fù)載情況下的IOPS。
Random Write IOPS,100%隨機(jī)寫負(fù)載情況下的IOPS。
Sequential Read IOPS,100%順序負(fù)載讀情況下的IOPS。
Sequential Write IOPS,100%順序?qū)懾?fù)載情況下的IOPS。
IOPS的測(cè)試benchmark工具主要有Iometer, IoZone, FIO等,可以綜合用于測(cè)試磁盤在不同情形下的IOPS。對(duì)于應(yīng)用系統(tǒng),需要首先確定數(shù)據(jù)的負(fù)載特征,然后選擇合理的IOPS指標(biāo)進(jìn)行測(cè)量和對(duì)比分析,據(jù)此選擇合適的存儲(chǔ)介質(zhì)和軟件系統(tǒng)。下面的磁盤IOPS數(shù)據(jù)來自http://en.wikipedia.org/wiki/IOPS,給大家一個(gè)基本參考。
Device |
IOPS |
Interface |
Notes |
7200 RPM SATA drives |
~90 IOPS |
SATA II |
|
10k RPM SATA drives, queue depth 1 |
~130 IOPS |
SATA II |
fio -readonly -name iops -rw=randread -bs=512 -runtime=20 -iodepth 1 -filename /dev/sda -ioengine libaio -direct=1 |
10k RPM Serial Attached SCSI drives |
~140 IOPS |
SAS |
|
15k RPM Serial Attached SCSI drives |
~180 IOPS |
SAS |
|
10k RPM SATA drives, queue depth 24 |
~290 IOPS |
SATA II |
fio -readonly -name iops -rw=randread -bs=512 -runtime=20 -iodepth 24 -filename /dev/sda -ioengine libaio -direct=1 |
Simple SLC SSD |
~400 IOPS |
SATA II |
|
Intel X25-M G2 (MLC; As of March 2010) |
~8,600 IOPS |
SATA II |
Intel´s data sheet claims 6,600/8,600 IOPS (80GB/160GB version) and 35,000 IOPS for random 4KB writes and reads, respectively. |
Intel X25-E (SLC; As of March 2009) |
~5,000 IOPS |
SATA II |
Intel´s data sheet claims 3,300 IOPS and 35,000 IOPS for writes and reads, respectively. 5,000 IOPS are measured for a mix. Intel X25-E G1 has around 3 times higher IOPS compared to the Intel X25-M G2. |
OCZ Z-Drive e84, a PCI Express SLC Solid State Drive |
16,000 IOPS |
PCIe |
Maximum read/write speed of 800/750 MB/s). |
G.Skill Phoenix Pro et. al. |
~20,000 IOPS |
SATA III |
SandForce-1200 based SSD drives with enhanced firmware, states up to 50,000 IOPS, but real-world performance shows for all drives from different manufacturers ~25,000 IOPS for random read and ~15,000 IOPS for random write. |
ioDrive, a PCI-Express card with Flash |
140,000 Read IOPS, 135,000 Write IOPS |
PCIe |
|
ioDrive Duo |
250,000+ IOPS |
PCIe |
|
DDRdrive X1, a May 2009 PCI Express based solid-state drive |
300,000+ (512B Random Read IOPS) and 200,000+ (512B Random Write IOPS) |
PCIe |
|
Texas Memory System RamSan-20 |
120,000+ Random Read/Write IOPS |
PCIe |
Inlude RAM cache and UltraCapacitor to preserve the memory non-volatile |
Texas Memory System RamSan-630 Appliance |
1,000,000+ Random Read/Write IOPS |
FC / InfiniBand |
|
Violin Memory Appliance |
1,000,000+ Random Read/Write IOPS |
Proprietary interconnect |
|
ioDrive Octal (single PCI Express card) |
1,000,000+ Random Read/Write IOPS |
PCIe |
|
我們前面已經(jīng)說過了,廠商所提供的IOPS值是在理想狀態(tài)下測(cè)試出來的,對(duì)實(shí)際的運(yùn)行性能的參考并不大,所以我們有必要通過以下幾個(gè)方面來衡量該系統(tǒng)的實(shí)際IOPS的可能表現(xiàn)。決定IOPS的主要因素取決于陣列的算法,Cache命中率,以下介紹RAID磁盤IOPS。
陣列的算法也因?yàn)椴煌瑥S商不同型號(hào)的產(chǎn)品而不同,如我們最近遇到在HDS USP上面,可能因?yàn)?/SPAN>ldev(lun)存在隊(duì)列或者資源限制,而單個(gè)ldev的IOPS就上不去。所以,決定采購(gòu)某型號(hào)的存儲(chǔ)之前,有必要了解這個(gè)存儲(chǔ)的一些算法規(guī)則與限制。
Cache命中率對(duì)實(shí)際IOPS有決定性的影響,Cache命中率取決于數(shù)據(jù)的分布,Cache size的大小,數(shù)據(jù)訪問的規(guī)則,以及Cache的算法,如果完整的討論下來,這里將變得很復(fù)雜,可以有一天來慢慢討論。我們這里把這些內(nèi)部原理都省略掉,只強(qiáng)調(diào):對(duì)于一個(gè)存儲(chǔ)陣列來說,讀Cache的命中率越高,一般就表示它可以支持更多的IOPS,為什么這么說呢?這個(gè)就與我們下面要討論的硬盤IOPS有關(guān)系了。
每個(gè)物理硬盤能處理的IOPS是有限制的,如
同樣,如果一個(gè)陣列有120塊15K rpm轉(zhuǎn)速的光纖硬盤,那么,它能支撐的最大IOPS為120*150=18000,這個(gè)為硬件限制的理論值,如果超過這個(gè)值,硬盤的響應(yīng)可能會(huì)變的非常緩慢而不能正常提供業(yè)務(wù)。較高的讀Cache命中率,能降低硬盤IOPS負(fù)荷,讓硬盤在較小的壓力下良好工作。
在我們的上一篇文章“RAID 5和RAID 10,哪種RAID 適合你(上)”中曾經(jīng)討論過,在RAID 5與RAID 10的不同機(jī)制上,讀數(shù)據(jù)時(shí),IOPS性能其實(shí)沒有差別。但是,相同的業(yè)務(wù),在寫入數(shù)據(jù)時(shí),采用不同的RAID 機(jī)制最終落在RAID磁盤IOPS上是有差別的,我們?cè)u(píng)估的正是磁盤的整體IOPS,如果達(dá)到了磁盤的限制,性能肯定是上不去了。
那我們假定一個(gè)case,業(yè)務(wù)應(yīng)用的IOPS是10000,讀Cache命中率是30%,讀IOPS為60%,寫IOPS為40%,磁盤個(gè)數(shù)為120,那么分別計(jì)算在RAID 5與RAID 10的情況下,每個(gè)RAID磁盤IOPS為多少。
RAID 5:
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120
2. = (4200 + 16000)/120
3. = 168
這里的10000*(1-0.3)*0.6表示是讀的IOPS,比例是0.6,除掉Cache命中,實(shí)際只有4200個(gè)讀IOPS。而4 * (10000*0.4) 表示寫的IOPS,因?yàn)槊恳粋€(gè)寫,在RAID 5中,實(shí)際發(fā)生了4個(gè)io,所以寫的IOPS為16000個(gè)。
為了考慮RAID 5在寫操作的時(shí)候,那2個(gè)讀操作也可能發(fā)生命中,所以更精確的計(jì)算應(yīng)該為:
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120
2. = (4200 + 5600 + 8000)/120
3. = 148
這樣我們計(jì)算出來單個(gè)盤的IOPS為148個(gè),基本達(dá)到RAID磁盤IOPS極限,在這種情況下,磁盤的工作狀態(tài)是非常不理想的。
RAID 10對(duì)IOPS性能的影響
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120
2. = (4200 + 8000)/120
3. = 102