IOPS (Input/Output Per Second)即每秒的輸入輸出量(或讀寫次數(shù)),是衡量磁盤性能的主要指標之一。IOPS是指單位時間內(nèi)系統(tǒng)能處理的I/O請求數(shù)量,一般以每秒處理的I/O請求數(shù)量為單位,I/O請求通常為讀或?qū)憯?shù)據(jù)操作請求。隨機讀寫頻繁的應(yīng)用,如OLTP(Online Transaction Processing),IOPS是關(guān)鍵衡量指標。另一個重要指標是數(shù)據(jù)吞吐量(Throughput),指單位時間內(nèi)可以成功傳輸?shù)臄?shù)據(jù)數(shù)量。對于大量順序讀寫的應(yīng)用,如VOD(Video On Demand),則更關(guān)注吞吐量指標。
傳統(tǒng)磁盤本質(zhì)上一種機械裝置,如FC, SAS, SATA磁盤,轉(zhuǎn)速通常為5400/7200/10K/15K rpm不等。影響磁盤的關(guān)鍵因素是磁盤服務(wù)時間,即磁盤完成一個I/O請求所花費的時間,它由尋道時間、旋轉(zhuǎn)延遲和數(shù)據(jù)傳輸時間三部分構(gòu)成。
尋道時間Tseek是指將讀寫磁頭移動至正確的磁道上所需要的時間。尋道時間越短,I/O操作越快,目前磁盤的平均尋道時間一般在3-15ms。
旋轉(zhuǎn)延遲Trotation是指盤片旋轉(zhuǎn)將請求數(shù)據(jù)所在扇區(qū)移至讀寫磁頭下方所需要的時間。旋轉(zhuǎn)延遲取決于磁盤轉(zhuǎn)速,通常使用磁盤旋轉(zhuǎn)一周所需時間的1/2表示。比如,7200 rpm的磁盤平均旋轉(zhuǎn)延遲大約為60*1000/7200/2 = 4.17ms,而轉(zhuǎn)速為15000 rpm的磁盤其平均旋轉(zhuǎn)延遲約為2ms。
數(shù)據(jù)傳輸時間Ttransfer是指完成傳輸所請求的數(shù)據(jù)所需要的時間,它取決于數(shù)據(jù)傳輸率,其值等于數(shù)據(jù)大小除以數(shù)據(jù)傳輸率。目前IDE/ATA能達到133MB/s,SATA II可達到300MB/s的接口數(shù)據(jù)傳輸率,數(shù)據(jù)傳輸時間通常遠小于前兩部分時間。
因此,理論上可以計算出磁盤的最大IOPS,即IOPS = 1000 ms/ (Tseek + Troatation),忽略數(shù)據(jù)傳輸時間。假設(shè)磁盤平均物理尋道時間為3ms, 磁盤轉(zhuǎn)速為7200,10K,15K rpm,則磁盤IOPS理論最大值分別為,
IOPS = 1000 / (3 + 60000/7200/2) = 140
IOPS = 1000 / (3 + 60000/10000/2) = 167
IOPS = 1000 / (3 + 60000/15000/2) = 200
固態(tài)硬盤SSD是一種電子裝置, 避免了傳統(tǒng)磁盤在尋道和旋轉(zhuǎn)上的時間花費,存儲單元尋址開銷大大降低,因此IOPS可以非常高,能夠達到數(shù)萬甚至數(shù)十萬。實際測量中,IOPS數(shù)值會受到很多因素的影響,包括I/O負載特征(讀寫比例,順序和隨機,工作線程數(shù),隊列深度,數(shù)據(jù)記錄大小)、系統(tǒng)配置、操作系統(tǒng)、磁盤驅(qū)動等等。因此對比測量磁盤IOPS時,必須在同樣的測試基準下進行,即便如何也會產(chǎn)生一定的隨機不確定性。通常情況下,IOPS可細分為如下幾個指標:
Toatal IOPS,混合讀寫和順序隨機I/O負載情況下的磁盤IOPS,這個與實際I/O情況最為相符,大多數(shù)應(yīng)用關(guān)注此指標。
Random Read IOPS,100%隨機讀負載情況下的IOPS。
Random Write IOPS,100%隨機寫負載情況下的IOPS。
Sequential Read IOPS,100%順序負載讀情況下的IOPS。
Sequential Write IOPS,100%順序?qū)懾撦d情況下的IOPS。
IOPS的測試benchmark工具主要有Iometer, IoZone, FIO等,可以綜合用于測試磁盤在不同情形下的IOPS。對于應(yīng)用系統(tǒng),需要首先確定數(shù)據(jù)的負載特征,然后選擇合理的IOPS指標進行測量和對比分析,據(jù)此選擇合適的存儲介質(zhì)和軟件系統(tǒng)。下面的磁盤IOPS數(shù)據(jù)來自http://en.wikipedia.org/wiki/IOPS,給大家一個基本參考。
Device |
IOPS |
Interface |
Notes |
7200 RPM SATA drives |
~90 IOPS |
SATA II |
|
10k RPM SATA drives, queue depth 1 |
~130 IOPS |
SATA II |
fio -readonly -name iops -rw=randread -bs=512 -runtime=20 -iodepth 1 -filename /dev/sda -ioengine libaio -direct=1 |
10k RPM Serial Attached SCSI drives |
~140 IOPS |
SAS |
|
15k RPM Serial Attached SCSI drives |
~180 IOPS |
SAS |
|
10k RPM SATA drives, queue depth 24 |
~290 IOPS |
SATA II |
fio -readonly -name iops -rw=randread -bs=512 -runtime=20 -iodepth 24 -filename /dev/sda -ioengine libaio -direct=1 |
Simple SLC SSD |
~400 IOPS |
SATA II |
|
Intel X25-M G2 (MLC; As of March 2010) |
~8,600 IOPS |
SATA II |
Intel´s data sheet claims 6,600/8,600 IOPS (80GB/160GB version) and 35,000 IOPS for random 4KB writes and reads, respectively. |
Intel X25-E (SLC; As of March 2009) |
~5,000 IOPS |
SATA II |
Intel´s data sheet claims 3,300 IOPS and 35,000 IOPS for writes and reads, respectively. 5,000 IOPS are measured for a mix. Intel X25-E G1 has around 3 times higher IOPS compared to the Intel X25-M G2. |
OCZ Z-Drive e84, a PCI Express SLC Solid State Drive |
16,000 IOPS |
PCIe |
Maximum read/write speed of 800/750 MB/s). |
G.Skill Phoenix Pro et. al. |
~20,000 IOPS |
SATA III |
SandForce-1200 based SSD drives with enhanced firmware, states up to 50,000 IOPS, but real-world performance shows for all drives from different manufacturers ~25,000 IOPS for random read and ~15,000 IOPS for random write. |
ioDrive, a PCI-Express card with Flash |
140,000 Read IOPS, 135,000 Write IOPS |
PCIe |
|
ioDrive Duo |
250,000+ IOPS |
PCIe |
|
DDRdrive X1, a May 2009 PCI Express based solid-state drive |
300,000+ (512B Random Read IOPS) and 200,000+ (512B Random Write IOPS) |
PCIe |
|
Texas Memory System RamSan-20 |
120,000+ Random Read/Write IOPS |
PCIe |
Inlude RAM cache and UltraCapacitor to preserve the memory non-volatile |
Texas Memory System RamSan-630 Appliance |
1,000,000+ Random Read/Write IOPS |
FC / InfiniBand |
|
Violin Memory Appliance |
1,000,000+ Random Read/Write IOPS |
Proprietary interconnect |
|
ioDrive Octal (single PCI Express card) |
1,000,000+ Random Read/Write IOPS |
PCIe |
|
我們前面已經(jīng)說過了,廠商所提供的IOPS值是在理想狀態(tài)下測試出來的,對實際的運行性能的參考并不大,所以我們有必要通過以下幾個方面來衡量該系統(tǒng)的實際IOPS的可能表現(xiàn)。決定IOPS的主要因素取決于陣列的算法,Cache命中率,以下介紹RAID磁盤IOPS。
陣列的算法也因為不同廠商不同型號的產(chǎn)品而不同,如我們最近遇到在HDS USP上面,可能因為ldev(lun)存在隊列或者資源限制,而單個ldev的IOPS就上不去。所以,決定采購某型號的存儲之前,有必要了解這個存儲的一些算法規(guī)則與限制。
Cache命中率對實際IOPS有決定性的影響,Cache命中率取決于數(shù)據(jù)的分布,Cache size的大小,數(shù)據(jù)訪問的規(guī)則,以及Cache的算法,如果完整的討論下來,這里將變得很復(fù)雜,可以有一天來慢慢討論。我們這里把這些內(nèi)部原理都省略掉,只強調(diào):對于一個存儲陣列來說,讀Cache的命中率越高,一般就表示它可以支持更多的IOPS,為什么這么說呢?這個就與我們下面要討論的硬盤IOPS有關(guān)系了。
每個物理硬盤能處理的IOPS是有限制的,如
同樣,如果一個陣列有120塊15K rpm轉(zhuǎn)速的光纖硬盤,那么,它能支撐的最大IOPS為120*150=18000,這個為硬件限制的理論值,如果超過這個值,硬盤的響應(yīng)可能會變的非常緩慢而不能正常提供業(yè)務(wù)。較高的讀Cache命中率,能降低硬盤IOPS負荷,讓硬盤在較小的壓力下良好工作。
在我們的上一篇文章“RAID 5和RAID 10,哪種RAID 適合你(上)”中曾經(jīng)討論過,在RAID 5與RAID 10的不同機制上,讀數(shù)據(jù)時,IOPS性能其實沒有差別。但是,相同的業(yè)務(wù),在寫入數(shù)據(jù)時,采用不同的RAID 機制最終落在RAID磁盤IOPS上是有差別的,我們評估的正是磁盤的整體IOPS,如果達到了磁盤的限制,性能肯定是上不去了。
那我們假定一個case,業(yè)務(wù)應(yīng)用的IOPS是10000,讀Cache命中率是30%,讀IOPS為60%,寫IOPS為40%,磁盤個數(shù)為120,那么分別計算在RAID 5與RAID 10的情況下,每個RAID磁盤IOPS為多少。
RAID 5:
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120
2. = (4200 + 16000)/120
3. = 168
這里的10000*(1-0.3)*0.6表示是讀的IOPS,比例是0.6,除掉Cache命中,實際只有4200個讀IOPS。而4 * (10000*0.4) 表示寫的IOPS,因為每一個寫,在RAID 5中,實際發(fā)生了4個io,所以寫的IOPS為16000個。
為了考慮RAID 5在寫操作的時候,那2個讀操作也可能發(fā)生命中,所以更精確的計算應(yīng)該為:
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120
2. = (4200 + 5600 + 8000)/120
3. = 148
這樣我們計算出來單個盤的IOPS為148個,基本達到RAID磁盤IOPS極限,在這種情況下,磁盤的工作狀態(tài)是非常不理想的。
RAID 10對IOPS性能的影響
1. 單塊盤的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120
2. = (4200 + 8000)/120
3. = 102