今天就跟大家聊聊有關(guān)Bitcask模型是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
專注于為中小企業(yè)提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)高州免費做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了1000+企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。Bitcask是一個日志型的基于hash表結(jié)構(gòu)和key-value存儲模型,但是其簡潔有效的設(shè)計。下面創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,小編來講解下Bitcask模型是什么?
Bitcask模型是什么
1.日志型的數(shù)據(jù)文件
何謂日志型?就是appendonly,所有寫操作只追加而不修改老的數(shù)據(jù),就像我們的各種服務(wù)器日志一樣。在Bitcask模型中,數(shù)據(jù)文件以日志型只增不減的寫入文件,而文件有一定的大小限制,當(dāng)文件大小增加到相應(yīng)的限制時,就會產(chǎn)生一個新的文件,老的文件將只讀不寫。在任意時間點,只有一個文件是可寫的,在Bitcask模型中稱其為activedatafile,而其他的已經(jīng)達(dá)到限制大小的文件,稱為olderdatafile,如下圖:
文件中的數(shù)據(jù)結(jié)構(gòu)非常簡單,是一條一條的數(shù)據(jù)寫入操作,每一條數(shù)據(jù)的結(jié)構(gòu)如下:
上面數(shù)據(jù)項分別為key,value,key的大小,value的大小,時間戳(應(yīng)該是),以及對前面幾項做的crc校驗值。(數(shù)據(jù)刪除操作也不會刪除舊的條目,而是將value設(shè)定為一個特殊的值以作標(biāo)示)
數(shù)據(jù)文件中就是連續(xù)一條條上面格式的數(shù)據(jù),如下圖:
好了,上面是日志型的數(shù)據(jù)文件,如果數(shù)據(jù)文件這樣持續(xù)的存下去,肯定是會無限膨脹的,為了解決個問題,和其他日志型存儲系統(tǒng)一樣Bitcask也有一個定期的merge操作。
merge操作,即定期將所有olderdatafile中的數(shù)據(jù)掃描一遍并生成新的datafile(沒有包括activedatafile是因為它還在不停寫入),這里的merge其實就是將對同一個key的多個操作以只保留新一個的原則進(jìn)行刪除。每次merge后,新生成的數(shù)據(jù)文件就不再有冗余數(shù)據(jù)了。
Bitcask模型是什么
2.基于hash表的索引數(shù)據(jù)
上面講到的是數(shù)據(jù)文件,日志類型的數(shù)據(jù)文件會讓我們的寫入操作非常快(日志型的優(yōu)勢之一是將磁盤當(dāng)作磁帶,進(jìn)行順序讀寫的效率非常高,可以參見這里),而如果在這樣的日志型數(shù)據(jù)上進(jìn)行key值查找,那將是一件非常低效的事情。于是我們需要使用一些方法來提高查找效率。
例如在Bigtable中,使用bloom-filter算法為每一個數(shù)據(jù)文件維護(hù)一個bloom-filter的數(shù)據(jù)塊,以此來判定一個值是否在某一個數(shù)據(jù)文件中。
而在Bitcask模型中,我們使用了另一種方法,使用了一個基于hash表的索引數(shù)據(jù)結(jié)構(gòu)。
在Bitcask模型中,除了存儲在磁盤上的數(shù)據(jù)文件,還有另外一塊數(shù)據(jù),那就是存儲在內(nèi)存中的hash表,hash表的作用是通過key值快速的定位到value的位置。hash表的結(jié)構(gòu)大致如下圖所示:
hash表對應(yīng)的這個結(jié)構(gòu)中包括了三個用于定位數(shù)據(jù)value的信息,分別是文件id號(file_id),value值在文件中的位置(value_pos),value值的大小(value_sz),于是我們通過讀取file_id對應(yīng)文件的value_pos開始的value_sz個字節(jié),就得到了我們需要的value值。整個過程如下圖所示:
由于多了一個hash表的存在,我們的寫操作就需要多更新一塊內(nèi)容,即這個hash表的對應(yīng)關(guān)系。于是一個寫操作就需要進(jìn)行一次順序的磁盤寫入和一次內(nèi)存操作。
3.有用的hintfile
至此,Bitcask模型基本上已經(jīng)講述完成,而這一節(jié)講到的hintfile,則是一個有用的技巧,本人認(rèn)為并不一定是Bitcask模型的必須特性。
從上面我們可以知道,我們稱其為索引的hash表,是存儲在內(nèi)存中的,雖然在各自的實現(xiàn)中可以做一些持久化的保證,但是Bitcask模型中并不對在斷電或重啟后的hash表數(shù)據(jù)不丟失做出保證。
因此,如果我們不做額外的工作,那么我們啟動時重建hash表時,就需要整個掃描一遍我們的數(shù)據(jù)文件,如果數(shù)據(jù)文件很大,這將是一個非常耗時的過程。因此Bitcask模型中包含了一個稱作hintfile的部分,目的在于提高重建hash表的速度。
我們上面講到在olddatafile進(jìn)行merge操作時,會產(chǎn)生新的datafile,而Bitcask模型實際還鼓勵生成一個hintfile,這個hintfile中每一項的數(shù)據(jù)結(jié)構(gòu),與datafile中的數(shù)據(jù)結(jié)構(gòu)非常相似,不同的是他并不存儲具體的value值,而是存儲value的位置(像在hash表中的一樣),其結(jié)構(gòu)如下圖:
這樣,在重建hash表時,就不需要再掃描所有datafile文件,而僅僅需要將hintfile中的數(shù)據(jù)一行行讀取并重建即可。大大提高了利用數(shù)據(jù)文件重啟數(shù)據(jù)庫的速度。
看完上述內(nèi)容,你們對Bitcask模型是什么有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。
本文題目:Bitcask模型是什么-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://m.2m8n56k.cn/article46/dipeeg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、域名注冊、網(wǎng)站收錄、移動網(wǎng)站建設(shè)、App設(shè)計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容