Bitcask模型是什么-創(chuàng)新互聯(lián)

今天就跟大家聊聊有關(guān)Bitcask模型是什么，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

專注于為中小企業(yè)提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)高州免費做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動了1000+企業(yè)的穩(wěn)健成長，幫助中小企業(yè)通過網(wǎng)站建設(shè)實現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

Bitcask是一個日志型的基于hash表結(jié)構(gòu)和key-value存儲模型，但是其簡潔有效的設(shè)計。下面創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司，小編來講解下Bitcask模型是什么?

Bitcask模型是什么

1.日志型的數(shù)據(jù)文件

何謂日志型?就是appendonly，所有寫操作只追加而不修改老的數(shù)據(jù)，就像我們的各種服務(wù)器日志一樣。在Bitcask模型中，數(shù)據(jù)文件以日志型只增不減的寫入文件，而文件有一定的大小限制，當(dāng)文件大小增加到相應(yīng)的限制時，就會產(chǎn)生一個新的文件，老的文件將只讀不寫。在任意時間點，只有一個文件是可寫的，在Bitcask模型中稱其為activedatafile，而其他的已經(jīng)達(dá)到限制大小的文件，稱為olderdatafile，如下圖：

文件中的數(shù)據(jù)結(jié)構(gòu)非常簡單，是一條一條的數(shù)據(jù)寫入操作，每一條數(shù)據(jù)的結(jié)構(gòu)如下：

上面數(shù)據(jù)項分別為key，value，key的大小，value的大小，時間戳(應(yīng)該是)，以及對前面幾項做的crc校驗值。(數(shù)據(jù)刪除操作也不會刪除舊的條目，而是將value設(shè)定為一個特殊的值以作標(biāo)示)

數(shù)據(jù)文件中就是連續(xù)一條條上面格式的數(shù)據(jù)，如下圖：

好了，上面是日志型的數(shù)據(jù)文件，如果數(shù)據(jù)文件這樣持續(xù)的存下去，肯定是會無限膨脹的，為了解決個問題，和其他日志型存儲系統(tǒng)一樣Bitcask也有一個定期的merge操作。

merge操作，即定期將所有olderdatafile中的數(shù)據(jù)掃描一遍并生成新的datafile(沒有包括activedatafile是因為它還在不停寫入)，這里的merge其實就是將對同一個key的多個操作以只保留新一個的原則進(jìn)行刪除。每次merge后，新生成的數(shù)據(jù)文件就不再有冗余數(shù)據(jù)了。

Bitcask模型是什么

2.基于hash表的索引數(shù)據(jù)

上面講到的是數(shù)據(jù)文件，日志類型的數(shù)據(jù)文件會讓我們的寫入操作非常快(日志型的優(yōu)勢之一是將磁盤當(dāng)作磁帶，進(jìn)行順序讀寫的效率非常高，可以參見這里)，而如果在這樣的日志型數(shù)據(jù)上進(jìn)行key值查找，那將是一件非常低效的事情。于是我們需要使用一些方法來提高查找效率。

例如在Bigtable中，使用bloom-filter算法為每一個數(shù)據(jù)文件維護(hù)一個bloom-filter的數(shù)據(jù)塊，以此來判定一個值是否在某一個數(shù)據(jù)文件中。

而在Bitcask模型中，我們使用了另一種方法，使用了一個基于hash表的索引數(shù)據(jù)結(jié)構(gòu)。

在Bitcask模型中，除了存儲在磁盤上的數(shù)據(jù)文件，還有另外一塊數(shù)據(jù)，那就是存儲在內(nèi)存中的hash表，hash表的作用是通過key值快速的定位到value的位置。hash表的結(jié)構(gòu)大致如下圖所示：

hash表對應(yīng)的這個結(jié)構(gòu)中包括了三個用于定位數(shù)據(jù)value的信息，分別是文件id號(file_id)，value值在文件中的位置(value_pos),value值的大小(value_sz)，于是我們通過讀取file_id對應(yīng)文件的value_pos開始的value_sz個字節(jié)，就得到了我們需要的value值。整個過程如下圖所示：

由于多了一個hash表的存在，我們的寫操作就需要多更新一塊內(nèi)容，即這個hash表的對應(yīng)關(guān)系。于是一個寫操作就需要進(jìn)行一次順序的磁盤寫入和一次內(nèi)存操作。

3.有用的hintfile

至此，Bitcask模型基本上已經(jīng)講述完成，而這一節(jié)講到的hintfile，則是一個有用的技巧，本人認(rèn)為并不一定是Bitcask模型的必須特性。

從上面我們可以知道，我們稱其為索引的hash表，是存儲在內(nèi)存中的，雖然在各自的實現(xiàn)中可以做一些持久化的保證，但是Bitcask模型中并不對在斷電或重啟后的hash表數(shù)據(jù)不丟失做出保證。

因此，如果我們不做額外的工作，那么我們啟動時重建hash表時，就需要整個掃描一遍我們的數(shù)據(jù)文件，如果數(shù)據(jù)文件很大，這將是一個非常耗時的過程。因此Bitcask模型中包含了一個稱作hintfile的部分，目的在于提高重建hash表的速度。

我們上面講到在olddatafile進(jìn)行merge操作時，會產(chǎn)生新的datafile，而Bitcask模型實際還鼓勵生成一個hintfile，這個hintfile中每一項的數(shù)據(jù)結(jié)構(gòu)，與datafile中的數(shù)據(jù)結(jié)構(gòu)非常相似，不同的是他并不存儲具體的value值，而是存儲value的位置(像在hash表中的一樣)，其結(jié)構(gòu)如下圖：

這樣，在重建hash表時，就不需要再掃描所有datafile文件，而僅僅需要將hintfile中的數(shù)據(jù)一行行讀取并重建即可。大大提高了利用數(shù)據(jù)文件重啟數(shù)據(jù)庫的速度。

看完上述內(nèi)容，你們對Bitcask模型是什么有進(jìn)一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝大家的支持。

本文題目：Bitcask模型是什么-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明：http://m.2m8n56k.cn/article46/dipeeg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、域名注冊、網(wǎng)站收錄、移動網(wǎng)站建設(shè)、App設(shè)計

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

中文字幕第五页-中文字幕第页-中文字幕韩国-中文字幕最新-国产尤物二区三区在线观看-国产尤物福利视频一区二区

Bitcask模型是什么-創(chuàng)新互聯(lián)