一、為什么B+樹索引比順序索引文件效率要高
B+樹進化具有的優(yōu)點
索引節(jié)點沒有數(shù)據(jù),比較小,能夠完全加載到內(nèi)存中而且葉子節(jié)點之間都是鏈表的結(jié)構(gòu),所以B+Tree也是可以支持范圍查詢的,而B樹每個節(jié)點key和data在一起,則無法區(qū)間查找B+樹中因為數(shù)據(jù)都在葉子節(jié)點,每次查詢的時間復(fù)雜度是穩(wěn)定的,因此穩(wěn)定性保證了B+樹的檢索過程
我們再來看下B+樹的檢索過程
從B+樹的根開始,逐層找到葉子節(jié)點。找到葉子節(jié)點為對應(yīng)的數(shù)據(jù)頁,將數(shù)據(jù)葉加載到內(nèi)存中,通過頁目錄的槽采用二分查找的方式先找到一個粗略的記錄分組。在分組中通過鏈表遍歷的方式進行記錄的查找。B+樹頁節(jié)點結(jié)構(gòu)
將所有的記錄分成幾個組, 每組會存儲多條記錄,頁目錄存儲的是槽(slot),槽相當于分組記錄的索引,每個槽指針指向了不同組的最后一個記錄我們通過槽定位到組,再查看組中的記錄頁的主要作用是存儲記錄,在頁中記錄以單鏈表的形式進行存儲。
單鏈表優(yōu)點是插入、刪除方便,缺點是檢索效率不高,最壞的情況要遍歷鏈表所有的節(jié)點。因此頁目錄中提供了二分查找的方式,來提高記錄的檢索效率。所以B+樹索引比順序索引文件效率要高。
延伸閱讀:
二、為什么要從AVL樹變成B樹
因為內(nèi)存的易失性。一般情況下,我們都會選擇將 user 表中的數(shù)據(jù)和索引存儲在磁盤這種外圍設(shè)備中。
但是和內(nèi)存相比,從磁盤中讀取數(shù)據(jù)的速度會慢上百倍千倍甚至萬倍,所以,我們應(yīng)當盡量減少從磁盤中讀取數(shù)據(jù)的次數(shù)。
另外,從磁盤中讀取數(shù)據(jù)時,都是按照磁盤塊來讀取的,并不是一條一條的讀。
如果我們能把盡量多的數(shù)據(jù)放進磁盤塊中,那一次磁盤讀取操作就會讀取更多數(shù)據(jù),那我們查找數(shù)據(jù)的時間也會大幅度降低。
如果我們用樹這種數(shù)據(jù)結(jié)構(gòu)作為索引的數(shù)據(jù)結(jié)構(gòu),那我們每查找一次數(shù)據(jù)就需要從磁盤中讀取一個節(jié)點,也就是我們說的一個磁盤塊。
我們都知道平衡二叉樹可是每個節(jié)點只存儲一個鍵值和數(shù)據(jù)的。那說明什么?說明每個磁盤塊僅僅存儲一個鍵值和數(shù)據(jù)!那如果我們要存儲海量的數(shù)據(jù)呢?
可以想象到二叉樹的節(jié)點將會非常多,高度也會極其高,我們查找數(shù)據(jù)時也會進行很多次磁盤 IO,我們查找數(shù)據(jù)的效率將會極低