一、為什么有關MongoDB采用B樹索引,以及Mysql B+樹做索引
B-樹和B+樹最重要的一個區別就是B+樹只有葉節點存放數據,其余節點用來索引,而B-樹是每個索引節點都會有Data域。
這就決定了B+樹更適合用來存儲外部數據,也就是所謂的磁盤數據。
從Mysql(Inoodb)的角度來看,B+樹是用來充當索引的,一般來說索引非常大,尤其是關系性數據庫這種數據量大的索引能達到億級別,所以為了減少內存的占用,索引也會被存儲在磁盤上。
那么Mysql如何衡量查詢效率呢?磁盤IO次數,B-樹(B類樹)的特定就是每層節點數目非常多,層數很少,目的就是為了就少磁盤IO次數,當查詢數據的時候,較好的情況就是很快找到目標索引,然后讀取數據,使用B+樹就能很好的完成這個目的,但是B-樹的每個節點都有data域(指針),這無疑增大了節點大小,說白了增加了磁盤IO次數(磁盤IO一次讀出的數據量大小是固定的,單個數據變大,每次讀出的就少,IO次數增多,一次IO多耗時?。。鳥+樹除了葉子節點其它節點并不存儲數據,節點小,磁盤IO次數就少。這是優點之一。
另一個優點是什么,B+樹所有的Data域在葉子節點,一般來說都會進行一個優化,就是將所有的葉子節點用指針串起來。這樣遍歷葉子節點就能獲得全部數據,這樣就能進行區間訪問啦。
(數據庫索引采用B+樹的主要原因是 B樹在提高了磁盤IO性能的同時并沒有解決元素遍歷的效率低下的問題。正是為了解決這個問題,B+樹應運而生。B+樹只要遍歷葉子節點就可以實現整棵樹的遍歷。而且在數據庫中基于范圍的查詢是非常頻繁的,而B樹不支持這樣的操作(或者說效率太低))。
至于MongoDB為什么使用B-樹而不是B+樹,可以從它的設計角度來考慮,它并不是傳統的關系性數據庫,而是以Json格式作為存儲的nosql,目的就是高性能,高可用,易擴展。首先它擺脫了關系模型,上面所述的優點2需求就沒那么強烈了,其次Mysql由于使用B+樹,數據都在葉節點上,每次查詢都需要訪問到葉節點,而MongoDB使用B-樹,所有節點都有Data域,只要找到指定索引就可以進行訪問,無疑單次查詢平均快于Mysql(但側面來看Mysql至少平均查詢耗時差不多)。
總體來說,Mysql選用B+樹和MongoDB選用B-樹還是以自己的需求來選擇的。
延伸閱讀:
二、二叉樹和紅黑樹
二叉樹:對于表提供自增整形字段作為建立索引的列,那子元素總是添加去了右側,導致左子樹一直為空,那么查找時就完全退化成了沒加索引那樣了。紅黑樹:紅黑樹解決了二叉樹不平衡的問題。然為什么要費力保持樹的平衡性?是因為樹的查找性能取決于樹的高度,讓樹盡可能平衡,就能降低樹高。但因為其父節點只能存在兩個子節點,那在數據量大的時候,深度也很大。