一、堆(heap)結(jié)構(gòu)比較于B樹的優(yōu)缺點
堆(heap)結(jié)構(gòu)比較于B樹的優(yōu)缺點是堆只能訪問一個元素,也就是堆頂,其他的元素在堆里是無意義的。優(yōu)點也是這個,既然用堆了,那就是想訪問堆頂,查詢復雜度O(1)。B樹每個節(jié)點都有意義,但訪問特定的元素要進行中序遍歷,肯定比堆慢。
堆
堆(heap)組織表數(shù)據(jù)行在堆中存儲,沒有任何特定順序,向一個全新的沒有做過更新和刪除的堆中插入一行時候,總是 append 到堆表文件的最后一頁當中。因為不用考慮排序,所以插入速度會比較快。
但是要查找符合某個條件的記錄,就必須得讀取全部的記錄以便篩選。而這個時候為了加快查詢速度,索引就出現(xiàn)了,索引是針對少量特定字段的值拿出來進行排序存儲,存儲索引 key 以及數(shù)據(jù)行在堆表上面的絕對位置(頁號,頁內(nèi)偏移),而因為索引是有序的,所以就會很容易通過索引查詢到具體的記錄位置(普遍使用二分查找法),然后再根據(jù)記錄位置直接從表中讀取該記錄。同時因為索引的字段較少,所以索引通常會比其基表小得多。
從上面通過索引訪問表記錄的方式可以看出,當要訪問的數(shù)據(jù)量較大時,通過每一條記錄的位置去訪問原始記錄,每一條符合條件的記錄都需要經(jīng)過索引訪問后再訪問基表這樣一個復雜的過程,這會花費很多時間。同樣,如果不經(jīng)過索引而直接查詢表,也可能因為表字段太多,記錄較大的情況下把全部的數(shù)據(jù)讀取進來,這也會花費很多時間。
那怎么辦呢?這個時候就會想到,如果表中數(shù)據(jù)本身就是有序的,這樣查詢表的時候就可以快速的找到符合條件的記錄位置,而很容易判斷符合條件記錄的位置,這樣只需要讀取一小部分數(shù)據(jù)出來就可以了,不需要全表記錄都讀取出來進行判斷。索引組織表就這樣產(chǎn)生了,當然索引表中插入,更新的時候可能會因為需要排序而將數(shù)據(jù)重組,這時候數(shù)據(jù)插入或更新速度會比堆組織表慢一些。如果堆組織表上有索引,那么對堆組織表的插入也會因為要修改索引而變慢。
由于堆表的索引只存儲索引 key 以及數(shù)據(jù)行在堆表上面的絕對位置(頁號,頁內(nèi)偏移),如果這行記錄發(fā)生了更新,并且不能原地更新,需要進行遷移,那么就會發(fā)生一個情況,堆表所有索引都需要修改,指向新的行位置。而索引組織表就不需要這個開銷,更新只會新插入變化了的索引 key,不變的索引 key 不需要新插入,只有當主鍵發(fā)生更改才需要對應修改其他二級索引,通常主鍵也不會更新,所以這也就是索引組織表更新效率更高的由來。
但一般使用堆表的數(shù)據(jù)庫都不會直接這么更新,代價太大了。而是會在數(shù)據(jù)頁預留一些空間,當遇見不能原地更新的記錄時,就會在這個頁中新插入一條更新后的記錄,然后在這個頁中做一個指針把老記錄指向新紀錄,這樣就不用更新索引信息了。當然,如果你這個頁中沒有空閑空間可以插入新的記錄,那么還是需要做行遷移,然后更新所有索引。
延伸閱讀:
二、堆表和索引組織表的比較
堆表的特點就是索引和數(shù)據(jù)分開,所有索引都是二級索引,或叫輔助索引。所以主鍵索引也是二級索引,沒有完整記錄,區(qū)別只有少數(shù)或非少數(shù)。索引中存儲的是 key 與指針,指針指向具體數(shù)據(jù)記錄。當然,查找 key 的算法都是一樣的,使用二分查找,也叫書簽查找。
跟索引組織表相比,堆表有什么好處呢?其實主要就是通過主鍵或二級索引查詢,開銷是一樣的。都是通過先找到key,然后定位到數(shù)據(jù)。而索引組織表,由于二級索引是指向主鍵,所以查詢二級索引需要先定位到 key,然后拿到主鍵 id,還要根據(jù)主鍵 id 再次通過二分查找定位到真正的數(shù)據(jù)頁。當然,索引組織表通過主鍵查詢開銷與堆是一樣的。從索引組織表的工作方式可以看出,索引組織表必須要有主鍵,如果非顯式創(chuàng)建,InnoDB 存儲引擎會默認創(chuàng)建一個 ROWID 當做主鍵;而堆表則無強制要求。