一、哈希表針對沖突的兩種方式優缺點
1.開放散列(open hashing)/ 拉鏈法(針對桶鏈結構)
1)優點:
???? ①對于記錄總數頻繁可變的情況,處理的比較好(也就是避免了動態調整的開銷)
???? ②由于記錄存儲在結點中,而結點是動態分配,不會造成內存的浪費,所以尤其適合那種記錄本身尺寸(size)很大的情況,因為此時指針的開銷可以忽略不計了
???? ③刪除記錄時,比較方便,直接通過指針操作即可
2)缺點:
??? ①存儲的記錄是隨機分布在內存中的,這樣在查詢記錄時,相比結構緊湊的數據類型(比如數組),哈希表的跳轉訪問會帶來額外的時間開銷
??? ②如果所有的 key-value 對是可以提前預知,并之后不會發生變化時(即不允許插入和刪除),可以人為創建一個不會產生沖突的完美哈希函數(perfect hash function),此時封閉散列的性能將遠高于開放散列
??? ③由于使用指針,記錄不容易進行序列化(serialize)操作
2.封閉散列(closed hashing)/ 開放定址法
1)優點:
??? ①記錄更容易進行序列化(serialize)操作
??? ②如果記錄總數可以預知,可以創建完美哈希函數,此時處理數據的效率是非常高的
2)缺點:
??? ①存儲記錄的數目不能超過桶數組的長度,如果超過就需要擴容,而擴容會導致某次操作的時間成本飆升,這在實時或者交互式應用中可能會是一個嚴重的缺陷
??? ②使用探測序列,有可能其計算的時間成本過高,導致哈希表的處理性能降低
??? ③由于記錄是存放在桶數組中的,而桶數組必然存在空槽,所以當記錄本身尺寸(size)很大并且記錄總數規模很大時,空槽占用的空間會導致明顯的內存浪費
??? ④刪除記錄時,比較麻煩。比如需要刪除記錄a,記錄b是在a之后插入桶數組的,但是和記錄a有沖突,是通過探測序列再次跳轉找到的地址,所以如果直接刪除a,a的位置變為空槽,而空槽是查詢記錄失敗的終止條件,這樣會導致記錄b在a的位置重新插入數據前不可見,所以不能直接刪除a,而是設置刪除標記。這就需要額外的空間和操作。
3.哈希表相對于其他數據結構的優缺點
1)優點:
?記錄數據量很大的時候,處理記錄的速度很快,平均操作時間是一個不太大的常數
2)缺點:
??? ①好的哈希函數(good hash function)的計算成本有可能會顯著高于線性表或者搜索樹在查找時的內部循環成本,所以當數據量非常小的時候,哈希表是低效的?????
??? ②哈希表按照 key 對 value 有序枚舉(ordered enumeration, 或者稱有序遍歷)是比較麻煩的(比如:相比于有序搜索樹),需要先取出所有記錄再進行額外的排序
??? ③哈希表處理沖突的機制本身可能就是一個缺陷,攻擊者可以通過精心構造數據,來實現處理沖突的最壞情況。即:每次都出現沖突,甚至每次都出現多次沖突(針對封閉散列的探測),以此來大幅度降低哈希表的性能。這種攻擊也被稱為基于哈希沖突的拒絕服務攻擊(Hashtable collisions as DOS attack)
??? // 好的哈希函數是指產生的哈希值是均勻(uniform)分布的,即可均勻分布在桶數組中
?? // 最壞的情況下插入數據被稱作哈希表的退化(degenerate)
延伸閱讀:
二、load factor
一個評估哈希表的關鍵統計數據,被定義為:load factor = n / k, n 是記錄的數量,k 是桶的數量。
1)隨著負載因子的擴大,出現沖突的概率會越來越大,所以當超過一定閾值時,需要擴容,避免哈希表因為頻繁處理沖突而越來越慢;
2)隨著負載因子的縮小,桶數組中空著的槽就越來越多,所以當小過一定閾值時,需要縮容,避免空槽飆升導致的內存浪費。