一、哈希表針對沖突的兩種方式優(yōu)缺點
1.開放散列(open hashing)/ 拉鏈法(針對桶鏈結(jié)構(gòu))
1)優(yōu)點:
???? ①對于記錄總數(shù)頻繁可變的情況,處理的比較好(也就是避免了動態(tài)調(diào)整的開銷)
???? ②由于記錄存儲在結(jié)點中,而結(jié)點是動態(tài)分配,不會造成內(nèi)存的浪費,所以尤其適合那種記錄本身尺寸(size)很大的情況,因為此時指針的開銷可以忽略不計了
???? ③刪除記錄時,比較方便,直接通過指針操作即可
2)缺點:
??? ①存儲的記錄是隨機分布在內(nèi)存中的,這樣在查詢記錄時,相比結(jié)構(gòu)緊湊的數(shù)據(jù)類型(比如數(shù)組),哈希表的跳轉(zhuǎn)訪問會帶來額外的時間開銷
??? ②如果所有的 key-value 對是可以提前預(yù)知,并之后不會發(fā)生變化時(即不允許插入和刪除),可以人為創(chuàng)建一個不會產(chǎn)生沖突的完美哈希函數(shù)(perfect hash function),此時封閉散列的性能將遠(yuǎn)高于開放散列
??? ③由于使用指針,記錄不容易進(jìn)行序列化(serialize)操作
2.封閉散列(closed hashing)/ 開放定址法
1)優(yōu)點:
??? ①記錄更容易進(jìn)行序列化(serialize)操作
??? ②如果記錄總數(shù)可以預(yù)知,可以創(chuàng)建完美哈希函數(shù),此時處理數(shù)據(jù)的效率是非常高的
2)缺點:
??? ①存儲記錄的數(shù)目不能超過桶數(shù)組的長度,如果超過就需要擴容,而擴容會導(dǎo)致某次操作的時間成本飆升,這在實時或者交互式應(yīng)用中可能會是一個嚴(yán)重的缺陷
??? ②使用探測序列,有可能其計算的時間成本過高,導(dǎo)致哈希表的處理性能降低
??? ③由于記錄是存放在桶數(shù)組中的,而桶數(shù)組必然存在空槽,所以當(dāng)記錄本身尺寸(size)很大并且記錄總數(shù)規(guī)模很大時,空槽占用的空間會導(dǎo)致明顯的內(nèi)存浪費
??? ④刪除記錄時,比較麻煩。比如需要刪除記錄a,記錄b是在a之后插入桶數(shù)組的,但是和記錄a有沖突,是通過探測序列再次跳轉(zhuǎn)找到的地址,所以如果直接刪除a,a的位置變?yōu)榭詹?,而空槽是查詢記錄失敗的終止條件,這樣會導(dǎo)致記錄b在a的位置重新插入數(shù)據(jù)前不可見,所以不能直接刪除a,而是設(shè)置刪除標(biāo)記。這就需要額外的空間和操作。
3.哈希表相對于其他數(shù)據(jù)結(jié)構(gòu)的優(yōu)缺點
1)優(yōu)點:
?記錄數(shù)據(jù)量很大的時候,處理記錄的速度很快,平均操作時間是一個不太大的常數(shù)
2)缺點:
??? ①好的哈希函數(shù)(good hash function)的計算成本有可能會顯著高于線性表或者搜索樹在查找時的內(nèi)部循環(huán)成本,所以當(dāng)數(shù)據(jù)量非常小的時候,哈希表是低效的?????
??? ②哈希表按照 key 對 value 有序枚舉(ordered enumeration, 或者稱有序遍歷)是比較麻煩的(比如:相比于有序搜索樹),需要先取出所有記錄再進(jìn)行額外的排序
??? ③哈希表處理沖突的機制本身可能就是一個缺陷,攻擊者可以通過精心構(gòu)造數(shù)據(jù),來實現(xiàn)處理沖突的最壞情況。即:每次都出現(xiàn)沖突,甚至每次都出現(xiàn)多次沖突(針對封閉散列的探測),以此來大幅度降低哈希表的性能。這種攻擊也被稱為基于哈希沖突的拒絕服務(wù)攻擊(Hashtable collisions as DOS attack)
??? // 好的哈希函數(shù)是指產(chǎn)生的哈希值是均勻(uniform)分布的,即可均勻分布在桶數(shù)組中
?? // 最壞的情況下插入數(shù)據(jù)被稱作哈希表的退化(degenerate)
延伸閱讀:
二、load factor
一個評估哈希表的關(guān)鍵統(tǒng)計數(shù)據(jù),被定義為:load factor = n / k, n 是記錄的數(shù)量,k 是桶的數(shù)量。
1)隨著負(fù)載因子的擴大,出現(xiàn)沖突的概率會越來越大,所以當(dāng)超過一定閾值時,需要擴容,避免哈希表因為頻繁處理沖突而越來越慢;
2)隨著負(fù)載因子的縮小,桶數(shù)組中空著的槽就越來越多,所以當(dāng)小過一定閾值時,需要縮容,避免空槽飆升導(dǎo)致的內(nèi)存浪費。