一、KMP算法
KMP 是一個解決模式串在文本串是否出現過,如果出現過,較早出現的位置的經典算法。
Knuth-Morris-Pratt 字符串查找算法,簡稱為 “KMP 算法”,常用于在一個文本串 S 內查找一個模式串 P 的出現位置,這個算法由Donald Knuth、Vaughan Pratt、James H. Morris 三人于 1977 年聯合發表,故取這 3 人的姓氏命名此算法。
KMP 方法算法就利用之前判斷過的信息,通過一個 next 數組,保存模式串中前后最長公共子序列的長度,每次回溯時,通過 next 數組找到,前面匹配過的位置,省去了大量的計算時間。
KMP算法可以在時間復雜度為O(m+n)的時間數量級上完成模式匹配操作。
其不同點在于,在匹配失敗之后,不需要回溯i指針,而是利用已經“部分匹配”的結果,將模式串T向右滑動盡可能遠的距離。KMP 算法用了一種聰明的辦法,當發現字符串不匹配的時候,并不會從頭開始比較,因為之前已經匹配成功的字符可以給我們提供一些有用的信息,利用這個信息我們可以將子串移動到某個位置,并從這個位置直接開始比較,它的時間復雜度降到2個字符串的長度之和。
延伸閱讀:
二、字符串的前綴和后綴
首先我們需要知道字符串的前綴和后綴:
對于字符串 ababc 來說,它的前綴有 [a,ab,aba,abab],也就是以字符串名列前茅個字符作為開頭,同時不包括最后一個字符的所有子串,同理它的后綴有 [c,bc,abc,babc],也就是以字符串最后一個字符作為結尾,同時不包括名列前茅個字符的所有字串。
了解了這個,我們再來說什么是字符串的最長公共前后綴,說白了,也就是前綴和后綴這 2 個集合中的相同部分,同時取最長的那個,就是這個字符串的最長公共前后綴。顯然,在這個例子中,ababc 是沒有公共前后綴的。但是對于 abab,它的前綴和后綴分別是 [a,ab,aba] 和 [b,ab,bab],那么它的最長公共前后綴就是 ab。