字符串匹配KMP算法详解

yanfaguanli

浏览: 662232 次

最近访客更多访客>>

u012363178

mqc1989

ssder

lyl_420819

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1719)

社区版块

存档分类

2014-06 ( 63)
2014-05 ( 65)
2014-04 ( 270)
更多存档...

这篇文章主要是解释KMP算法的原理，KMP算法是BF(Brute Force)算法的一种改进算法，什么是BF算法这里不多做解释。

1.KMP算法实现思路：

　　每当一趟匹配过程中出现字符比较不等时，不需要回溯主串上面的指针i，而是利用已经计算出的模式串P在j位置前面的子串P₀...P_j-1的部分匹配值k将模式向右滑j-k个字符，然后继续进行比较。

2.什么是部分匹配值：

　　首先这里要引入"前缀"和"后缀"的概念，

　　（1）前缀：指除了最后一个字符以外，一个字符串的全部头部组合；

　　（2）后缀：指除了第一个字符以外，一个字符串的全部尾部组合；

　　部分匹配值：就是"前缀"和"后缀"的最长的共有元素的长度，如以字符串"ABCDABD"为例：

　　－ "A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

3.下面来看证明过程：

假设主串S的长度为n，模式串P的长度为m，i为主串S当前位置的指针，j为模式串P当前位置的指针：

　　S₀.....S_i-jS_i-j+1S_i-j+2.......S_i-2S_i-1...........S_n

　　　　 P₀P₁P₂...............P_j-2P_j-1　

即：S_i-jS_i-j+1S_i-j+2...S_i-1=P₀P₁P₂...P_j-2P_{j-1 （1-1）}

当S_i!=P_j时i不动，模式串P向右移动多少个字符最正确（即要保证不会漏掉可能的匹配或不会重复不必要的匹配过程）

如果P本身的每一个字符都不相同，那么就可以直接将模式串P向右移动j个字符，道理很简单因为P₀!=P₁!=P₂...!=P_j-1，由上面等式（1-1）可知P₀也不等于S_i-jS_i-j+1S_i-j+2.......S_i-2S_i-1中的任何一个，所以可以直接从P_0开始和S_i进行下一轮比较（指针i不需要回溯，指针j回溯到模式串的起始位置）。

但是如果模式串P存在很多重复的字符如：abcabcabd这种情况时就不能直接将j指针移动到P₀了，例如主串为fffffabcabcabcabcabdfffff时

　　　　　　 fffffabcabcabcabcabdfffff

　　　　　　　　 abcabcabd

　　　　　　　　　　　　　↑ 发现 c != d 即 S_i!= P_j

此时应该怎么移动呢？如果直接将j移动到P₀然后和S_i比较则会出现漏掉匹配的情况即匹配结束后找不到匹配串，正确的做法是将j—>P₅位置(相当于向右滑动3个位置)然后和S_i继续比较，如下所示：

　　　　　　 fffffabcabcabcabcabdfffff

　　　　　　　　 abcabcabd

为什么是移动到P₅呢？这个P₅是怎么来的？这个就是整个算法的关键点，理解了这一点也就理解了KMP算法的本质。

其实这个5就是P_j-1的部分匹配值k，移动字符个数=j-k=8-5=3（j=8,k=5）

根据上面字符串部分匹配值的定义可知当j=8时P₀P₁...P_j-1等于字符串abcabcab，该字符串的前缀和后缀的最长共有元素的长度为5，即abcabca和bcabcab重叠的部分最大长度为5。

那么这是什么原理呢?为什么P₀P₁...P_j-1的部分匹配值就是模式P在位置j失配时重新开始匹配的位置呢？为什么不需要回溯i指针及完全回溯j指针到P₀，却不会出现漏掉匹配或者怎么能确保这种情况下是没有进行不必要的重复匹配呢？

下面去看分析：

当在j位置失配时有 P_j!= S_i且等式 S_i-jS_i-j+1S_i-j+2...S_i-1=P₀P₁P₂...P_j-2P_j-1必定成立

又由字符串部分匹配值的定义可知P₀P₁...P_k-1=P_j-kP_j-k+1...P_j-1,上面的列子中即P₀P₁P₂P₃P₄=P₃P₄P₅P₆P₇(j=8,k=5)

因为：P_j-kP_j-k+1...P_j-1=S_i-kS_i-k+1...S_i-1，所以P₀P₁...P_k-1=S_i-kS_i-k+1...S_i-1

前缀和后缀的最长共有元素的意思就是说当y>=k时不可能存在P_j-_yP_j-_y+1...P_j-1=P₀P₁P₂...P_j-y-1(这里是关键，y就是该字符串的某一个前缀和后缀的长度，k是该字符串的部分匹配值，所以不可能存在一个y>=k使得等式成立)，只有当y<k时等式才会成立；因此可以推断出：

P₀P₁P₂...P_j-y-1和S_i-j+1S_i-j+2S_i-j+3...S_i-1进行匹配时前面j-k次都不会匹配成功，这就是KMP算法中当失配时直接将模式串P向右滑动k个字符的原理。

模式串P的部分匹配值表怎么求，下篇博文里面再详细说明，其实关键点还是前缀和后缀以及部分匹配值的问题，把这个搞懂了就都懂了。

4.实现代码：

 1 public static int kmp(String source,String p){
 2         int[] next = getNext(p);
 3         int i=0,j=0;
 4         while(i<source.length()&&j<p.length()){
 5             if(source.charAt(i)==p.charAt(j)){
 6                 i++;
 7                 j++;
 8             }else if(j==0){
 9                 i++;
10             }else{
11                 j = next[j-1];    
12             }
13         }
14         if(j>=p.length())
15             return i-j;
16         return -1;
17     }
18     
19     /**
20      * Acquire pattern string p's partial match table
21      */
22     public static int[] getNext(String p){
23         int[] next = new int[p.length()];
24         int i=1,j=0;
25         next[0] = 0;
26         while(i<p.length()-1){
27             while(j>0&&p.charAt(i)!=p.charAt(j))
28                 j = next[j-1];
29             if(p.charAt(i)==p.charAt(j))
30                 j++;
31             next[i++] = j;
32         }
33         return next;
34     }