Python简单易用的字符串模糊匹配工具FuzzyWuzzy

发布时间 2023-07-27 09:57:07作者: sinferwu

 

FuzzyWuzzy库:一个非常好用的 Python 魔法库 - 知乎 (zhihu.com)

FuzzyWuzzy:Python中模糊匹配的魔法库-腾讯云开发者社区-腾讯云 (tencent.com)

 

TheFuzz

Fuzzy string matching like a boss. It uses Levenshtein Distance to calculate the differences between sequences in a simple-to-use package.

 

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法,计算两个序列之间的差异。

Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

 

fuzz这几个ratio()函数(方法)最后得到的结果都是数字,如果需要获得匹配度最高的字符串结果,还需要依旧自己的数据类型选择不同的函数,然后再进行结果提取,如果但看文本数据的匹配程度使用这种方式是可以量化的,但是对于我们要提取匹配的结果来说就不是很方便了,因此就有了process模块。

 

seatgeek/thefuzz: Fuzzy String Matching in Python (github.com)

 

 

seatgeek/fuzzywuzzy: Fuzzy String Matching in Python (github.com)