汽车

中文分词和TF

2019-04-11 06:20:03来源:励志吧0次阅读

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

TF-IDF(term frequency inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

使用TF*IDF可以计算某个关键字在某篇文章里面的重要性防爆窗
,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

常见中文分词开源项目:

SCWS:

Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒移动洗车机
,支持PHP4和PHP 5。

ICTCLAS:

这可是早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了名,在届国际中文处理研究机构SigHan组织的评测中都获得了多项名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB座套
,各种词典数据压缩后不到TCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。

HTTPCWS:

HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用 ICTCLAS 3.0 2009共享版中文分词算法 的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。

庖丁解牛分词:

Java 提供lucence 接口,仅支持Java语言。

CC-CEDICT:

一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

基于VB/ASP的中文分词

上面的开源项目没有给予VB和ASP的,这里提供一个简单的VB/ASP类,加上词典之后就可以进行分词了,注意这个类只供演示,其分词速度极慢不适合实际应用。

类名为:WordSplit

Private rootTable As String

Private Function GetCount(ByVal s As String) As Long

GetCount = InStr(1, rootTable, s)

End Function

Public Function WordCount(ByVal strString As String, ByVal strGetWord As String) As Long

Dim k

k = Split(strString, strGetWord)

WordCount = UBound(k)

End Function

' 分析输入的字符串,将其切割成一个个的词语。

' param name= s 待切割的字符串 /param

' returns 所切割得到的中文词语数组 /returns

Public Function ParseChinese(ByVal s As String, ByVal separator As String) As String

Dim lngLength As Long

Dim strTemp As String

Dim ArrayList As String

Dim i, j

ArrayList =

lngLength = Len(s)

i = 1

While i lngLength

strTemp = Mid(s, i, 1)

If GetCount(strTemp) 1 Then

j = 2

While i + j lngLength + 1 And GetCount(Mid(s, i, j)) 0

j = j + 1

Wend

strTemp = Mid(s, i, j - 1)

i = i + j - 2

End If

i = i + 1

'WordAdd (temp)

ArrayList = ArrayList + strTemp + separator

Wend

ParseChinese = ArrayList

End Function

Private Sub Class_Initialize()

Dim fso, templetfile, txtfile

templetfile = th + \t

Set fso = CreateObject( leSystemObject )

Set txtfile = enTextFile(templetfile, 1)

rootTable = adAll

ose

End Sub

调用示例:

strInput = 中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

Dim strWordSplit As New WordSplit

strSubject = rseChinese(strInput, | )

arrSubject = Split(strSubject, | )

你好,看了你的文章,我很想了解一下关于文本语义提取方面的一些思路,不知道您在这方面有没有研究,期待您的建议heavenpoppy 于 10:45:37 回复语义提取跟分词是两码事,这边的分词系统是基于词频的,只是权重分配调节,不同权重分配导致不同的结果,语义提取涉及语义络的问题,还是看看语义络的东西,现在很多做本体之类的都有这方面的

2009/6/23 23:36:41 支持(10)反对(6) 回复

分词技术也算得上半个人工智能,学术界一直以来都在不断进行相关研究。相对而言,英文分词的性能和准确度还是比中文要高得多,这方面我们还有很多工作要做。xnhs 于 8:59:11 回复英文单词本来就是分开呀。

2009/6/24 17:53:59 支持(11)反对(8) 回复

上面的有人说看不懂,咱来个解释吧。

将了某软件,上了某站。站上有一句话。

十八口交换机。

看到的是

十八嘴交换机。

十八口交换机,变成了十八嘴交换机。

看懂了吧。

2009/6/24 12:49:28 支持(9)反对(9) 回复

(*)

验证(*)

分享到: