博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
weighing scheme
阅读量:4320 次
发布时间:2019-06-06

本文共 1365 字,大约阅读时间需要 4 分钟。

选以简单的介绍开始,因为以后的文章可能会提到这里面的一些概念,事先写好,也算练练手。 

传统重量一个单词大小的方法是测量它在文章中的重要性以及考虑它在文章的特征。

(1)TF-IDF(term frequency,inverse document frequency)

Salton等人[1]提出了TF-IDF,这种方法用来衡量一个术语在整个语料库中的权重。术语在语料库中的重要性会随着它在一个文本中出现的频率的增加而增大,但是与它在整个语料库中出现频率成反比。

在衡量一个术语的权重时,如果仅凭术语在文章中出现的次数的话,显然文章长度大的中的术语会比文章长度小的相同术语权重会高,所以我们应该做一些归一化,即作TF处理。极端一点如果一个术语只在一篇文章中出现过,那这个术语就可以唯一确定这篇文章,这个术语的权重很高,而对于出现在多篇文章中的术语则相对难确定某一文章。因此,应增加前者的权重并减少后者的权重,即作IDF处理。

TFIDFi,j = ( Ni,j / N*,j ) * log( D / Di ) 

其中Ni,j 是单词i出现在文章j中的次数,N*,j 是文章j中总的单词数,D是文章总数目,Di 是出现单词i的文章数。

(2)TF-PDF(term frequency,proportional document frequency)

Bun等人[2]提出了一个不同的术语权重衡量机制,TF-PDF。Bun 越是出现在多个文章中的单词被认为是热门主题单词的可能性越大,但是传统的TF-IDF则更加看重出现在较少文章中的单词。有如下公式:

    

其中Wj代表单词j的权重,Fjc在渠道c中单词j的频率,njc为渠道c中出现单词j的文章的个数,Nc为渠道c中文章的总数目,k为中单词的总数,D为渠道的个数。(我们认为文章是从多个渠道中得得来的,如不同的新闻网站渠道)

此方案由三部分组成。一是单词的权重是由单词在每个渠道中权重的积累。第二个是下面公式中的规范化的Fj,因为不同的渠道会有不同大小的词汇集,具体较多文章的渠道中的单词会有较大的出现频率。三是,公式中的exp(njc/Nc),即(PDF),这意味着如果一个单词出现在的文章多,那么它就更有价值,权重越大。

[1]Salton G., Buckley C. "Term-Weighting Approaches in Automatic Text Retrieval," Information Processing and Management, Vol 4, No. 5, pp.513- 523,1989.

[2]Khoo Khyou Bun,Ishizuka, M., "Topic extraction from news archive using TF*PDF algorithm," Proceedings of the Third International Conference on Web Information Systems Engineering,2002,pp.73 - 82 ,2002.

转载于:https://www.cnblogs.com/haoqingchuan/archive/2012/02/12/2348346.html

你可能感兴趣的文章
image的srcset属性
查看>>
vs + Qt 环境下配置QCustomPlot编译不通过
查看>>
[C#-SQLite] SQLite一些奇怪的问题
查看>>
Map的遍历
查看>>
hibernate中cache二级缓存问题
查看>>
My third day of OpenCV
查看>>
Java并发计数器探秘
查看>>
特色博客
查看>>
[Python] RuntimeError: Invalid DISPLAY variable
查看>>
Android的View和ViewGroup分析
查看>>
淘宝爆款详情页制作的几个方法(理论)
查看>>
c语言单链表实现
查看>>
php无限极分类
查看>>
08——别让常逃离析构函数
查看>>
echarts.js中的图表大小自适应
查看>>
Linux总结
查看>>
Delphi的FIFO实现
查看>>
springMVC入门(六)------json交互与RESTFul风格支持
查看>>
使用phpMyAdmin管理网站数据库(创建、导入、导出…)
查看>>
[NOI2018]屠龙勇士 excrt
查看>>