伟成助优

当前位置: 网站优化首页 > 网站如何优化 > TF-idf是什么

TF-idf是什么

所属栏目:网站如何优化 发布时间:2022-01-22 11:51 发布者:网站优化顾问 文章来源:伟成助优

TF-idf是什么
 
TF和IDF是两个不同的概念,tf通过一个文档内词项的重复次数来表示这个词项在所有词项中的重要度。
 
而另一个idf则是一个词在所有文档中出现次数表示这个词项的重要程度,出现的越多也就是常用词,由于主题性不强重复越多重要度越低。
 
TF-IDF是一种统计方法,
 
用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
 
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
 
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
 
这个百科的解释加上我自己的描述,不知道大家是否很清楚了?
 
总之TF-IDF是通过一定统计意义来表示词项的重要度的。seo为何很关注他呢,因为他可能影响检索词和搜索词的相关性,进而影响排名。
 
第二点,TF-IDF算法是解决什么的,能起到多大的作用?
 
其实我们既然研究了这个算法,就不能不去了解这个算法是解决什么的,其实我刚才也说了。
 
它主要解决的就是一个文档中词项权重的问题(很多人都知道这个算法影响排名,却不知道这个算法为何能影响排名的)。
 
那么我们可以再问下,影响词项权重的因素有多少呢?
 
目测大约也就5、6个吧(但是我们都知道几个呢?),TF-IDF在词项中占据什么地位呢?
 
重要度或许可以排在第三位、第四位的样子(也不是最主要的因素嘛)。
 
而且我一直说的,如果你真的要研究算法,就不仅要研究算法是什么,也要考虑下算法的特征和算法特征的处理,因为他们都影响最终的结果,比如这个TF-IDF的算法。
 
第三点,TF-IDF的算法特征是什么
 
这是人们很少关注的一点,算法的特征和算法特征的处理之所以重要,是因为凡是算法都会控制因素的影响,或者说进行平滑性处理。
 
这个也不例外,很多人没有注意到这个影响,或者对这个有了过激的思想,那么就会对很多的seo细节耿耿于怀,却不得其解。
 
想学会这点,我觉得那个谷歌的黑板报很多讲算法的时候都说到了,很多实际应用模型和理论模型大多都有一定的差距,这就是现实。
 
第四点,TF-IDF算法再向上,问题的来源是什么,处于检索的什么地位?
 
其实,我一直推荐的是跳出算法禁锢,放在更长远的看待这个问题,比如TF-IDF要解决的问题的根源是什么。
 
这个问题可以在检索原理中处于什么样的一个地位,会不会随着时间而改变……。
 
只要你向上思考,慢慢更多的seo浮出来,那个神马的TF-IDF也可以慢慢地放弃了。
 
第五点,算法之外
 
TF-IDF是用来研究词项权重的,早期用来进行相关性判断,但是也并不一定一成不变的,比如BM25算法在很多方面都比他更加具有优势。
 
但是随着检索技术的进步,比如语义分析等技术的发展,这个算法也会被渐渐限制了起作用的范围和影响力。
 
这也不能不说研究算法的悲剧。而且,我一直说的是,我们完全可以跳出这个范畴。
 
从问题本身出发去思考问题,或者更深层的站在检索的角度观察这个问题的意义,观察解决这个问题可行性,观察结果和我们所想的差距……嘎嘎,不能再深入……
点击展开全部↓↓↓↓
TF-idf是什么网址: http://www.fsdpjq.com/wzyh/739.html

网站如何优化相关推荐

网站如何优化好

网站优化需要知道的基础知识

网站外链怎么做

企业网站优化关键词扩展技巧

网站排名优化

影响网站排名的因素有哪些

网站seo诊断方案

企业网站seo工作

seo每天做什么

文章seo的优化技巧

SEO如何进行关键词分析

搜索引擎的高级搜索指令有哪些

  • 网站如何优化相关热门搜索