北大青鸟java培训:php自动提取文章关键字?

如题所述

现在很多web系统都用到了不少的自然语言处理技术来提高客户体验。
主要技术:1.文章关键字提取.2.相关文章(产品)推荐.最近有不少网友问道,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提.基本分以下几个步骤:一.对文章进行分词:php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。
这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。
选择的分词器需要支持停止词过滤。
二.统计词条词频并且排序:对一篇文章分词后,统计每个词条出现的次数。
然后按照词频降序排序下,你想要的结果在前面几个词中。
前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。
 现在,很多web系统都用到了不少的自然语言处理技术来提高客户体验.主要技术:1.文章关键字提取.2.相关文章(产品)推荐.最近有不少网友问到,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提。
基本分以下几个步骤: 一.对文章进行分词:php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。
这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。
选择的分词器需要支持停止词过滤。
 二.统计词条词频并且排序:对一篇文章分词后,统计每个词条出现的次数,然后按照词频降序排序下,你想要的结果在前面几个词中。
陕西IT培训http://www.kmbdqn.cn/建议前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。

温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网