软件介绍

依据内容判断文章相似度,并过滤重复

此项功能是业界最为领先的技术之一,为新2独创。
在新2V1.6版本中,增加了依据内容来判断文章相似度的功能,并依据相似度判断结果,来过滤内容重复的文章。
新2会在对采集结果文章分词的基础上,对分词结果建立索引,然后依据新的文章的分词结果快速检索到相似文章。新2为此内置了一个独立开发的分词索引检索引擎,性能强劲,内存消耗低,CPU占用极低。

依据内容判断文章相似度,并过滤重复

默认情况下,新2会自动依据采集信息的来源URL,来判断、过滤重复采集的数据。这也是一个成熟的采集软件的必备基础功能之一。但是出于习惯,互联网内容复制、转载的非常多,不同url下的内容,可能会完全相同,或基本相同,此时就无法依据采集来源的Url来判断数据的重复性。
利用新2的分词索引功能,实现内容相似度的判断,可以排除转载的重复内容。 确保结果的唯一性。
此项功能还有一个附属功能:“相似文章列表”的输出。默认的采集结果中,会输出相似文章的ID列表,转换后,可以附属在文章的后面,作为“延伸阅读”使用。
在此功能的基础上,新2新增了对文章摘要的自动生成功能。依据文章的内容,自动智能挑选最合适的摘要描述文字。

新2独有的部分高级功能分项阐述

电话:021-51601615

手机:13916186547

服务时间:周一至周五(09:00-18:00)

邮箱:123jlxie@163.com

友情链接:

Copyright @ 2011 All Rights Reserved 新2网址信息科技有限公司 沪ICP备16048952号-4