搜索
查看: 164|回复: 0

菜鸟分享:织梦采集侠打造织梦全能采集插件 采集如此简单

[复制链接]
发表于 2018-6-1 11:17:22 | 显示全部楼层 |阅读模式

    织梦CMS是广大站长所熟知优秀CMS建站程序,是同类产品中用户最多,口碑最好,功能最强的开源CMS程序,织梦管理员之家专注与织梦CMS方面的研究,所开发的织梦采集侠能够很好的兼容织梦CMS各大版本。
随着织梦采集侠V2.2版的发布,插件的功能也越趋完善,加入了全新的RSS采集和页面监控采集功能,这两款新功能弥补了根据关键词采集的不足,只需要设置监控页和文章URL规则,便能够定向采集某个站点,某个栏目里面的内容,正文部分再由织梦采集侠正文识别系统来识别提取,无需进行过多的设置便能轻松采集到需要的内容。
编写采集规则进行采集的时代,也会即将成为过去,虽然现在织梦采集侠的定向采集功能还有很多不足,未能很好的采集到出处、作者和发布时间等文章相关信息。但对于文章标题、正文部分,算法基本能够正确识别提取,正确率极高。
我们目前着手研究的新算法,将会对多个页面进行对比精确查找出标题、正文部分,以及加入微调功能,手工辅助精确定位获取标题与正文。开发完成后,将会在下一版本中加入。
采集的用途很广泛,比如行业网站,需要采集一些行业相关的新闻;设计师制作网站,需要采集些内容进行填充,提高效率,可以方便直观的看到页面效果以及进行调试;个人站长所做的网站栏目较多,或许也会用上采集进行内容填充等等。
织梦采集侠提供多种采集方式,打造全能采集插件。
(1)根据关键词采集
根据关键词采集很够很方便的采集到关键词相关的内容,插件有多套采集引擎规则可以跟换,能够采集不同搜索引擎里面的搜索结果。
优点:简单方便,输入关键词即可采集
缺点:受搜索结果影响,或许会采集到一些多余或者不太相关的内容
(2)RSS采集
通过网站提供的RSS地址,采集RSS提供的文章URL页面内容
优点:简单方便,定向采集,输入RSS地址即可采集
缺点:无明显缺点,所采内容均是RSS所提供的URL地址
(3)页面监控采集
通过设置监控页面,以及文章URL规则,即可采集相关内容
优点:简单方便,定向采集,设置监控页面,文章URL即可采集
缺点:收监控页面所限,只采集监控页面包含的文章URL
织梦采集侠RSS采集/页面监控采集使用方法:http://www.dedeadmin.com/?p=2109
织梦采集侠除了能够很方便的采集回来数据,还能够对采集回来的内容进行伪原创和SEO优化处理,提高收录率已经流量。
   
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

菜鸟论坛

菜鸟论坛-致力于个人网站发展的草根站长联盟,为广大从事互联网工作、前端开发、个人站长、网站搭建、SEO优化、网络运营以及其他领域的个人草根站长同学提供一个免费公益性的信息交流与资源分享的站长平台。

微信公众号

联系我们

  • 广告合作
  • QQ:542750839

QQ|手机版|小黑屋|菜鸟论坛 ( 鲁ICP备17013748号 )|网站地图

Powered by Discuz! X3.4 © 2018 MZHENG.CN

快速回复 返回顶部 返回列表