请选择 进入手机版 | 继续访问电脑版
微信扫一扫 分享朋友圈

已有 496 人浏览分享

收起左侧

[文档教程] phpcms文章采集器之采集内容规范

[复制链接]
发表于  2020-7-27 21:42:39 | 显示全部楼层 | 阅读模式
正在咱们运用PHPCMS收罗器停止采集的时刻,需求指定文章的题目、内容、作者、进来等标签信息,而且对于页面进行修改,去除了一些过剩的HTML标签。本文容易引见怎样完成上述操纵。

SI52iT509XnYxttD.jpg


我们需要在第一步【采集网址规定】中单击恣意地点跳转到第二部【采集内容范例】页面

gYyxVsnvYrAMaYNN.jpg


不雅察以后的【采集内容规则】界面,我们发明【标题】主动已经经被配置,器内容为“baidu消息搜寻——体育新闻”,我们需要在此删除“——体育新闻”字段。双击【标题】标签,在弹出的【标签编纂】选项卡中点击【增添】按钮,在弹出的快速菜单中抉择【内容调换】,并按图设置。

gDMn3zjYmc9cYNc3.jpg



JHojjSTAIqTPq5cH.jpg



m9aDJA7c9d9k9Dcd.jpg


之后我们双击【内容】标签,在此我们能够经过【先后提取】【正则提取】【可视化提取】【注释提取】【标签组合】等多种形式提取网页的正文数据。

zUzYQ77ynEKEAYxc.jpg


通过对网页的剖析,我们肯定从谁人HTML标签处最先提取,譬如本文中为:

    ,终了字符则为


c6PnyMUl9Y56wl16.jpg


另外,我们还可以通过【数据解决】模块,将文本中多余的HTML标签删除,以下图所示。

qKqlLlLN9rQlXXAL.jpg



sh8uVi77s7h7s57Z.jpg


至此,内容采集到此结束。全部步调最症结的为【第三步】惟独截取准确的HTML代码,能力到达只留文本信息而屏障代码的目标。

JUOIPgIP1kpNllEO.jpg
 成长值: 180
发表于 2020-7-27 21:43:22 | 显示全部楼层
不错!!
回复

使用道具 举报

 成长值: 180
发表于 2020-7-27 21:44:11 | 显示全部楼层
支持!!!
回复

使用道具 举报

 成长值: 180
发表于 2020-7-27 21:44:57 | 显示全部楼层
顶一下!!
回复

使用道具 举报

 成长值: 180
发表于 2020-7-27 21:45:31 | 显示全部楼层
不错呀!!
回复

使用道具 举报

 成长值: 180
发表于 2020-7-27 21:46:29 | 显示全部楼层
牛逼!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

0

粉丝

1

主题
  • 微信公众平台

  • 扫描访问手机版

":"https://jspassport.ssl.qhimg.com/11.0.1.js?"; document.write("

QQ|Archiver|手机版|小黑屋|Phpcms之家-phpcms爱好者之家 ( 粤ICP备14001119号-4 )

GMT+8, 2020-8-16 03:10 , Processed in 0.065246 second(s), 28 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2020 Comsenz Inc.