逐浪CMSV8+火车头采集--建大站事办功倍

返回逐浪CMS技术讨论区
2回复贴,共1页,点击数:1341

最近想做一个B站

以前有大佬教育我,说B站不好做,但一直有一个想做B站的打算,想通过数据来帮助广大中小企业获取更多有用的信息,比较采购、销货,找到合适自己的合作伙伴

可以中国的企业太多了,做为一个一人IT公司,我的宗旨是能省人力就省人力,不然自己要累死了。

在做站的时候数据尽量要做细,先多看看几个同行的站,找出自己想要的部分,将数据细节化

我的经营告诉我,有关信息内容的东西尽可能的细,随着网站的发展很多数据都要进行细分,如果在建站初期就有了细节的数据后期网站升级会轻松很多

当然如果你的目标只是目前你看到的这样,那就不必费劲了。

毕竟做基础数据是非常累人的,且枯燥

这次的基础数据我采用的是火车头采集+人工修正的路子

大家在百度自行下载,

然后下载逐浪CMS火车头组件https://www.z01.com/other/3477.shtml  这是官方的下载地址,下载后解压 

在打火车头的安装目录

\火车采集器V9\Module  这里记录的是一些其他CMS的采集规则

做为逐浪CMS的忠爱粉,果断删除其他CMS,将逐浪CMS火车头组件复制粘贴放进来

这样采集工具就准备好了。

下一步,开启逐浪CMS采集KEY

内容--内容采集--采集配置

允许采集:选择开启

授权密钥:自动生成或自己写一个,至于可以长到多长,我也没试过,我一直都是自动生成的

保存

image.png

这样所有采集条件完全具备了

下面打开火车头:登陆,没有账号的自己注册一个,反正是免费的

image.png

然后新站一分组。我的习惯是一站一组,将管理细化,这样以后有问题好找

image.png

我建的是一个商友网的组

下一步,选择组名--新站任务

image.png

image.png

网站采集规划这里大家就可以一步一步的设备了我就不细说了。

内容采集这里尽可能的把有的字段能采集都采集上

左侧可以添加标签:这里的标签名字尽可能的要和字段的名字一样,但不是技术上有什么要求,而是怕你偷懒随便起名,到了后面标签和字段标识对不起来,采集了也进了不库,主要还是怕出错。

开头字符串找到写上

结尾字符串是在开头字符串后遇到的第一个字符段  可以是HTML,可以是好几个标签,也可以是一个“<”

然后在下面选上网址测试

在编辑过程当中多测试,多保存,免得出错

image.png

内容发布规划:

选择WEB发布设置列表旁的+号

  1. 选择发布模块:

    a. 新用户没有那么多模块所以先双击逐浪CMS这个模块

    image.png

    b. 选择内容发布参数

    发表地址后缀和来源页面后缀这里不要改

    我们主要改NODEID:节点 modelid 模型还有一个是KEY 就是在逐浪CMS后台采集设置那里的授权密钥,没有这个采集是入不你的库的

    image.pngimage.png

    c. 添加其他采集标签内容入库字段

    表单名:就是逐浪CMS数据模型的字段名

    表单值:[标签:标签名] 这里的标签名就是内容采集规划里的标签名

    如果标签多,可以把前面的截个图对照前面的来写

    image.png

    d. 保存    起一个新的系统名称,然后保存

    新用户还是那句话不要偷懒,一个模型一个发布规划,不然后出错的,


  2. 编辑:UTF-8

  3. 全局变量为空

  4. 写上你的网站URL,不登陆

  5. 写个配置名  保存

image.png

 6. 保存任务

image.png

7. 下一步开始采集啦

新建的任务,发布这里是没有选中的,大家可以测试一下,测试成功后,并没有发布,

再将发布选上,再次启动任务就可以入库了。入库的审核状态是未审核 ,最好是编辑一下再通过审核 

image.png


8。发布成功后,这说明咱的采集规划是没问题的然后咱就可以多多采集了。

双击任务,通过向导添加或者添加一行,写入所有的列表页链接就可以疯逛采集了。。

image.png

image.png


数据无价,在这里我并不是提倡大家要采集。我只是找到一个偷懒的方法,我一般如果采集过来后我也会进行编辑一下再发布

1楼 2020/03/13 18:02

只要你想,就有你用不完的功能,快用最新逐浪吧。

2楼 2020/03/13 18:03 收起回复

这个分享好,够细,主要是CMS功能够强大!    

3楼 2020/03/13 18:08 收起回复
您未登录,没有发贴权限[点此登录]