最近想做一个B站
以前有大佬教育我,说B站不好做,但一直有一个想做B站的打算,想通过数据来帮助广大中小企业获取更多有用的信息,比较采购、销货,找到合适自己的合作伙伴
可以中国的企业太多了,做为一个一人IT公司,我的宗旨是能省人力就省人力,不然自己要累死了。
在做站的时候数据尽量要做细,先多看看几个同行的站,找出自己想要的部分,将数据细节化
我的经营告诉我,有关信息内容的东西尽可能的细,随着网站的发展很多数据都要进行细分,如果在建站初期就有了细节的数据后期网站升级会轻松很多
当然如果你的目标只是目前你看到的这样,那就不必费劲了。
毕竟做基础数据是非常累人的,且枯燥
这次的基础数据我采用的是火车头采集+人工修正的路子
大家在百度自行下载,
然后下载逐浪CMS火车头组件https://www.z01.com/other/3477.shtml 这是官方的下载地址,下载后解压
在打火车头的安装目录
\火车采集器V9\Module 这里记录的是一些其他CMS的采集规则
做为逐浪CMS的忠爱粉,果断删除其他CMS,将逐浪CMS火车头组件复制粘贴放进来
这样采集工具就准备好了。
下一步,开启逐浪CMS采集KEY
内容--内容采集--采集配置
允许采集:选择开启
授权密钥:自动生成或自己写一个,至于可以长到多长,我也没试过,我一直都是自动生成的
保存
这样所有采集条件完全具备了
下面打开火车头:登陆,没有账号的自己注册一个,反正是免费的
然后新站一分组。我的习惯是一站一组,将管理细化,这样以后有问题好找
我建的是一个商友网的组
下一步,选择组名--新站任务
网站采集规划这里大家就可以一步一步的设备了我就不细说了。
内容采集这里尽可能的把有的字段能采集都采集上
左侧可以添加标签:这里的标签名字尽可能的要和字段的名字一样,但不是技术上有什么要求,而是怕你偷懒随便起名,到了后面标签和字段标识对不起来,采集了也进了不库,主要还是怕出错。
开头字符串找到写上
结尾字符串是在开头字符串后遇到的第一个字符段 可以是HTML,可以是好几个标签,也可以是一个“<”
然后在下面选上网址测试
在编辑过程当中多测试,多保存,免得出错
内容发布规划:
选择WEB发布设置列表旁的+号
选择发布模块:
a. 新用户没有那么多模块所以先双击逐浪CMS这个模块
b. 选择内容发布参数
发表地址后缀和来源页面后缀这里不要改
我们主要改NODEID:节点 modelid 模型还有一个是KEY 就是在逐浪CMS后台采集设置那里的授权密钥,没有这个采集是入不你的库的
c. 添加其他采集标签内容入库字段
表单名:就是逐浪CMS数据模型的字段名
表单值:[标签:标签名] 这里的标签名就是内容采集规划里的标签名
如果标签多,可以把前面的截个图对照前面的来写
d. 保存 起一个新的系统名称,然后保存
新用户还是那句话不要偷懒,一个模型一个发布规划,不然后出错的,
编辑:UTF-8
全局变量为空
写上你的网站URL,不登陆
写个配置名 保存
6. 保存任务
7. 下一步开始采集啦
新建的任务,发布这里是没有选中的,大家可以测试一下,测试成功后,并没有发布,
再将发布选上,再次启动任务就可以入库了。入库的审核状态是未审核 ,最好是编辑一下再通过审核
8。发布成功后,这说明咱的采集规划是没问题的然后咱就可以多多采集了。
双击任务,通过向导添加或者添加一行,写入所有的列表页链接就可以疯逛采集了。。
数据无价,在这里我并不是提倡大家要采集。我只是找到一个偷懒的方法,我一般如果采集过来后我也会进行编辑一下再发布