关于逐浪CMS的robots.txt文件的自行修正经验分享

返回逐浪CMS技术讨论区
1回复贴,共1页,点击数:576

我最近在群里(普通会员群:62769555;高级群:117942452)提到过,我最近在学习SEO,前几天学到了nofollow的用法,于是就修改了一下,然后想进IIS网站日志进行分析一下

今天一进去分析,网站原来还存在一个问题。那就是robots.txt文件的问题。本人是SEO小白,为了别的小白同志少走弯路,本人要把这个经验分享一下

首先咱们先看一下逐浪CMS自带的robots.txt的内容

#
# robots.txt for Zoomla!CMS2 MVC
#   

User-agentUser-agent: *
Disallow: /API/
Disallow: /Admin/
Disallow: /App_Code/
Disallow: /App_Data/
Disallow: /App_Themes/
Disallow: /bin/
Disallow: /Config/
Disallow: /Common/
Disallow: /dist/
Disallow: /Guest/
Disallow: /Install/
Disallow: /User/
Disallow: /BU/
Disallow: /UploadFiles/
Disallow: /MIS/
Disallow: /Manage/
Disallow: /JS/
Disallow: /Design/
Disallow: /Log/
Disallow: /Plat/
Disallow: /PayOnline/
Disallow: /Plugins/
Disallow: /Template/
Disallow: /Tools/
Disallow: /Prompt/
Disallow: /Web.config

User-agentUser-agent: *  这一行,是个错误:应该是User-agent: *  这句话是告诉所以有搜索引擎蜘蛛可以抓取,这应该是程序员的一个手误


Disallow: /API/ 这是告诉搜索引擎 /API/下的文件不要抓取,其他也是这个道理


然后我就查了一下IIS工作日志

发现有些系统目录依然在抓取

如:/Comments/CommentFor    /Api/UserCheck.ashx等

然后我找了工具测试一下,这次抓取是不是允许的

https://ziyuan.baidu.com/robots/index   我是在里测试的

image.png

测试结果显示是可以的,对比了一下robots.txt这个文件没有,于是就加上去


image.png

/Api/这个  我对比了一下文件,原来文件中写的是 /API/  URL中是驼峰的,有大小写的区别,于是我又在下面加了一行

Disallow: /API/

Disallow: /Api/

Disallow: /Admin/

有了大小写这个区别,于是我对照了日志和robots.txt进行了修改


百度目前给我的网站抓取份额是7000-9000次,
而新站的份额可能就只有0-200次左右。
我就有个站现在抓取才10次左右,每次的时间也不长。。
咱们假设百度来抓取的次数是一定的,如果抓取系统文件,百度从咱网站当中啥也得不到,
所以就需要通过robots.txt来告诉蜘蛛哪些目录不需要抓取,它就别瞎忙了。
这样就让蜘蛛的效率更高了,把有限的资源给有用的内容

逐浪CMS有很多文件我也不知道是什么。。反正我就是知道不是我网站添加的内容。我不需要蜘蛛来,我就给设备上了
还有一些目录是动态筛选的目录,也不希望蜘蛛来抓取,因为这些目录带很多参数,蜘蛛一爬网站日志中就报错了。所以我也给加上了。
下面是我修改后的robots.txt
希望给小白朋友参考一下
#
# robots.txt  for Zoomla!CMS2 MVC
#
User-agent: *
Disallow: /API/
Disallow: /Api/
Disallow: /Admin/
Disallow: /App_Code/
Disallow: /App_Data/
Disallow: /App_Themes/
Disallow: /bin/
Disallow: /Config/
Disallow: /Common/
Disallow: /common/
Disallow: /Comments/
Disallow: /dist/
Disallow: /Guest/
Disallow: /Install/
Disallow: /User/
Disallow: /user/
Disallow: /BU/
Disallow: /UploadFiles/
Disallow: /MIS/
Disallow: /Manage/
Disallow: /JS/
Disallow: /Design/
Disallow: /Log/
Disallow: /Plat/
Disallow: /PayOnline/
Disallow: /Plugins/
Disallow: /static/
Disallow: /Search/
Disallow: /Template/
Disallow: /Tools/
Disallow: /Prompt/
Disallow: /Web.config
Disallow: /Class_1/NodePage.aspx
Disallow: /Class_4/NodePage.aspx
Disallow: /Class_5/NodePage.aspx
Disallow: /Class_158/NodeElite.aspx
Disallow: /Class_201/NodeNews.aspx

大家也可以跟据自己的需要加一下。这样可以有效的提高蜘蛛的效率
最近几天也会观察nofollow的效果,到时候如果心有所得,也会和大家分享一下


1楼 2019/08/31 23:33

深夜无人问。只好自己占沙发了

2楼 2019/09/01 00:02 收起回复
您未登录,没有发贴权限[点此登录]