影响收录的因素:
如果你的网站还没有被收录,请检查下爬虫抓取量和页面质量。
搜索引擎爬虫抓取方式、收录原理
b)、收录原理
过程:robots.txt---首页--栏目页--css/js---内容页
影响爬虫抓取的内部因素
1、网站速度影响爬虫访问
机房--DNS服务器--CDN--出口带宽--硬件--操作系统--服务器软件--程序
2、nofollow标签的使用控制爬虫抓取
nofollow是指不追踪此链接。
nofollow掉每个页面重复出现的链接和对SEO无价值页面,减少爬虫重复抓取每个页面内的链接,提高爬虫抓取效率,增强对重要页面的抓取。
使用方法:rel=“nofollow” 举例:京东商城
火狐浏览器插件:Highlight NoFollow links 查看
3、其他影响爬虫抓取的因素
防火墙规则、防攻击设置、防止采集设置规则 :一个网站访问n次后,自动断开,爬虫被拒。
分隔硬盘:在服务器下安装多个虚拟机,硬盘转速慢,爬虫访问不到网页。
多个返回码 :一个链接返回多个返回码搜索引擎是不会抓取的。