新闻
打造企业生态系统孵化器  建设企业智慧成长生态城

影响收录因素

发布于:2013-08-13 浏览:2454

影响收录的因素:

 

如果你的网站还没有被收录,请检查下爬虫抓取量和页面质量。

搜索引擎爬虫抓取方式、收录原理

 

b)、收录原理

 过程:robots.txt---首页--栏目页--css/js---内容页

 

影响爬虫抓取的内部因素

 

1、网站速度影响爬虫访问

    机房--DNS服务器--CDN--出口带宽--硬件--操作系统--服务器软件--程序

2、nofollow标签的使用控制爬虫抓取

nofollow是指不追踪此链接。

    nofollow掉每个页面重复出现的链接和对SEO无价值页面,减少爬虫重复抓取每个页面内的链接,提高爬虫抓取效率,增强对重要页面的抓取。

    使用方法:rel=“nofollow”  举例:京东商城  

    火狐浏览器插件:Highlight NoFollow links 查看

3、其他影响爬虫抓取的因素

    防火墙规则、防攻击设置、防止采集设置规则 :一个网站访问n次后,自动断开,爬虫被拒。

    分隔硬盘:在服务器下安装多个虚拟机,硬盘转速慢,爬虫访问不到网页。

    多个返回码 :一个链接返回多个返回码搜索引擎是不会抓取的。