新闻
打造企业生态系统孵化器  建设企业智慧成长生态城

技术对收录的影响

发布于:2013-08-13 浏览:3264

 

  爬虫抓取网页过程中是可以看到网页url、HTML代码和head信息。

a)、URL规范化

1、静态化  唯一化

    http://www.xxxxxe.com/?p=9

    http://www.xxxxxxe.com/archives/9.html

2、url中带关键词:英文/拼音

 

2、url中带关键词:英文/拼音

    在排名上有一定的优势

    http://www.nmgf.net/

b)、W3C标准

    HTML代码要符合标准。

    结构层、表现层、行为层标签完整性。用开源程序就可以了。

c)、head信息正确性(服务器)

    抓包工具httpwatch(安装、下载、使用)

Accept          */*

指示能够接受的返回数据的范围, */*表示所有

Accept-Language         zh-cn

表示能够接受的返回数据的语言

Accept-Encoding          gzip, deflate

Accept-Encoding表明了浏览器可接受的除了纯文本之外的内容编码的类型,比如gzip压缩还是deflate压缩内容。

Last-Modified       Fri, 04 Jan 2008 01:01:00 GMT

指定被请求资源上次被修改的日期和时间节省带宽,减少重复抓取

Server              Apache

一种标明Web服务器软件及其版本号的头标

content-length    内容长度   通过文字长度判断是否更新过,但是不准,如果文字一样,就无法判断了。