爬虫抓取网页过程中是可以看到网页url、HTML代码和head信息。
a)、URL规范化
1、静态化 唯一化
http://www.xxxxxe.com/?p=9
http://www.xxxxxxe.com/archives/9.html
2、url中带关键词:英文/拼音
2、url中带关键词:英文/拼音
在排名上有一定的优势
http://www.nmgf.net/
b)、W3C标准
HTML代码要符合标准。
结构层、表现层、行为层标签完整性。用开源程序就可以了。
c)、head信息正确性(服务器)
抓包工具httpwatch(安装、下载、使用)
Accept */*
指示能够接受的返回数据的范围, */*表示所有
Accept-Language zh-cn
表示能够接受的返回数据的语言
Accept-Encoding gzip, deflate
Accept-Encoding表明了浏览器可接受的除了纯文本之外的内容编码的类型,比如gzip压缩还是deflate压缩内容。
Last-Modified Fri, 04 Jan 2008 01:01:00 GMT
指定被请求资源上次被修改的日期和时间节省带宽,减少重复抓取
Server Apache
一种标明Web服务器软件及其版本号的头标
content-length 内容长度 通过文字长度判断是否更新过,但是不准,如果文字一样,就无法判断了。