网站建设与维护，除掉蜘蛛程序陷阱

发布于：2013-08-05　浏览：2567

我们知道，蜘蛛程序不可能收录所有的网页。但我们没有说明蜘蛛程序有什么样的问题。我们现在就说说它。

蜘蛛程序再精巧，也难以逾越一系列所谓的蜘蛛程序陷阱(spider traps)问题。蜘蛛程序陷阱是阻止蜘蛛程序爬行网站的障碍物，通常源于那些显示网页的技术方法，这些手段能很好地配合浏览器，但对蜘蛛程序就构成了阻碍。不在网站使用这些技术，可以使蜘蛛程序收录更多的网页。

不幸的是，很多蜘蛛程序陷阱是很多先进技术方法的产物，而且设计富有很高创意，开发成本贵得吓人。毕竟都花了那么多的钱，没有人想听你说站点已经因此被搜索引擎排除在外了。尽管这样，这是你必须传达的坏消息。幸运的是，蜘蛛程序在这些年来成长得更加完善了。几年以前妨碍蜘蛛程序的设计现在已经不成问题了。但是你需要使用这些领先的技术跟上蜘蛛程序的成长。因此这里要讲怎样除掉最流行的蜘蛛程序陷阱。

假设你是内蒙古网络公司的网站管理员，刚知道有个软件的探测器进入了网站，并检查两站的每个页面。它还一次又一次地回访。听起来像个安全问题，是不是？甚至即便能够确认没有什么大问题，它也在浪费服务器的瓷源。

网站管理员经常这样看搜索蜘蛛程序：一个需要被控制的危险的家伙。而robots.txt文件是控制蜘蛛程序的一个方法，这个看起来不起眼的简单文本文件，放在网站服务器的根目录下。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。技术上不会阻止蜘蛛程序查看不许访问的文件，但是对蜘蛛程序来说有个君子协议，它们会有礼貌地遵守这些指令。

这里只有两个robots.tXt里的操作声明：

Useragent（用户代理）．用户代理声明定义了禁止指令适用于哪个蜘蛛程序。如果你对用户代理编码了解的话。你指的是针对所有的蜘蛛程序，但是你也可以指定单独的蜘蛛程序。这样蜘蛛在你的网站上（呼和浩特网页制作）爬行，或者指引它们完全避开你的网站。

禁止．禁止声明指定哪个文件蜘蛛程序不能够查看。你可以指定一个精确的文件名或者任何文件名或者目录名的一部分——蜘蛛程序会认为那是一个匹配符号并禁止任何与那部分名字匹配的文件。因此，指定了“e”可能会禁止全部有“e”的文件被查看，同样所有文件和任何有“e”为开头的目录。如果指定了“其他的”，就禁止察看其他的文件。