新闻
打造企业生态系统孵化器  建设企业智慧成长生态城

呼和浩特网页设计|网页最初是怎样被加入到索引库中的

发布于:2013-07-10 浏览:2715

 

我们已经详尽地研究了自然的和付费的搜索结果是怎样被找到、被排序和被显示的,但是我们还需要知道这些自然搜索的匹配网页是怎样被加入到索引库中的。

 

听起来不难吧?搜索者键入搜索请求,然后搜索引擎在其自然搜索索引库中查找搜索项,优先排列好最佳的匹配网页,接着显示搜索结果。但是这些网页最初是怎样被加入到索引库中的呢?这个信息对你——搜索营销人员,是非常重要的。因为如果你的网页不在索引库里,那么就没有任何搜索者能够找到它们。要在搜索索引库中建立网页的详细目录,搜索引擎使用了一种非常特别的程序,叫做蜘蛛程序( Spider)(有时被叫做行者程序crawler)。蜘蛛程序从检查种子目录里的网页开始,因为它反正要从那个地方开始。但是一旦蜘蛛程序开始了,它就自己顺着链接前进来发现网站。分析它们的内容,之后建立搜索索引库。

 

蜘蛛程序使用的链接与在浏览器中使用的一样。当蜘蛛程序检查网页时,它查看指向另一个网页的链接的HTML(超文本链接标示语言)和浏览器用以显示网页的代码一样。每个蜘蛛程序查看的HTML代码和你浏览器看到的一样,而且能够顺着链接找到其他的网页。

 

蜘蛛程序挖出每一个网页的HTML.当不再有链接指向其他页面时,它就返回,以后再去搜索这些网页的HTML。你可以想象,只要有足够的时间,一个蜘蛛程序最终可以找回到互联网上所有的网页(或者至少是与其他网页链接的所有网页)。这种找到一个网页,查找这个网页上的所有链接并顺着链接依次找到另外那些网页的流程,被称为网络爬行。