新闻
打造企业生态系统孵化器  建设企业智慧成长生态城

内蒙古网站建设|搜索索引库不都是HTML编码

发布于:2013-07-11 浏览:2533

内蒙古网站建设http://www.nmgf.net/

现在该介绍搜索引擎对这些网页做什么处理了。首先,你将发现搜索索引库中的文件不都是HTML编码的网页。

 

迄今为止,我们假设所有的网页都是由HTML编码写成的,其实并不都是这样。现代搜索引擎可以分析Adobe Acrobat (PDF)文件和许多其他种类的文件。尤其可信内容源程序往往需要用它们白己的格式。当搜索引擎扫过一个非HTML的文件,它们将这些文件转换到一个标准的格式,也就是它们储存所有其他文件使用的那种格式。为方便起见,我们在接下来考察文本分析过程时,会当作所有的文件都是HTML格式的,但是你已经知道实际上的情况要复杂得多。

 

确定哪些词是重要的

如果你浏览一般的网页,看到的不仅仅是屏幕上显示的文本。如果你查看HTML源代码,会发现实际上你在页面看到的大多数只是标记,或是HTMI标签。既然在搜索的时候,你并不想找到这些标签的名字,你也许认为搜索引擎会把它们扔掉,但其实不然。搜索引擎使用标记来帮助分析文本。

 

当你用浏览器查看屏幕上的网页时,会看到有些词比其他的更醒目。有些词使用粗体或者标以颜色,另外一些被设定成大号字体,还有一些像标题一样被分隔开。而且,因为大多数的网页是按照“报纸风格”书写,最重要的信息往往靠近页首。搜索引擎知道那些被强调的词和靠近页面顶端的词,比同一页面中其他的词更重要。这是建立搜索索引库过程中的一个步骤,在这里搜索引擎决定放在哪个位置的词会比其他的词更重要。

 

有一些最重要的标签是你通常看不到的。因为搜索引擎查看实际的HTML代码,它们可以获悉网页的一些信息,而这些信息除非你自己查看HTML源代码,否则永远不会注意。这些含有网页信息的标签通常被称为meta标签。

 

最重要的meta标签是标题标签(title tag),但是标题标签的作用可能并不是你所认为的那样。在网页顶端的词——你的眼睛告诉你组成了标题的那些词——很有可能是由一个段落标题标签或者一个图片做成的。真正的HTML标题标签显示在浏览器窗口的标题栏,(当你为网页做书签或存入收藏夹时,由标题标签形成的词也会作为网页的名字出现。)