新闻
打造企业生态系统孵化器  建设企业智慧成长生态城

淘宝网站制作,索引库的分类和建立

发布于:2013-08-12 浏览:2594

关于我们:http://www.nmgf.net/About.html

a)、不论是中文还是英文,网页的总数是不断激增的,因为相关的新产品新话题也是不断增加的,但是词语的总数是不变的比如所有的中文词语加起来也就不到10万,英文也就上百万个的单词;

 b)、我们来算下:英文100万个单词,我们按照词来分类,一个单词一类:100亿 /100万 = 1 万;

中文我们就按照10万个词来算,也按照词来分类,一个词一类:100亿/10万=10万  这种级别的数据对于搜索引擎的计算机来讲还是很容易处理的;

 c)、除了计算的方便,还有另外一个好处就是可以直接命中用户的搜索习惯,因为用户的习惯也是根据词来搜索的,通俗来理解,搜索引擎的索引库就是这样的:
 

关键词

URL

汽车

......www.autohome.com.cn/、beijing.bitauto.com/、......y.autohome.com.cn/luntai.html.....

car

......www.cars.com/、www.carmagazine.co.uk/ 、reviews.cnet.com/car-tech/......

轮胎

......y.autohome.com.cn/luntai.html、......auto.sohu.com/s2006/qicheluntai/......

tyre

......en.wikipedia.org/wiki/Tyre、......www.middleeast.com/tyre.htm......

 

当用户输入关键词“汽车轮胎”搜索时,搜索引擎就从 “汽车”那行 和 “轮胎”那行里拿出同时都有的、交集的url来即可。比如:y.autohome.com.cn/luntai.html,当然这是理想状态,实际上搜索引擎的工作远比这些复杂,但是原理是类似的。

以上就是关于搜索引擎索引库建立的相关知识。

内蒙古网站建设http://www.nmgf.net