百度、谷歌搜索是怎么工作的?

搜索引擎的工作原理是这样的:

首先在互联中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索方式是搜索引擎的一个关键环节,大致可分为四种:

全文搜索引擎

元搜索引擎

垂直搜索引擎

目录搜索引擎

它们各有特点并适用于不同的搜索环境。所以,灵活选用搜索方式是提高搜索引擎性能的重要途径。全文搜索引擎是利用爬虫程序抓取互联网上所有相关文章予以索引的搜索方式;元搜索引擎是基于多个搜索引擎结果并对之整合处理的二次搜索方式;垂直搜索引擎是对某一特定行业内数据进行快速检索的一种专业搜索方式;目录搜索引擎是依赖人工收集处理数据并置于分类目录链接下的搜索方式。在此,我们对四种搜索方式的特征作一比对:

四种搜索方式各有利弊并适用于不同的网络使用环境:

1)一般网络用户适用于全文搜索引擎。这种搜索方式方便、简捷,并容易获得所有相关信息。但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。尤其在用户没

有明确检索意图情况下,这种搜索方式非常有效。

百度、谷歌搜索是怎么工作的?

2)元搜索引擎适用于广泛、准确地收集信息。不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。

3)垂直搜索引擎适用于有明确搜索意图情况下进行检索。

例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。

4)目录搜索引擎是网站内部常用的检索方式。本搜索方式旨在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。总而观之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。总之,用户只有对上述四种搜索方式特点较为了解的基础上,才能在不同情境下灵活选择出最适合自己的搜索方式。


分享到:


相關文章: