搜索引擎是如何工作的?

鞠文波


所谓搜索引擎,是指按一定的策略,运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,向用户提供检索服务,将用户检索的信息展示给用户的系统。国内的搜索引擎代表如百度、360、搜狗,国外的搜索引擎代表如谷歌、必应。

搜索引擎工作的原理可简单地分为四步,依次包括页面收录、页面分析、页面排序和关键字查询。

1,页面收录

搜索引擎通过蜘蛛程序在互联网上抓取并将之进行存储的过程,这为搜索引擎开展各项工作提供了数据。在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛即通过URL抓取页面。蜘蛛程序从URL列表出发,通过URL抓取并存储原始页面;提取原始页面中的URL资源并加入到URL列表中,如此循环,从而可从互联网中获得足够多的页面。

页面收录的方式包括广度优先、深度优先和用户提交。广度优先是一种横向的页面抓取方式,从最浅层开始抓取页面,直到抓取完同一层次上所有的页面后才进入下一层。深度优先是一种纵向的页面抓取方式,首先跟踪最浅层页面中的某一个链接,从而逐步抓取深层页面,直到抓取完最深层次的页面才返回浅层页面;之后,再跟踪另一个链接,继续向深层页面抓取。而用户提交,是指网站管理员只需把网站页面的URL地址按指定的格式制成文件,后将之提交给搜索引擎,搜索引擎可以通过该文件对网站中的页面进行抓取和更新。

页面维护的方式则有定期抓取、增量抓取和分类定位抓取。定期抓取,是指搜索引擎周期性地对网站中已经收录的网页进行全面更新,把抓取的新页面替换旧页面、删除不存在的页面,存储新发现的页面。增量抓取,搜索引擎通过对已抓取的页面进行定时监控,实现对页面的更新和维护,搜索引擎只需对重要的页面进行定时的监控,使页面的更新周期缩短。分类定位抓取,是搜索引擎根据页面的类别、性质而制定相应更新周期的页面监控方式。

搜索引擎在抓取页面时,除了要存储原始页面外,还会附加如文件类型、大小、URL、IP地址、最后修改时间和抓取时间等,并再把这些信息作为开展某项工作的依据。

2,页面分析

页面收录只是搜索引擎工作的第一步,用户使用搜索引擎检索信息时,往往使用的是词或者短语。搜索引擎对原始页面建立索引,实现对页面的快速定位;提取页面的正文信息,并对正文信息进行切词以及为该词建立索引,从而得到页面与关键字相对应的关系;对所有关键字进行重组,建立关键字与网页间对应关系的反向索引列表,从而达成根据关键字快速定位相应的网页。

3,页面排序

搜索引擎结合页面的内、外因素计算出页面与某个关键字相关的程度,从而得到与该关键字相关的页面排序列表。

通常,决定页面排序的因素,具体有页面相关性、链接权重和用户行为。页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字权重标签等决定。链接分为内部链接与外部链接,某一页面得到的链接越多,一定程度上反应了该页面越重要,链接权重往往就越高。用户对搜索结果的点击是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的、重要的补充。

搜索引擎通过计算页面相关性、链接权重、用户行为等综合得分,得到页面的权重值,之后再按页面的权重值从高到低排序,并把这个经过排序的列表返回给用户。

4,关键字查询

搜索引擎接受来自用户的查询请求,并对查询信息进行切词及匹配后,再向用户返回相应的页面排序列表。用户在搜索引擎中的行为主要分为查询和点击。

搜索引擎处理用户的查询请求,主要包括,在用户发出查询请求前完成被查询关键字的反向索引、相关页面权重计算等工作;为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。所谓缓存机制,是指搜索引擎为在短时间内响应用户的查询速度,便为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。统计表明,查询次数最多的前20%的关键字大约占了查询次数的80%。所以,搜索引擎只要对这20%的关键字建立缓存便可满足用户80%的查询请求。


分享到:


相關文章: