揭秘百度搜索海量网页的技术奥秘:多关键词搜索背后的原理解析

百度为何能检索众多网页,其原理是怎样的

百度等搜索引擎的工作原理大致如下

一、搜索引擎的类型

获取网站网页信息,并建立数据库以供查询的系统,我们统称为搜索引擎。依据工作原理的不同,它们可分为两大基本类别:全文搜索引擎(FullText Search Engine)和分类目录(Directory)。

全文搜索引擎的数据库依托于一种名为“网络机器人(Spider)”或“网络爬虫(crawlers)”的软件,通过网络中的各种链接自动搜集大量网页信息内容,并按照既定规则分析整理而成。Google、百度均属于典型的全文搜索引擎系统。

分类目录则是通过人工方式搜集整理网站信息形成数据库的,例如雅虎中国以及国内的搜狐、新浪、网易分类目录。此外,网络上的某些导航站点,也可归类为原始的分类目录,如“网址之家”。

全文搜索引擎和分类目录在应用上各有优劣。全文搜索引擎由于依赖软件,所以数据库容量极为庞大,但查询结果往往不够精确;分类目录依赖人工搜集和整理网站,能够提供更为精确的查询结果,但搜集的内容却非常有限。为了取长补短,现在的许多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,例如Google的全文搜索();把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,例如新浪搜索和雅虎中国搜索()。

在网上,对这两类搜索引擎进行整合,还产生了其他的搜索服务,在此,我们暂且也将它们称为搜索引擎,主要有以下两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己的网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其他多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络爬虫”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。例如“metaFisher元搜索引擎”(),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接许多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,例如“网际瑞士军刀”()。

二、搜索引擎的工作机制

全文搜索引擎的“网络机器人”或“网络爬虫”是一种网络软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页信息。为保证采集的信息最新,它还会回访已抓取过的网页。网络机器人或网络爬虫采集的网页,还需其他程序进行分析,根据一定的相关度算法进行大量计算建立网页索引,才能添加到索引数据库中。我们平时所见的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按照一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,因此,当我们用同一关键词在不同的搜索引擎查询时,搜索结果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码簿一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

现今的搜索引擎广泛运用超链分析手段,不仅对索引网页的内容进行解析,还对指向该网页的所有链接的URL、锚文本以及链接周边的文字进行解析。因此,即便网页A中并未出现“恶魔撒旦”等词语,只要存在其他网页B通过“恶魔撒旦”链接指向网页A,那么在用户搜索“恶魔撒旦”时,也能找到网页A。此外,若更多网页(如C、D、E、F等)使用“恶魔撒旦”作为链接名称指向网页A,或者提供链接的源网页(如B、C、D、E、F等)质量更高,那么网页A在用户搜索“恶魔撒旦”时也会被认为更具相关性,排序也会更靠前。

搜索引擎的工作原理可概括为三个步骤:从互联网抓取网页→构建索引数据库→在索引数据库中进行搜索排序。

从互联网抓取网页

通过自动收集网页的Spider系统程序,自动访问互联网,并沿着任意网页中的所有URL爬取其他网页,重复此过程,并将爬取到的所有网页收集起来。

构建索引数据库

由分析索引系统程序对收集到的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每个网页针对页面内容中及超链中每个关键词的相关度(或重要性),然后用这些相关信息构建网页索引数据库。

在索引数据库中进行搜索排序

当用户输入关键词进行搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。由于所有相关网页针对该关键词的相关度早已计算完毕,因此只需按照既定的相关度数值进行排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider通常需要定期重新访问所有网页(不同搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会体现在用户查询结果中。

尽管互联网只有一个,但不同搜索引擎的能力和偏好各异,因此抓取的网页和排序算法也各不相同。大型搜索引擎的数据库存储了互联网上数亿至数十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立了超过二十亿网页的索引数据库,也只能涵盖互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就在于它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法通过搜索引擎搜索到的。

您应该明白:搜索引擎只能搜索到其网页索引数据库中存储的内容。您也应该明白:如果搜索引擎的网页索引数据库中应该有而您没有搜索到,那是您能力的问题,学习搜索技巧可以显著提高您的搜索能力。

如何在多个网页同时搜索

如果您想同时搜索多个文档的内容,可以利用一些文档处理软件或搜索引擎的功能来实现。以下是几种常用的方法:

1.使用文件管理器:在Windows操作系统中,您可以打开文件管理器(如资源管理器)并选择要搜索的文件夹。然后,输入要搜索的关键词或短语,并在搜索结果中查看包含该关键词或短语的文档。

2.使用文档处理软件的批量搜索功能:一些文档处理软件(如Microsoft Word)提供了批量搜索功能,可以搜索多个文档的内容。打开软件,选择要搜索的文件,然后使用软件的查找功能来搜索关键词或短语。

3.使用搜索引擎:一些搜索引擎(如Google)提供了对多个文档内容进行搜索的功能。您可以在搜索引擎的搜索框中输入关键词或短语,并在搜索结果中查看包含该关键词或短语的文档。在搜索结果页面,您通常可以使用筛选器或高级搜索选项来指定搜索范围和其他搜索条件。

4.使用专业文档搜索工具:如果您需要更强大和高级的文档搜索功能,可以考虑使用专业的文档搜索工具。这些工具可以同时搜索多种文件格式(如文本文档、PDF、电子表格等),并提供更复杂的搜索选项和过滤功能。

请根据您所使用的具体软件和工具,选择适合您需求的方法进行搜索。希望这些方法能够帮助您同时搜索多个文档的内容!

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。
THE END
分享
二维码
< <上一篇
下一篇>>