搜索引擎的原理是什么?

作者&投稿:督卓 (若有异议请与网页底部的电邮联系)

搜索引擎的原理可以分为:数据收集、建立索引数据库、索引数据库中搜索和排序。

1、数据收集:搜索引擎的自动信息收集功能分为两种类型,一种是定期搜索,即每隔一段时间,搜索引擎就会主动发送一个“蜘蛛”程序来搜索特定IP地址范围内的互联网站点,一旦发现一个新网站,它将自动提取该网站的信息和网址,并将其添加到自己的数据库中,另一种是提交网站搜索,即网站所有者主动向搜索引擎提交网站地址。

2、建立索引数据库:搜索引擎对收集的信息资源进行索引,编辑摘要以形成标准页面索引,并通过数据库管理系统建立相应的索引数据库,数据库中的每条记录基本上对应于一个网页,包括关键字、网页摘要、URL地址和其他信息。

3、索引数据库中搜索和排序:根据用户提出的查询要求,使用查询软件将其转换为计算机执行的命令,并在索引数据库中搜索符合条件的web记录,并根据相关度对搜索结果进行排序,相关度越高,排名越高,运行后,查询结果将返回给用户。



搜索引擎的整个工作过程包括三个部分:

1、抓取

搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。

互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。它不停的向各种网站发送请求,将所得到的网页存储起来。

通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。有很多细节要被考虑。比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。

2、索引

索引就是帮助程序进行快速查找的。大家都用过英汉词典。字典前边的按照单词首字母排列的部分就是索引。搜索引擎也一样。这里要介绍第一个最重要的数据结构:反转列表。

搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。

每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。每一部分的单词都要被加入到这个词属于此部分的反转列表里。

3、搜索

有了索引,就可以快速找到所需内容了。前边说过搜索引擎根据用户的信息需求查找匹配的内容。信息需求来自于用户输入。搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。

4、排序

用户输入的关键词,就可以查看到相关的内容了。这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。

排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。



互联网搜索引擎是专门设计用于搜索万维网上大量数据的复杂软件系统。他们通过提供包含我们搜索的特定单词或短语的最相关网站的列表来帮助我们(他们的用户)了解我们需要了解的内容。 对于我们大多数人来说,搜索引擎是基本的网络工具。如果没有它们,我们将不得不记住我们想要访问的每个网站或页面的确切 URL。虽然这对大多数人来说似乎是不可思议的,但实际上曾经有一段时间互联网就是这样运作的。 幸运的是,事情发生了变化。今天,我们已经习惯了搜索引擎的便利,很难想象没有它们的生活。



~

搜索引擎工作原理是什么?为什么要了解搜索引擎工作原理
答:对商家来说,搜索引擎是一种赢利的产品或服务,而作为产品,搜索引擎商要研制、改进和创新其搜索技术;作为服务,搜索引擎营销商要研究搜索引擎优化和推广。利用搜索引擎的目的不同,构成了搜索引擎研究的不同群体和对搜索引擎不同角度不同侧重的研究。搜索引擎的工作原理包括如下三个过程:首先在互联中发...

搜索引擎的基本工作原理包括哪三个过程
答:搜索引擎的工作过程包括以下哪些步骤 搜索引擎的基本工作原理包括如下三个过程:1.爬行和抓取:首先在互联网中发现、搜集网页信息;2.建立索引库:同时对信息进行提取和组织建立索引库;3.排名:再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果...

搜索引擎的排名原理是怎样的
答:要了解搜索引擎优化,首先了解搜索引擎的基本工作原理。搜索引擎排名大致上可以分为四个步骤。 爬行和抓取 搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛或机器人。搜索引擎蜘蛛从数据库中已知的网页开始出发,就像正常用户的浏览器一样访问这些网页并抓取文件。并且搜索...

搜索引擎优化基本原理是什么?
答:SEO优化的基本原理其实就是一种利用搜索引擎的搜索规则来提高目的网站在排名上具有优势的一种方式。因为绝大部分浏览用户在使用搜索引擎时只会留意搜索结果最前面的几个条目,所以很多网站都希望通过各种形式来影响搜索引擎的排序。SEO(Search Engine Optimization)搜索引擎优化的英文缩写, seo是指通过采用...

搜索引擎营销原理是什么?
答:了解搜索引擎营销原理,先要知道什么是搜索引擎?搜索引擎的英文为search engine。搜索引擎是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提...

元搜索引擎的工作原理是什么?
答:信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人...

SEO的工作原理是什么?
答:SEO的工作原理是什么,为什么有的网站排名很好,有的网站排名很好,从表面来看,你的网站在更新,他的网站也在更新,你的网站用的是开源,他的网站用的也是开源,貌似没有什么不同,可是真相真的是这样吗,你的网站和他的网站真的一样吗?很多人把SEO的工作原理看的非常肤浅,在他们眼中,SEO就是写点...

收索引擎的意义
答:搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。工作原理 抓取网页 抓取 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之...

搜索引擎的索引工作由( )完成。
答:索引系统。搜索引擎的工作原理是从互联网上抓取网页,建立索引数据库,在索引数据库中搜索排序。首先通过信息采集是网络机器人扫描一定IP地址范围内的网站,通过链接遍历Web空间,来进行采集网页资料,为保证采集的资料最新,网络机器人还会回访已抓取过的网页。之后信息分析是通过分析程序,从采集的信息中提取...

象现在很多搜索引擎的原理是什么,比如百度,GOOGLE
答:本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。 "搜索引擎"这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。 1、...