搜索引擎的基本工作原理与构成部份浅析
搜索引擎是SEO从业人员每天都要打交道的工具。要想做好优化工作,就必须了解搜索引擎的工作原理和构成部分,因为这些都与搜索引擎的工作流程相关。本文将对搜索引擎的构成部分进行浅析。
一、爬虫
搜索引擎的爬虫,也被称为蜘蛛,是非常重要的。爬虫的主要任务是从网络上抓取页面、程序或脚本,并采集可以访问的页面内容以进行缓存。搜索引擎对响应时间非常重视,如果在搜索内容后需要等待一分钟才能得到结果,用户的体验将大打折扣。为了满足速度需求,搜索引擎通常会采用缓存的方式。对于爬虫来说,更青睐运营时间长、持续高质量内容产出,并且具有抓取深度的网站。爬虫会根据你的网页文章的更新频率,计算出最适合抓取的时间,并在这个时间段内进行访问抓取。爬虫还有自己的工作目标,包括对抓取的网页进行描述和定义、对网页进行过滤,以及URL的索引策略。
二、用户搜索界面
目前,百度在搜索引擎市场占有最大份额。随着信息量的增加和技术的成熟,搜索界面变得越来越规范化。用户在搜索时经常涉及以下几个方面:
- 展现提示词:当用户在搜索框输入文字时,系统会展示提示词。而且,即使用户输入拼音,系统也可以识别提示。
- 相关搜索提示词:当用户搜索一个关键词时,系统会根据用户的搜索词提供更多提示词。换一个关键词搜索可能会得到不同的结果。
三、预处理
搜索引擎中最复杂的部分莫过于预处理,排名算法几乎都是在这个环节产生。当搜索引擎抓取到一个页面时,需要去除网页中的代码、非正文内容等,保留关键词,并利用代码、关键词密度等分析出重要的词组,将其分词并储存在数据库中与URL一一对应。搜索引擎还需要去除重复与转载网页,并对重要信息进行分析。搜索引擎控制蜘蛛的爬取,对数据进行筛选报错,处理URL的对应关系,并将其保存在索引数据库中,方便在用户搜索内容时快速提取展示。
四、文本挖掘
文本挖掘方法有很多,常用的包括全文搜索、关键词提取、文本摘要、中文分词等。搜索引擎拥有一个文档集,通过文档挖掘可以对文本进行分析识别数字、日期、名字等信息,还可以进行特征提取,如文本摘要、关键词提取和特征选择,或进行分类、检索、聚类、自动问答等任务。
结尾:
对于SEO来说,排名优化的第一步是解决收录问题。我们每天都在更新,但有时却无法被搜索引擎收录。因此,如果想要网站快速被收录,我们必须了解蜘蛛的爬行原理和规律,还要知道什么样的内容、页面更容易被搜索引擎收录,以及如何提高蜘蛛对内容的发现时间等。
搜索引擎的工作原理(简单罗列要点)
首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
搜索引擎的工作原理是什么?
搜索引擎基本工作原理 了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。 ........................................................................................ ■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 ........................................................................................ ■ 目录索引 与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧) 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
搜索引擎工作原理是什么?
搜尋引擎的工作原理包括如下三个过程
一、搜尋引擎的工作過程
爬行和抓取:搜尋引擎蜘蛛通過跟蹤連結訪問網頁,獲得頁面 HTML 代碼存入資料庫。
預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引等處理,以備排名程序調用。
排名:用戶輸入關鍵詞後,排名程序調用索引庫數據,計算相關性,然後按一定格式生成搜索結果頁面。
二、爬行和抓取
爬行和抓取是搜尋引擎工作的第一步,完成數據收集的任務。
蜘蛛:搜尋引擎用來爬行和訪問頁面的程序被稱為蜘蛛( spider ),也稱為機器人( bot )。搜尋引擎訪問任何一個網站時,都會先訪問網站根目錄下的 robots.txt 文件。如果 robots.txt 文件禁止搜尋引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。和瀏覽器一樣,搜尋引擎蜘蛛也有標明自己身份的代理名稱,站長可以在日誌文件中看到搜尋引擎的特定代理名稱,從而辨識搜尋引擎蜘蛛。
預處理:在一些 SEO 材料中,「預處理」也被簡稱為:「索引」,因為索引是預處理最主要的步驟。搜尋引擎蜘蛛抓取的原始頁面,並不能直接用於查詢排名處理。搜尋引擎資料庫中的頁面數都在數萬億級別以上,用戶輸入搜索詞後,靠排名程序實時對這麼多頁面分析相關性,計算量太大,不可能在一兩秒內返回排名結果。因此抓取來的頁面必須經過預處理為最後的查詢排名做好準備。和爬行抓取一樣,預處理也是在後台提前完成的,用戶搜索時感覺不到這個過程。
三、排名
經過搜尋引擎蜘蛛抓取頁面,索引程序計算得到的倒排索引後,搜尋引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程是與用戶直接互動的。
搜索詞處理:搜尋引擎接收到用戶輸入的搜索詞後,需要對搜索詞做一些處理,才能進入排名過程。
文件匹配:搜索詞經過處理後,搜尋引擎得到的是以詞為基礎的關鍵詞集合。文件匹配階段就是找出含有所有關鍵詞的文件。在索引部分提到的倒搜索引使得文件匹配能夠快速完成。
搜索引擎的工作原理
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
2.简述web搜索引擎基本结构由哪三部分组成,以及各部分的作用
一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
搜索引擎的工作原理是怎样的?
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
外链关键词: qq头像伤感带字女生 大胆女人 明星美女写真 女性人体艺 欧美头像女生 人体摄影图片 美女图片大图 美女隆胸本文地址: https://www.q16k.com/article/4d565dcdbb6884199112.html