搜索引擎的工作原理分为4个过程:首先在互联网中发现、收集网页信息,同时对信息进行智能提取和组织建立索引库;再由检索器根据用户输入的关键词在索引库中快速检出文档;接着对文档与查询的相关度进行预处理;最后对要输出的结果进行排序,并将查询结果返回给用户。图2-3所示是搜索引擎的工作原理。
1.爬行和抓取
搜索引擎通过发出一个能够在新网页中发现并抓取信息的程序,这个程序从一个链接爬行到另外一个链接中,就像蜘蛛在蜘蛛网上爬行一样。因此,这个程序被称为“蜘蛛",这个过程被称为“爬行”,被抓取的网页称为“网页快照”。
搜索引擎通过这些爬行程序来获取互联网上的外链,这些被抓取的和用户查询的数据一致的新网页会存入数据库中等待检索。
2.查询词分析
搜索引擎的最终目的是为用户提供精准全面的搜索结果。当用户输入搜索请求时,首先需要对关键词进行分析,结合查询词和用户信息精准地判断用户的真实搜索意图。
其次需要在搜索引擎缓存系统中查找。搜索引擎缓存系统中存储了不同查询意图的搜索结果,如果能够在缓存系统中找到满足用户需求的信息,则可以直接将搜索结果反馈给用户。这样既能节省重复计算对资源的消耗,又能加快响应速度。
3.检索和处理
搜索引擎抓取到网页之后,还需要进行大量的预处理才能为用户提供检索服务。其中主要包括提取关键词、建立索引库和索引;此外,还包括去除重复网页、分词、判断网页类型、分析超链接、计算网页的重要度。
除了网页文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,例如PDF、word、WPs、XLs、Pr、TXT文件等。
4.结果排序输出
用户在输入关键词查询之后,搜索引擎的排名程度调用索引库的数据,在数据库中找到匹配该关键词的网页,计算排名并输出搜索结果。
影响输出结果排序的因素较多,其中比较重要的是网页内容的相似性和网站的重要性。网页内容的相似性主要是指哪些网页的内容和用户查询的关键词匹配度最高;而网站的重要性则是指网站的权重大小,这点可以直接从链接分析的结果中获得。结合以上两个因素进行综合分析,即可以对输出结果进行排序并反馈给用户
网站站长了解和掌握搜索引擎的工作原理是至关重要的。只有在了解其工作原理之后,才能从中摸索出脾性,然后投其所好,使网站的排名更加靠前,达到搜索引擎优化的目的。
本文链接:http://www.shundeseo.com/news/1041.html