Products
96SEO 2025-04-24 08:30 10
搜索引擎优化,优化网站,使其更符合搜索引擎算法要求,获取更多流量及转化,所以做SEO必须要对搜索引擎有更多认识和了解。搜索引擎有哪些功能模块?它的工作原理是什么?[搜索引擎蜘蛛](/e/.html)抓取会受到哪些因素影响?
搜索引擎功能模块:
蜘蛛,即,类似浏览器的程序,专门用来下载web页面。
爬虫,即,用来自动跟踪所有页面中的链接。
索引,即,专门用来分析蜘蛛和爬虫下载下来的web页面。
数据库,存储下载的页面信息和处理过的页面信息。
结果引擎,从数据库中抽取出搜索结果。
Web服务器,用来处理用户的搜索交互请求的web服务器。
[百度蜘蛛](/e/.html)类型:
一般我们根据**百度蜘蛛**的爬取特点,可以将其分为三类: 批量型、增量型和垂直型。
批量型:一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当的作业达到预先设置的目标会停止。普通站长和SEO人员使用的采集工具或程序,所派出的 大都属于批量型,一般只抓取固定网站的固定内容,或者设置对某资源的固定目标数据量,当抓取的数据或者时间达到设置限制后会自动停止,这种是很典型的批量型。
增量型:增量型 也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型,但是站内搜索引擎除外,自有站内搜索引擎一般是不需要的。增量型和批量型 不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型 不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的 抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型 需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、 网页搜索等全文搜索引擎的,一般都是增量型。
垂直型:垂直型 也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某个限制范围内进行增量型的抓取。此类型的 不像增量型那样追求大而广的覆盖面,而是在增量型 上增加个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎还不能进行准确分类,并且垂直型 也不能像增量型那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型,那么会利用增量型 以站点为单位进行内容分类,然后再派出垂直型 抓取符合自己内容要求的站点:没有增量型 作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型作业。当然在同一个站点内也会存在不同的内容,此时垂直型 也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。
影响搜索引擎抓取的因素:
抓取友好性:互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。
用抓取返回码示意:简单介绍几种百度支持的返回码:
404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果 发现这条url也不会抓取;
503代表“ ”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。
403代表“”,认为网页目前禁止访问。如果是新url,暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
301代表是“Moved ”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
抓取优先级调配:由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等等。
抓取反作弊:在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。
SEO优化,不仅仅是提升网站在搜索引擎中的排名,更是为了让网站能够更好地服务于用户,提供有价值的内容。通过了解**搜索引擎蜘蛛**的角色和SEO防范技巧,我们可以更好地优化我们的网站,提升用户体验,从而获得更多的流量和转化。
Demand feedback