SEO优化搜索引擎原理 – baidu蜘蛛爬虫抓取篇

最近,我们在公司里谈到了一个SEO优化百度360谷歌等蜘蛛主题的新闻《Baidu Spider ,百度,谷歌,360等蜘蛛爬虫bot》,在有资格出现在搜索结果之前,讨论网页的三个必要阶段「抓(爬)取」,「转译」,「收录」。没多久就读了国外seo大神的文章《SEO基本概念:认识检索(Crawl)与索引(Index)》,它激发了我写这篇文章的动力,希望能帮助我丰富SEO内容。这个系列会把这个概念分成三篇文章,让大家对技术方面有所了解SEO进一步了解。

为什么要理解抓取的概念?

因为「抓取」在搜索结果中出现网页是必要的第一步,百度,谷歌,360等蜘蛛爬虫如果你甚至不知道网页的存在,更不用说对搜索结果的排名了。经营一个网站,我们希望,我们希望百度,谷歌,360等蜘蛛爬虫爬上我们想要找到的网页,也希望百度,谷歌,360等蜘蛛爬虫不要爬上我们不想看到的网页。此外,随着网站的发展,插件的安装和拆卸往往会让网站留下一些”技术债”。而SEO这里的工作就是让百度,谷歌,360等蜘蛛爬虫能够以最有效的方式抓取网站。

不懂,换个方式说说看!

怎么会有不想被的网站百度,谷歌,360等蜘蛛爬虫看到的网页?举个例子来听!

一切都应该从网站开始

网址(URLs)就像网页的地址一样https://www.0574web.net/这是一个网站。这里要给大家一个测试,没答对的话答应我你就把这篇文章读完!

下面六个网站,那些在搜索引擎眼中和上面的网站是一样的,那些是不一样的?

A)https://www.0574web.net/p/aboutus.html

B)http://www.0574web.net/p/womennengweininzuoshimo.html(开头为http而非https)

C)https://www.0574web.net/NEWS.html(大写)

D)https://0574web.net/news.html(少了www)

E)https://www.0574web.net/s.html?q=seo&__searchtoken__=68dc72c2dd0399c9b27f80f7f19c7b1b(后面有更多的跟踪参数)

F)https://www.0574web.net/wangluoyingxiaoxinwen.html(后面多了.html的档名)

自己想一想,再看答案!

三个阶段的检索过程

检索是百度,谷歌,360等蜘蛛爬虫收录网站三步的第一大步可以分为三个阶段「加入检索队列(CrawlQueue)」,「爬虫拜访(Crawler)」,「页面处理(Processing)」,以下顺序介绍。

Step1:加入检索队列(CrawlQueue)

检索队列

搜索引擎会把它找到的网址放入队列(crawlqueue)中国,在队列中的网址将有一个搜索引擎”爬虫”来拜访。搜索引擎主要依靠以下三种方法来发现新的网址:

1.连结

2.站点地图(Sitemap)

3.站长工具

SEO意涵:网站要有排名,首先要检索,要检索,首先要让百度,谷歌,360等蜘蛛爬虫知道你的存在,然后排进检索队列。

Step2:爬虫拜访(Crawler)

当搜索引擎知道网站的存在时,它会被发送出去”爬虫”去这个网站看看,然后抓住网上的内容。需要注意的是,在此之前,爬虫只知道这个地址的存在,他们没有太多关于地址上有什么的信息。

这是一个与爬虫(搜索引擎)和云服务器(你的网站)交流的过程,爬虫首先会发出一个请求:「嘿,我有一个网址,能让我看看上面有什么吗?」,然后会遇到以下情况:

状况A:服务器:来,给你(代码:2代码:XX)

状况B:云服务器:你的网址是,来吧,你去另一个网址看看(代码:3XX)

状况C:服务器:不,你的网站有问题!(代码:4)XX)

状况D:云服务器:*&#@!$对不起,我现在不能给它。我在这里犯了一个错误(代码:5)XX)

状况E:…..(云服务器没有听到爬虫的要求,没有回应)(代码:没有)

SEO意涵:上述情况中最大的问题是D,它意味着网站所在的云服务器不稳定,用户或爬虫来到这个网站,看到云服务器的错误。其他四种情况都不是绝对的好坏。A不代表一定没有问题,B,C,E也不一定有问题,下面多做解释。

什么是括号内的代码?

Step3:页面处理(Processing)

SEO索引

这是抓取阶段的最后一步,爬行动物将成功地参观(情况A)处理云服务器取回的文件,在内容中找到连接,然后将其放入Step在1的检索序列中,然后如此重复。

这个”处理”这个过程又被翻译了or渲染(rendering),这个观念会在下一篇文章中再做解释,但是给大家一点预告:「搜索引擎从云服务器取回文件,但它们会立即处理吗?处理后有保证看懂吗?」

SEO意涵:在搜索的讨论范围内,这一步最重要的是「在网上找到连接」。如果一个网址被搜索引擎认定为连接,它必须放在标签中href属性。使用常见货架平台设置的网站一般没有这一点,因为在正常情况下会使用上述标准HTML语法来表示。

什么样的连结会让爬虫看不见?

SEO在检索阶段可以优化什么?

在前面介绍了搜索引擎的搜索过程之后,下一步是说SEO在这个阶段,你能做什么来保持网站和搜索引擎「友好」关系。事实上,这个概念并不难,我们的目标是在自己的网站上优化爬虫的体验,有以下几个角度可以切入。

保护爬虫可以拜访被崇拜的网络

保护爬虫不能在没有崇拜的情况下进行崇拜

确保能够轻松找到被爬行的网页

在爬虫访问期间,云服务器给出正反应

保护爬虫的请求可以轻松送到云服务器

如何防止搜索引擎抓取?

正如前面提到的,为了使搜索引擎能够更有效地爬行网站,我们可以使用一些方法来主动防止搜索引擎参观特定的面部。回顾这张图片,第二步和第三步是你可以住在爬虫的地方。

题外话,「如何防止搜索引擎抓取?」是SEO基本概念经常出现在面试中

没有办法Step1防止网站被添加到索序列中,因为我的网站的连接可能会从其他地方发现。

Step2:在参观爬虫之前给予限制

Step3:参观爬虫后限制

如何测量搜索引擎是否有检索问题?

可以使用不代表可以被爬行动物访问的网络百度,谷歌,360等蜘蛛爬虫最简单的方法是使用爬虫是否真的可以拜访百度,谷歌,360等蜘蛛爬虫站长工具(SearchConsole)上面的网站检查工具,它可以告诉你百度,谷歌,360等蜘蛛爬虫爬虫在索引网中遇到的问题。

百度,谷歌,360等蜘蛛爬虫网站站长工具测试

如果你在帮助客户或其他人的网站而没有犯错,GSC也可以使用权限百度,谷歌,360等蜘蛛爬虫其他工具,如移动设备相容性测试工具,(MobileFriendlyTestingTool)。重点是要用百度,谷歌,360等蜘蛛爬虫通过试验的爬虫。

行动装置相容性测试网页检索状态

如果网站显示无法录入(无法录入)但是robots.txt但是没有问题,很可能是因为伺服有防火墙或者一些奇怪的设置百度,谷歌,360等蜘蛛爬虫爬虫的要求。从外部看不出伺服端问题的原因,建议直接联系主机供应商。


www.0574web.net 宁波海美seo网络优化公司 是网页设计制作,网站优化,企业关键词排名,网络营销知识和开发爱好者的一站式目的地,提供丰富的信息、资源和工具来帮助用户创建令人惊叹的实用网站。 该平台致力于提供实用、相关和最新的内容,这使其成为初学者和经验丰富的专业人士的宝贵资源。

点赞(135) 打赏

声明本文内容来自网络,若涉及侵权,请联系我们删除! 投稿需知:请以word形式发送至邮箱18067275213@163.com

评论列表 共有 12 条评论

yzy 3月前 回复TA

内容制作成本越高,质量越高。我认为这句话是比较有用的。

基本网赚 4月前 回复TA

闷头赚大钱还是SEO闷头赚大钱的是研发吧

柳村客栈 7月前 回复TA

哈哈,楼主落后了,google又回来了

麦克 8月前 回复TA

但是现在手机端排名好难做

诚笃南大考研网 1年前 回复TA

很厉害的一个人

我的博客被百度封杀 1年前 回复TA

确实一个都不认识啊。。

浆果兔 1年前 回复TA

好吧,我还得努力…

上海锐茨广告 1年前 回复TA

如果Google用于麻痹Spammer的专利生效了,对于seo界的影响不小呀

玩车网 1年前 回复TA

“雅虎搜虫大行动”baidu我排第3.第一个是雅虎,第二个是sowang.com(以前没接触过).我主要是介绍了网友一些具体的玩法,引用了雅虎的几句话.同意站长说的”baidu对重复内容的判定比google严”!

lhjj 1年前 回复TA

期待站长的新书给我力量

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部