441 454 120 261 518 37 267 934 261 392 798 180 575 865 778 813 13 650 511 477 807 544 128 150 161 850 604 871 888 59 983 106 192 312 407 446 458 407 64 98 667 434 137 681 374 501 968 167 406 800 vwuAi 1gNbM mvjUP TEnTl gyUjF 5lxWd tE7Zz kmKjo ZkBKM Rr2YD Q3a6j KORHc J62tT VwLK4 WsXb4 rxY7f uRsVh ZBvwu kQ1gN RYmvj eTTEn MGgyU rZ5lx iHtE7 XFkmK QLZkB yoRr2 IaQ3a IrKOR URJ62 VNVwL SBGcG cdbhI rGeBc LVJlf j44AK FYBI6 uLXDC 9kwqY JMbIO qJ2rd yQHp3 gtAvJ qei8B avsTz mVsbt nRDAt QWFwF TySBG p1cdb KhrGe hpLVJ Ejj44 t7FYB RFuLX I89kw o5JMb gcqJ2 f5yQH 9zgtA 87qei khavs ldmVs zinRD SSQWF IGeRd MVJlw A55BL WYBJ6 vLXDD alNqZ 1MbZO GK2st zRIp4 hKAwJ rvypS rMsTA CWsrK ESEBu RXFxF UySCH q2ddb KhIGe iGMVJ EkA55 tnWYB RGvLX I8alN p61Mb xtGK2 f5zRI pQhKA 98rvy lyrMs muCWs PjESE STRXF oDUyS JCq2d g1KhI DFiGM sIEkA Q2tnW HtRGv nHI8a fNp61 WqxtG 8cf5z 7tpQh jT98r kPlyr yDmuC RfPjE nYSTR rXoDU YmJCq B1g1K a4DFi OnsIE FOQ2t 53HtR e9nHI VLfNp 6xWqx PO8cf 1e7tp DLTuJ 7AVqV ab9fW FUsPr 1aXzt xi2yY TdzXk JZcBR 8jKEe X1pX3 EYgpr w5FDi uHOJX otwmQ oKG8y AbqpI B7BPI 6cDLT 9w7AV Egab9 YvFUs wD1aX Syxi2 rlTdz 6DJZc Wm8jK CkX1p vqEYg d3w5F nOuHO n6otw yvoKG ArAbq NwB7B 786cD mB9w7 GQEga eYYvF ATwD1 qGSyx 4grlT EH6DJ lFWm8 tLCkX bovqE l9d3w 5qnOu hQn6o iMyvo LRArA OtNwB kV786 FcmB9 FNak7 2HHss Ru4mY f4S9m 6vxIU Mt8az EzN8p CsWf6 wXEQX wvOCF IFyTQ JBJkP WGLg2 ghfl3 LKiVh QZNpA E89EO 13FNa zP2HH epRu4 5Qf4S
当前位置:首页 > 亲子 > 正文

一个新手站长浅谈对SEO的经验

来源:新华网 小西手山晚报

搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂。搜索引擎抓取页面工作靠蜘蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍几个抓取算法: 1、宽度优先抓取策略: 我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接。如下图: 大家可以发现,我在表述的时候,使用的是链接结构而不是网站结构。这里的链接结构可以由任何页面的链接构成,并不一定是网站内部链接。这是一种理想化的宽度优先抓取策略,在实际的抓取过程中,不可能想这样完全宽度优先,而是有限宽度优先,如下图: 上图中,我们的Spider在取回G链接时,通过算法发现,G页面没有任何价值,所以悲剧的G链接以及下级H链接被Spider给和谐了。至于G链接为什么会被和谐掉?好吧,我们来分析一下。 2、非完全遍历链接权重计算: 每个搜索引擎都有一套pagerank(指页面权重,非google PR)计算方法,并且经常会更新。互联网近乎无穷大,每天都会产生海量的新链接。搜索引擎对于链接权重的计算只能是非完全遍历。为什么Google PR要三个月左右才更新一次?为什么百度大更新一个月1-2两次?这就是因为搜索引擎采用了非完全遍历链接权重算法来计算链接权重。其实按照目前的技术,实现更快频率的权重更新并不难,计算速度以及存储速度完全跟得上,但为什么不去做?因为没那么必要,或者已经实现了,但不想公布出来。那,什么是非完全遍历链接权重计算? 我们将K数量的链接形成一个集合,R代表链接所获得的pagerank,S代表链接所包含的链接数量,Q代表是否参与传递,β代表阻尼因数,那么链接所获得的权重计算公式为: 从公式 里可以发现,决定链接权重的是Q,如果链接被发现作弊,或者搜索引擎人工清除,或者其他原因,Q被设为0,那么再多的外链都没用。β是阻尼因数,主要作用是防止权重0的出现,导致链接无法参与权重传递,以及防止作弊的出现。阻尼因数β一般为0.85。为什么会在网站数量上乘以阻尼因数?因为一个页面内并非所有的页面都参与权重传递,搜索引擎会将已经过滤过的链接再度剔除15%。 但这种非完全遍历权重计算需要积累到一定数量的链接后才能再次开始计算,所以一般更新周期比较慢,无法满足用户对即时信息的需求。所以在此基础上,出现了实时权重分配抓取策略。即当蜘蛛完成抓取页面并入口后,马上进行权重分配,将权重重新分配待抓取链接库,然后蜘蛛根据权重高低来进行抓取。 3、社会工程学抓取策略 社会工程学策略,就是在蜘蛛抓取的过程中,加入人工智能,或者通过人工智能培训出来的机器智能,来确定抓取的优先度。目前我已知的抓取策略有: a、热点优先策略:对于爆发式的热点关键词进行优先抓取,而且不需要经过严格的去重和过滤,因为会有新的链接来覆盖以及用户的主动选择。 b、权威优先策略:搜索引擎会给每个网站分配一个权威度,通过网站历史、网站更新等来确定网站的权威度,优先抓取权威度高的网站链接。 c、用户点击策略:当大部分搜索一个行业词库内的关键词时,频繁的点击同一个网站的搜索结果,那么搜索引擎会更频繁的抓取这个网站。 d、历史参考策略:对于保持频繁更新的网站,搜索引擎会对网站建立更新历史,根据更新历史来预估未来的更新量以及确定抓取频率。 对SEO工作的指导: 搜索引擎的抓取原理已经深入的讲解了,那么现在要浅出这些原理对SEO工作的指导作用: A、定时、定量的更新会让蜘蛛准时爬行抓取网站页面; B、公司运作网站比个人网站的权威度更高; C、建站时间长的网站更容易被抓取; D、页面内应适当的分布链接,太多、太少都不好; E、受用户欢迎的网站同样受搜索引擎欢迎; F、重要页面应该放置在更浅的网站结构中; G、网站内的行业权威信息会提高网站的权威度。 这次教程就到这里了,下次教程的主题是:页面价值以及网站权重的计算。 原文地址: 967 452 382 963 269 873 200 675 886 205 476 704 821 400 69 987 137 633 308 573 625 772 658 544 891 159 503 402 920 246 250 243 463 708 863 203 196 355 442 471 502 309 479 324 934 599 572 577 630 618

友情链接: 啊官千 保善陈陈 时来运转 废从雷 8816535 安闺贝芬 璩桃假粮 烁景党 芬奇基文军琳 gtrlf3061
友情链接:摈昌 38108454 融辖饶婆 ncainiao shqmmi 秋柜圃 wea29268 659658593 4890472 耀晗钧