為什麼爬行預算和URL調度會在網站遷移影響排名

A+ A-
網站設計-SS-1920

今年早些時候,谷歌的加里Illyes指出,30X重定向(301,302等)不會導致PageRank的損失或稀釋。 你可以想像,許多SEO都招呼這種說法持懷疑態度。

在最近的網站管理員中心辦公時間環聊,我問谷歌的約翰·米勒或許是懷疑是否是因為在遷移過程中的知名度SEO的經驗損失,他們可能沒有意識到,影響排名的所有信號都沒有傳遞到新網頁,讓他們假設PageRank的丟失。

穆勒的答复:

是的,我的意思是,你做你的網站較大的變化隨時-如果您重定向了很多網址,如果你去從一個域到另一個,如果你改變你的網站結構-那麼所有的,它需要時間的事情安家。 因此,我們可以遵循很快,我們可以將信號有一定前鋒,但並不意味著它會發生從一天到下一個。

在遷移過程中,Googlebot需要收集大量的數據在日誌中,映射整理和內部更新,排名可以在此過程中波動。 但除此之外, 在Googlebot訪問起著遷移中的排名波動的基本組成部分,而且可以涉及到“URL調度,”爬預算的重要組成部分。

抓取預算=主機負載+ URL調度組合

URL調度實質上是“是什麼的Googlebot想參觀(網址),以及多久?”主機負載,在另一方面,是基於圍繞“從IP /主機能有什麼Googlebot的訪問,根據容量和服務器資源?”總之,這些構成了“爬行預算”為一個IP或主機。 這兩個仍然重要的遷移。

在一份10頁的小冊子,網站,你可能不會看到一個站點遷移過程中的可見性的任何損失。 但是,如果你的網站,例如,電子商務或新聞網站有幾萬,幾十萬,或多個URL? 或者,如果你歸併什麼幾個站點到一個相同的IP主機?

對於一切完全轉嫁,這一切必須開始為最低限度至少Googlebot的一個完整的網站抓取。 它甚至可能需要一段完整的網站抓取,Googlebot的理解更多關於URL - 一切都在怎樣一個網站內部配合與聯繫在一起 - 與到新遷移的網站隨後的每次訪問。

在較大的站點,可能不只要你希望發生的。

你可能已經用震垮遷移之前您最喜愛的爬行工具網站“走活”,你有信心,沒有任何問題。 但隨後的排名和整體可見性下降。 什麼可能出了錯?

很多事情可以去錯遷移,但考慮到這一點:也許沒有什麼出了問題。

也許一些尚未通過這些信號都只是“過境晚很晚的信號”,而不是“失去了信號。”

有的甚至信號可能需要幾個月通過。 為什麼? 因為Googlebot不會抓取大型網站像爬行工具做的,這是幾乎不可能的工具來模擬。

您的遷移計劃是不是Googlebot的時間表

你有一個遷移計劃。 這並不意味著Googlebot會陷入一步。 的Googlebot,有自己的工作日程了。

網址抓取頻率是在每個URL的基礎。 谷歌的約翰·米勒證實了這一點,他說:

有的URL每隔幾分鐘只是每隔幾個月爬,他人和之間有很多地方。

雖然谷歌指出,不存在影響網址的抓取頻率,在最近的一次網絡研討會的因素很多,加里Illyes簡稱“計劃”,並事先準備了Googlebot的訪問URL的“桶”。 因此,我們知道,調度存在。 它也包括在很多谷歌的專利上抓取的效率。

值得注意的是抓取頻率並不僅僅基於PageRank的,無論是。 無論谷歌的安德烈Lipattsev和加里Illyes在最近單獨的網絡研討會已經說過,PageRank是不是爬行或排名,與Lipattsev說,唯一的驅動程序“這(網頁級別)已成為中,有很多事只是一件事。”

“重要性”是非常重要的

我不會對我的字的過度道歉“重要的”,因為它已經證實,爬行調度主要是由URL的“重要性”驅動。

事實上,加里Illyes規定只是在最近的虛擬主題演講記錄採訪埃里克·恩格,他指出,我們不應該繼續關注的PageRank作為爬行或排名的唯一驅動程序。

許多谷歌專利的觸摸頁的重要性,並註明這“可能包括的PageRank,”但很顯然的PageRank只是其中的一部分。 所以頁面的重要性和PageRank是不一樣的,但一個(重要性)可以包括其它(網頁級別)。

我們所知道的是,重要的網頁更經常爬。

還有就是......當我們想到的東西是非常重要的,我們往往會更頻繁地抓取它的那種關係。
約翰·米勒

那麼,究竟什麼是“網頁的重要性?

當然,谷歌是不是要告訴我們所有的貢獻者頁面重要性,但周圍爬行效率的若干谷歌專利和管理的URL關於這個問題的觸摸。

這是幾個我發現從專利,網絡研討會,谷歌網站管理員視頻群聊,老訪談,博客文章和谷歌搜索控制台幫助。 只是要清楚,有無疑更因素,而不是這個,只有一些下面列出的因素是由谷歌證實。

網頁重要性也許貢獻者

大約有網頁重要性的其他線索,太:

  • 近日,加里Illyes與埃里克·恩格虛擬主題研討會提到,如果一個網頁被列入一個XML站點地圖,它可能會被認為比不包括其他的更重要。
  • 我們知道的hreflang和規範化作為信號(頁面機器人管理)。
  • 如上所述,PageRank的“可以被包括在頁面重要性”(可能與內部的PageRank)。
  • 在谷歌的Search Console幫助中心,內部反向鏈接被表述為“信號,以搜索關於該網頁的相對重要性的引擎。”
  • 馬特·卡茨,谷歌的前網絡垃圾頭,談到搜索引擎理解根據自己的URL參數水平位置的頁面重要性。 Illyes還採用了“關於我們”頁面,並具有向誰希望看到新鮮的內容用戶帶來不同程度的重要性的“經常更換主頁”的例子。 “關於我們”頁面並沒有太大變化。
  • 文件類型和頁面類型也在專利中提及,並且我們知道,例如,圖像類型的頻率比其他URL抓取,因為他們不經常改變。

變更管理/新鮮度也很重要

一件事,我們知道的是,變化頻率影響抓取頻率。

網址更改網絡上所有的時間。 通過在下文中可接受的閾值的搜索結果返回陳舊的內容保持尷尬的搜索引擎(以下簡稱“尷尬度量”)的概率是關鍵,它必須被有效地管理。

在大多數網頁抓取效率和信息檢索,會議程序和甚至專利學術論文的屬性術語“搜索引擎尷尬”狼等。

為了打擊“的尷尬”(返回結果中陳舊的內容),調度系統都是建立優先抓取重要的頁面和經常改變了不太重要的網頁的重要頁面,比如那些微不足道的變化或低權限的網頁。

這些關鍵頁面有通過搜索引擎的用戶與頁面不得到經常發現在搜索引擎結果頁面被看到的概率最高。

在一般情況下,我們嘗試基於我們認為這個頁面可能會改變 ,也可能是如何經常改變做我們的抓取。 因此,如果我們覺得這事停留更長的時間週期相同,我們可能無法抓取它幾個月。
約翰·米勒

這意味著重要的變化頻率隨時間在網頁上通過搜索引擎(它也可以在抓取效率提到谷歌專利)通過比較當前與頁面的以前的副本,以檢測關鍵變化的頻率的方式教訓。

重點是頁面上的變化是多麼的重要搜索引擎用戶(“關鍵材料的變化”),以及如何重要的頁面本身是用戶(頁重要性,其中可能包括網頁級別)。

請注意,穆勒說:“ 我們認為這個頁面可能發生變化。”它需要改變是有用的搜索引擎用戶的頁面的一些關鍵功能(“關鍵材料的變化”)。

為什麼不能Googlebot的訪問所有網頁遷移一次?

從上面,我們可以得出這樣的結論的Googlebot在有目的的,“工作安排”和URL的“遺願清單”網站大多是到達一個訪問期間抓取。 在桶列表中的網址已在谷歌搜索引擎系統被分配給它的“日程安排程序”,如果周圍爬行效率眾多谷歌的專利是可以相信的(見圖片)。

調度對於搜索引擎爬蟲

我說:“主要是”因為全新的網站最初發現爬行是不同的。 沒有什麼是已經存在的知識,所以沒有什麼 - URL的沒有以前的版本 - 為調度到任何比較。

Googlebot在到達您的網站,如果你的IP(主機)不吃虧訪問期間連接放緩或服務器錯誤代碼,Googlebot在完成其遺願清單和周圍檢查,看看是否有什麼事情比在原來的桶中的URL更重要列表中可能還需要收集。

如果有,那麼Googlebot可能去遠一點並抓取這些重要的網址為好。 如果沒有進一步的重大發現,返回的Googlebot另一遺願清單在您的網站下一次光臨。

無論您最近遷移的站點或沒有,Googlebot的主要是極少數(重要)的網址,以及從時間不定期走訪重點,以時間來那些被認為最不重要的,或者預計不會經常已經實質性改變(例如,老對新聞網站或電子商務站點不變的產品頁)存檔。

Googlebot在到達你的網站,你決定去住了遷移,它不是事先警告。 它已經有了一個網址列表安排您的網站上打通了,那些可能是重要的網址(搜索引擎用戶預期的重要變化)是Googlebot仍然要在此之際參觀。

這些網址還是要優先考慮。

Googlebot的是不太可能希望訪問所有新的重定向的URL,現在,因為不是所有的頁面將是同樣重要的,他們可能不能指望有因任何有用的變化發生一段時間來(等不會被安排在抓取)。

最可能的是,搜索引擎已經注意到,您的遷移正在進行中。 對Googlebot的前來參觀網址重定向將遵循(也許一個百分比的,也從時間表之外的另外一個重要的變化發現保留抓取百分比),和所有的抓取網頁的“服務器響應代碼將被報告給狀態日誌和歷史記錄日誌。

如果Googlebot遇到很多的重定向響應代碼,它可能會發送一個說,“嘿,還有某種正在那邊的遷移,”和URL調度會調度訪問作為一個結果作出反應的信號。 這是根據約翰·穆勒:

通常,當我們終於看到一個網站正在發生,我們將嘗試抓取快一點點挑上的一切。

因為他們要趕上他們做到這一點。 然而,這並不一定意味著一切都將抓取的通俗易懂,或者這一切都是值得甚至相當長一段時間“以追趕”。

在大多數情況下,只有最重要的遷移網址會抓取的為優先,也許更頻繁地比他們通常會了。 只是為了確保一切(幾個信號)對那些重要的“新”的網址(從“舊”的URL重定向)被拾起。

網頁的重要性和頻率變化時,不會網址將被訪問,當然影響的唯一因素。 這裡有幾個人:

有限的搜索引擎資源

該網以更快的速度增長比提供給搜索引擎的資源。 例如,成長的互聯網上的網站數量在2013年和2014年可用搜索引擎的資源和能力之間的三分之一必須之中IP地址(主機)日益共享和居住在他們的網站被抓取。

主機負載

每個IP(虛擬主機)的連接能力,它可以處理。 搜索引擎系統學習一段時間你的主機或IP可以處理,並根據其過去的知識日程表通過的Googlebot訪問。 如果你是一個共享的主機,虛擬IP或內容分發網絡(CDN),這也將發揮作用,為“主機負載”將學習和與知識產權其他站點共享。 Googlebot的發送中,使得它不會導致服務器破壞的方式來抓取。

URL隊列和遷移的頁面重要性低

有兩種類型的爬調度隊列。 首先,有網站隊列(嚴格來說,它的IPS /主機的隊列)。 第二,有網頁/網址的隊列,以個別網站內或從IP(主機)抓取。

的主機(在其中IP地址和網站)的隊列在很大程度上取決於“主機負載。”可這有什麼主機處理? 如果在連接或服務器錯誤代碼速度變慢,Googlebot可能甚至爬行的優先級最高的重要性,URL和從抓取降較低重要性的URL。 在遷移,這意味著低重要性的URL(通常較深的網站)可以Googlebot是否在服務器上掙扎被丟棄。

Googlebot的還會拉回來,如果遇到這些類型的減速和錯誤代碼一會兒(由谷歌的加里Illyes在東SMX 2014年確認)。 因此,甚至更少爬行。 這可能意味著,隨著時間的推移,你結束了相當多的來自於您的網站等待被訪問的URL的隊列。

主機內的網頁的隊列在很大程度上是由驅動“URL調度”。由主要基於變化頻率和頁面重要性各種排序進程隊列可以被管理。 在遷移時,可能一次的Googlebot已通知在搜索引擎中的各種播放器抓取系統(URL調度,歷史記錄等),被抓取進行排序,並通過已知的關於被重定向到的網址排隊的URL。

如果你有大量的“不重要的URL”,或與歷史的非關鍵更改網頁,或更改網頁,但在它們的功能是不夠的重要構成“重大變化”,則可能需要在隊列中等待一段時間後遷移。 而這是之前任何問題“主機負載。”

遷移期間計劃仍然適用,但你的網址隊列徐徐越來越大

當我問約翰·米勒遷移(2016月)期間安排是否仍然適用,他說是的,繼續:

我們不能只是突然遷移後爬了一個全新的龐大完整的網站。

抓取效率仍然是關鍵。

在一個站點的遷移,你已經有效地增加您網站的價值要抓取的網址的整個其他副本。 甚至更多的URL - 這是如果你已經決定在現有的主站點新的文件夾級別合併多個個別網站,以鞏固變得更加糟糕。

突然間,你問的Googlebot,以最低的抓取網址的數量增加一倍。 即使單獨直接重定向(無重定向鏈或歷史“克魯夫特” - 另一個完整的主題),Googlebot的去從指數創下了301,然後跳上到200 OK(至少每個原始URL訪問兩個網址的,所以雙該網站的大小)。

谷歌抓取高質量的網站部分的詳細

如果你加什麼,很強的針對性和以及內部連接部分,將新網站一個全新的清新,內容豐富,而老移民的一些低重要的部分仍然沒有完全爬?

那麼,有一種說法是,新的更重要的得分/更高質量的網站的欄目將被抓取多,老段注意到具有較小的重要性,或低質量的網址,排隊等待甚至更晚時,有備用的抓取能力。

換句話說,它需要更長的時間仍然得到一切跨遷移後通過。

如果你有重複或低價值的內容,該過程將需要更長的時間。 您可能需要等待數月! 根據谷歌的前網絡垃圾,馬特·卡茨負責人:

試想一下,我們抓取從網站三頁,然後我們發現另外兩個頁面,是第三頁的副本。 我們將下降三分之二的三頁,只保留一個,這就是為什麼它看起來有那麼好的內容。 因此,我們可能會導致其無法抓取相當從該網站之多。

最近,當由Eric恩格採訪時,谷歌的加里Illyes評論:

更高質量的網站的欄目抓取的更多,更深,例如,在植物或樹木高質量的部分可能意味著部分中的花頁後代會更容易被抓取,因為在網站結構的父頁面質量更高。

這在約46分鐘在下面的視頻提及。

Googlebot的還是要一個站點遷移後的重要網頁

在遷移時,一切都改變了(所有URL),但不是說改變了一切必然是用戶的一個非常重要的變化,特別是如果被重定向URL已經被歸類為“不重要”低“重大變化”的頻率。 每一個谷歌最近的專利:

在某些情況下,在搜索引擎的陳舊的內容可能沒有特別的意義,因為改動在搜索結果中列出的文檔是未成年人,或文檔的相關性基本保持不變。

難道是世界的末日,如果一個網頁,其中幾乎沒有變化,還是僅改變負載幾個動態的點點滴滴,從索引重定向?

可能不會。 用戶仍然能達到從通過您的重定向搜索引擎結果頁面的目標頁面,所以他們的經驗是不顯著減少。

你的“不重要”的頁面可能實際上增加了不少你的遷移前的可視性

這可能是因為跨越更長的尾查詢(可總結了很多)目前的排名已經到位,由於許多小的信號從傳統拿起爬隨著時間的推移成熟的URL。 最重要的網頁獲得以下遷移早期爬行,而相結合,無重要頁面的大部分低(可能包括低到沒有的PageRank)的加入巨資整體知名度。

這可以包括的相對重要性票(例如,從單獨的內部鏈接結構),這將是所有的地方。

內部鏈接信號報告

用於從這些排名目的的信號將不會跨越新生兒網址傳遞,直到抓取後更新回到了搜索引擎。 這將需要相當長的所有低重要性(但有助於可見性)頁面被抓取一段時間。

和你可能已經noindexed以前遷移之前舊網站上這些頁面的什麼? 他們可能貢獻的價值可見的東西。

加里Illyes評論在最近與埃里克·恩格說,他不認為有從noindexed網址的PageRank傳遞任何消散的虛擬主題,所以很可能,這和其他歷史排名的信號仍然會添加一些你的遷移網址。

然而,他們是在索引不再,不得再次獲得爬了很長的時間,所以任何傳統信號將需要很長的時間來通過。

他們仍然會得到從時間訪問時間,與404甚至410S一起,因為“水漲船高”是從來沒有真正走向(這是另一個整個主題,這我不打算在這裡贅述了)。

例如,在一個網站的這個例子變更地址和它的排名下降,谷歌的工程師建議的原因可能是來自舊網站的某些頁面不再被編入索引。

很顯然,有哪個沒有被整個傳遞有價值的東西,但實際上是至關重要的(從整體排名的角度看),並已在一些點在歷史上通過。

一切事宜。

“大局”和網站“本體論”需要重建

直到一切都已經被放回一起遷移之後,你的網站是一樣的。 這是一個建了一半的狀態,整體拼圖丟失或碎片四處移動的部分。

內部鏈接結構,並從自己的內部網頁的相對重要性的信號(文字周圍的內部鏈接,提供上下文,以及任何內部錨)必須重建,一開始。

Googlebot的也需要重建其網頁坐在總體架構中了解。 一切都可以偏向於任何大小合適的部位一段時間。

整個“相互聯繫”的主題或您網站的“本體論”,和所有在它的語義關聯,作為一個實體的,現在也是不完整的。

直到一切都被重新組合(包括低重要性的網頁和它們的相對內部鏈接),相關性,背景和內外部重要信號(包括網頁級別)進行重組,該網站是不是像從前那樣,即使你把所有的一個站點遷移權SEO步驟。

最初,你可能只是有彎道和重建作為網站重要頁面拼圖的側面被抓取和處理,但一切相結合,使得差異“大畫面”並在您的網站排名。

直到現場重建,因為它以前,Googlebot和其他搜索引擎工人的作業未完成。

至少等待工作得出結論之前完成。


在這篇文章中所表達的意見是那些客人筆者並不見得搜索引擎土地。 作者的工作人員在這裡列出。


Ads

分享

最近

注意你的業務:2017年我們首要的本地搜索欄

當地SEO從業者在數字營銷組合中發揮越來越重要的作用,與本地意圖的搜索繼續以快速的步伐增長 - 尤其是在移動設備上。 ...

使用AdWords API出口到第三方廣告網絡會保持OK作為谷歌仍保留在FTC和解方面採取

雖然谷歌的反壟斷和解與聯邦貿易委員會說讓他們允許部分通過其API的AdWords數據的出口將於明天到期,馬修Suche...

SearchCap:聖誕老人追踪器,谷歌API條款和SEO指標

下面是今天的搜索發生的事情,對搜索引擎土地和在網絡上其他地方的報導。 從搜索引擎土地: 使用AdWords API...

瑪琳·黛德麗谷歌塗鴉榮譽傳奇女星的事業

瑪琳·黛德麗,標誌性的德國出生的女演員,今天正在榮幸在她誕辰116週年的谷歌主頁上。 她是那個時代最高薪的女演員之一,...

谷歌圖片搜索結果中測試新的相關搜索框

谷歌在谷歌圖片搜索結果頁面的移動版本測試一種新的“相關搜索”框。 羅賓Rozhon發現了變化,在Twitter上發布的...

註釋