從搜索引擎的角度來看,互聯(lián)網(wǎng)上的網(wǎng)頁主要分為四類,即被抓取的網(wǎng)頁、被抓取的內容、可抓取的網(wǎng)頁和暗網(wǎng)。
四類網(wǎng)頁,熟悉網(wǎng)頁分類
顧名思義,爬網(wǎng)網(wǎng)頁是蜘蛛已經(jīng)爬網(wǎng)的網(wǎng)頁內容。要爬網(wǎng)的網(wǎng)頁尚未爬網(wǎng),但已進入等待列表。爬行是一個尚未被發(fā)現(xiàn)但已經(jīng)存在的網(wǎng)頁。暗網(wǎng)是一個網(wǎng)頁,搜索引擎無法通過自爬網(wǎng)找到一個鏈接,需要手動提交。
平時我們分析的頁面抓取主要是非黑網(wǎng)絡中的頁面抓取。每個搜索引擎在黑暗的網(wǎng)絡抓取都有自己獨到的算法。我們不做太多分析。
搜索引擎收錄有兩種主要策略,即廣度優(yōu)先策略和深度優(yōu)先策略。
大多數(shù)網(wǎng)頁除了有自己的鏈接外,還會有很多鏈接,如相關新聞、相關案例和其他詳細信息頁面的鏈接。當一個搜索引擎訪問一個頁面時,頁面上的所有鏈接都將被存儲并按順序排列,然后遍歷并抓取發(fā)現(xiàn)的頁面,然后將新發(fā)現(xiàn)的URL放入存儲并按此邏輯排列等待抓取,抓取是廣度優(yōu)先的策略。讓我們用圖片和文字來了解自己。
從搜索引擎角度分析網(wǎng)頁蜘蛛抓取內容的類別與過程
根據(jù)頁面的一個鏈接,我們可以逐層抓取它,直到到達鏈接的末尾,然后返回到初始位置,以同樣的方式抓取其余的鏈接,這是深度優(yōu)先的策略。
無論是廣度優(yōu)先還是深度優(yōu)先,搜索引擎只要有足夠的時間就可以捕獲所有的頁面,但搜索引擎的抓取能量是優(yōu)先的,這不能保證抓取頁面的全面性。由于搜索引擎受到自身資源的限制,它們不能忽視獲取頁面優(yōu)先級的問題。還有另外兩種搶奪策略。
判斷網(wǎng)頁的重要性,搜索引擎主要從自身的質量和權重來判斷。另一個重要因素是導入鏈接的數(shù)量。例如,主頁的導入鏈接必須從頁數(shù)開始,因此主頁的優(yōu)先級相對較高。
很明顯,大網(wǎng)站的優(yōu)先權是一組搜索者對大網(wǎng)站有偏好,并且他們自己的權重相對較高。這里的不僅在于PR,還在于信任。并不是說人的力量很大,而且權重也很高,搜索引擎很喜歡。很多B2B網(wǎng)站的內容量很大,但是搜索引擎不擅長抓取頁面內容,相對來說,一些比較好的網(wǎng)站可以有很好的主動性,所以新聞可以增加主動性,而且在發(fā)送到大站的主頁時也可以實現(xiàn)二次接收。
總之,搜索引擎的資源是有限的。在搜索引擎資源有限的情況下,我們應該盡可能依靠外部鏈接來引導蜘蛛,提高網(wǎng)站的權重,這是seo搜索引擎優(yōu)化長期運行中很重要的事情。