第一步:爬行
搜索引擎通過(guò)一個(gè)特定規(guī)則的軟件跟蹤網(wǎng)頁(yè)的鏈接,從一個(gè)鏈接爬到另一個(gè)鏈接,就像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以它被稱為蜘蛛,也被稱為機(jī)器人。搜索引擎蜘蛛的爬行輸入了一定的規(guī)則,需要遵循一些生命或文件。
第二步:抓取存儲(chǔ)
搜索引擎通過(guò)蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè),并將爬行數(shù)據(jù)存儲(chǔ)到原始頁(yè)面數(shù)據(jù)庫(kù)中。頁(yè)面數(shù)據(jù)和用戶瀏覽器獲得的HTML完全一樣。搜索引擎蜘蛛在抓取頁(yè)面時(shí)也會(huì)做一些重復(fù)的內(nèi)容測(cè)試。一旦有大量的剽竊、收集或復(fù)制內(nèi)容在低重量的網(wǎng)站上,它很可能不會(huì)再爬行。
第三步:預(yù)處理
搜索引擎將蜘蛛抓取的頁(yè)面進(jìn)行各種步驟的預(yù)處理。
第四步:排名
用戶在搜索框中輸入關(guān)鍵字后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶,排名過(guò)程直接與用戶互動(dòng)。然而,由于搜索引擎的大量數(shù)據(jù),雖然每天都有小的更新,但搜索引擎的排名規(guī)則通常是根據(jù)每天、每周和每月的不同范圍更新的。