日韩免费看-日韩免费精品一级毛片-日韩免费精品视频-日韩免费精品-日韩免费观看一级毛片看看-日韩免费观看视频

企億推信息網(wǎng)
專注網(wǎng)絡(luò)推廣服務(wù)

搜索引擎的智能化對(duì)于百度、360、搜狗無(wú)疑是巨大的技術(shù)更新

總體而言,搜索引擎面臨以下挑戰(zhàn)。

1、頁(yè)面爬行需要快速且全面

互聯(lián)網(wǎng)是一個(gè)動(dòng)態(tài)的內(nèi)容網(wǎng)絡(luò)。每天,無(wú)數(shù)的頁(yè)面被更新和創(chuàng)建,無(wú)數(shù)的用戶發(fā)布內(nèi)容并相互交流,要返回到有用的內(nèi)容,搜索引擎需要抓取新的頁(yè)面,但是由于頁(yè)面數(shù)量巨大,搜索引擎蜘蛛需要很長(zhǎng)時(shí)間才能更新數(shù)據(jù)庫(kù)中的頁(yè)面一次。當(dāng)搜索引擎誕生時(shí),捕獲和更新周期通常以月為單位進(jìn)行計(jì)算,這就是為什么谷歌在2003年之前每個(gè)月都有一個(gè)大的更新。

現(xiàn)在主流的搜索引擎已經(jīng)能夠在幾天內(nèi)更新重要的頁(yè)面,并且在幾小時(shí)甚至幾分鐘內(nèi)將包括在高權(quán)重網(wǎng)站上的新文檔。然而,這種快速的包含和更新只能局限于高權(quán)重的網(wǎng)站,許多頁(yè)面在幾個(gè)月內(nèi)沒(méi)有被重新爬行和更新也是很常見(jiàn)的。

為了返回比較好的結(jié)果,搜索引擎還必須盡可能全面地抓取一個(gè)頁(yè)面,這需要解決許多技術(shù)問(wèn)題,有些網(wǎng)站不利于搜索引擎蜘蛛爬行和爬行,如網(wǎng)站鏈接結(jié)構(gòu)的缺陷、Flash、Java腳本的廣泛使用,或者用戶在訪問(wèn)該部分之前必須登錄的內(nèi)容,都增加了搜索引擎爬行內(nèi)容的難度。

2、海量數(shù)據(jù)存儲(chǔ)

一些大型網(wǎng)站在一個(gè)網(wǎng)站上有數(shù)百萬(wàn)、數(shù)千萬(wàn)、甚至數(shù)億的頁(yè)面,你可以想象網(wǎng)絡(luò)上所有網(wǎng)站的頁(yè)面加起來(lái)有多少數(shù)據(jù),搜索引擎蜘蛛抓取頁(yè)面后,還必須有效地存儲(chǔ)這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具有很高的可擴(kuò)展性,對(duì)寫(xiě)入和訪問(wèn)速度的要求也很高。

除了頁(yè)面數(shù)據(jù),搜索引擎還需要存儲(chǔ)頁(yè)面之間的鏈接和大量的歷史數(shù)據(jù),這是用戶無(wú)法想象的。據(jù)估計(jì),百度擁有340多萬(wàn)臺(tái)服務(wù)器,谷歌擁有數(shù)十個(gè)數(shù)據(jù)中心和數(shù)百萬(wàn)臺(tái)服務(wù)器,這種大規(guī)模的數(shù)據(jù)存儲(chǔ)和訪問(wèn)不可避免地會(huì)面臨許多技術(shù)挑戰(zhàn)。

我們經(jīng)常在搜索結(jié)果中看到排名上下波動(dòng),沒(méi)有明顯的原因,我們甚至可以刷新頁(yè)面并查看不同的排名,有時(shí),網(wǎng)站數(shù)據(jù)也會(huì)丟失,這可能與大規(guī)模數(shù)據(jù)存儲(chǔ)和同步的技術(shù)難點(diǎn)有關(guān)。

搜索引擎的智能化對(duì)于百度、360、搜狗無(wú)疑是巨大的技術(shù)更新(圖1)

3、索引處理快速、有效且可擴(kuò)展

在搜索引擎對(duì)頁(yè)面數(shù)據(jù)進(jìn)行爬行和存儲(chǔ)后,還需要進(jìn)行索引處理,包括鏈接關(guān)系計(jì)算、正向索引、反向索引等。由于數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)量龐大,執(zhí)行pr等迭代計(jì)算既費(fèi)時(shí)又費(fèi)力,為了提供相關(guān)及時(shí)的搜索結(jié)果,只需抓取是沒(méi)有用的,同時(shí)也需要做很多的索引計(jì)算,因?yàn)樵谌魏螘r(shí)候都會(huì)添加新的數(shù)據(jù)和頁(yè)面,所以索引處理也應(yīng)該具有良好的可伸縮性。

4、快速準(zhǔn)確的查詢處理是普通用戶能看到的搜索引擎步驟

當(dāng)用戶在搜索框中輸入一個(gè)查詢并單擊“搜索”按鈕時(shí),他通常會(huì)在不到一秒鐘的時(shí)間內(nèi)看到搜索結(jié)果。簡(jiǎn)單的表面處理實(shí)際上涉及非常復(fù)雜的背景處理。在后的查詢階段,比較重要的問(wèn)題是如何在不到一秒鐘的時(shí)間內(nèi)從數(shù)、數(shù)百萬(wàn)甚至數(shù)千萬(wàn)個(gè)包含搜索詞的頁(yè)面中快速找到比較合理、相關(guān)的頁(yè)面,并根據(jù)相關(guān)度和權(quán)限進(jìn)行排列。

5、判斷用戶意圖和人工智能

應(yīng)該說(shuō),搜索引擎的前四個(gè)挑戰(zhàn)已經(jīng)能夠更好地解決,但是對(duì)用戶意圖的判斷還處于初級(jí)階段。不同的用戶搜索相同的查詢?cè)~,可能會(huì)查找不同的內(nèi)容。例如,在搜索“蘋(píng)果”時(shí),用戶是想知道蘋(píng)果的果實(shí),還是蘋(píng)果電腦,還是想知道電影“蘋(píng)果”的信息?或者他想聽(tīng)“蘋(píng)果”?沒(méi)有上下文,沒(méi)有對(duì)用戶的個(gè)人搜索習(xí)慣的理解,他就無(wú)法判斷。

搜索引擎目前正在根據(jù)用戶的搜索習(xí)慣、歷史數(shù)據(jù)的積累和語(yǔ)義搜索技術(shù)來(lái)判斷搜索意圖、理解文檔的真實(shí)含義和返回更相關(guān)的結(jié)果。

未經(jīng)允許不得轉(zhuǎn)載:啟新網(wǎng)站SEO優(yōu)化 » 搜索引擎的智能化對(duì)于百度、360、搜狗無(wú)疑是巨大的技術(shù)更新
分享到: 更多 (0)
加載中~
主站蜘蛛池模板: 色美| 欧美精品一区二区三区免费播放 | 99国产热| 免费欧美日韩 | 四虎一影院区永久精品 | 操美女b | 亚洲成人网页 | 第一福利在线观看永久视频 | 亚洲 欧美 清纯 校园 另类 | 国产高清dvd | 日韩大片免费观看 | 国产一卡2卡3卡四卡国色天香 | 99久久www免费| 996热视频 | 美国雪白人妖sarina | 蜜桃视频一区二区 | 成人欧美视频在线看免费 | 国产精品俺来也在线观看了 | 日本免费高清在线 | 国产精品自拍一区 | 91精品国产综合久久消防器材 | juliaann厨房大战 | 国产精品欧美韩国日本久久 | 亚洲入口 | 午夜AV内射一区二区三区红桃视 | 亚洲精美视频 | 涩涩漫画免费 | 我的妹妹最近有点怪免费播放 | 精品一产品大全 | 日本不卡在线视频高清免费 | 国产三级精品91三级在专区 | 青青国产成人久久激情91麻豆 | 7777奇米影视 | 久久噜国产精品拍拍拍拍 | 国产成人精品一区二三区在线观看 | 婷婷中文网 | 精品视频在线免费 | 包臀裙女教师波多野结衣 | 好逼天天有 | acg火影忍者熟密姬纲手h | 亚洲福利视频在线观看 |