對于新招聘的SEO人員,我們在日常工作中很少談到“中文分詞”和“文本分析”,但在SEO項目的實際操作中,一個成熟的SEO操作,需要進一步了解這兩者。
原因很簡單。它是搜索引擎工作原理中基本、重要的因素之一。在此之前,我們對漢語分詞有了更多的了解。本文將進一步探討文本分析在搜索引擎優(yōu)化中的重要性。
1、中文分詞
簡單理解:在seo優(yōu)化過程中,我們偶爾會遇到這樣的情況:當你檢索到一個特定的短語時,你會發(fā)現(xiàn)頁面標題不包含特定的完整關鍵字,但是頁面在SERP中排名。
事實上,對于任何內(nèi)容頁面,搜索引擎都會掌握和識別具有常識的頁面短語,利用短語的頻率,通過復雜的算法,識別頁面相關性,從而參與索引排名。
中文分詞算法一般包括正向匹配、反向匹配、小分割和雙向匹配四種策略。
當然,中文分詞是一個動態(tài)的更新過程,每天都會產(chǎn)生大量的新詞。對于搜索引擎,它需要使用一定的學習周期。一般來說,它是基于詞典(類似于大量的關鍵字庫)和相關的統(tǒng)計方法來篩選和計算相關性的。
一般來說,內(nèi)容頁經(jīng)過分詞后,會被搜索引擎按照四個簡單元素進行搜索,基本分類如下:
(1)關鍵詞
(2)詞類(關鍵詞、名詞、動詞、形容詞等屬性)
(3)頻率
(4)權(quán)重(類似于關鍵字密度)
在對部分列進行數(shù)據(jù)分析和評估后,進入反向索引序列,并在用于用戶檢索時給出相應的搜索結(jié)果。
2、文件分析
與中文分詞相比,如果從詞的角度理解頁面的內(nèi)容,經(jīng)過多年的實際經(jīng)驗,認為文檔分析更強調(diào)頁面結(jié)構(gòu)的屬性,主要包括:
(1)字數(shù)統(tǒng)計:內(nèi)容頁、可識別字數(shù)、側(cè)頁長度。
(2)項目符號:段落中使用的邏輯符號,以及文本內(nèi)容中使用的表達式字符。
(3)邏輯結(jié)構(gòu):主要包括段落結(jié)構(gòu)、內(nèi)部邏輯關系和相關詞語的使用。
(4)文本標簽:使用常用的頁面標簽,如H標簽和<strong>標簽。
文本比率:在前面一篇關于SEO代碼優(yōu)化的文章中,我們詳細闡述了這一點。
其中,文檔分析中涉及的相關元素使每個頁面獨立。在數(shù)千頁中,它有一定的稀缺性,特別是對于相關的影響因素、統(tǒng)計分析及其與網(wǎng)站排名的關系。
因此,文檔分析在SEO工作中尤為重要。