人類和AI對重複內容的理解不同,會造成誤判的情況。那麼怎麼了解AI判斷重複內容的規律,並加以利用好呢?
Google PageRank是立於大數據的智能算法,它們反而缺少人類自帶的:常識。
要知道,在多個頁面上編輯相同內容就會產生重複內容。但是如果您創建了關於類似產品的頁面會有怎樣的影響呢?算法會把它們標記成重複,但其實它們並是不一樣的兩個產品。例如:
· 電商:具有多種型號的或關鍵差異的相似產品
· 旅遊:酒店的分店,目的地的套餐,相似的內容
· 分類:相同的項目詳盡列表
· 業務:本地的分支機構頁面,在不同的地區提供相同服務
一 重複內容有危險
網站會出現如下情況:
· 失去競爭相同關鍵詞唯一網頁的排名
· 無法對集中的網頁進行排名,因為Google選擇了其中一個網頁作為規範
· 大量的精簡內容丟失了網站權限
二 機器如何識別重複內容
谷歌使用算法來確認兩個頁面或多個頁面是否為重複內容,而谷歌將其定義成“ 明顯相似 ”內容。
谷歌的相似性檢測利用他們的專利Simhash算法,這個算法能分析網頁上的內容。然後,它為每塊內容計算唯一的標識符,併為每個頁面組成一個散列或“指紋”。
由於網頁的數量巨大,因此可擴展性更加重要。目前,Simhash是大規模搜索重複內容的唯一方法。
Simhash指紋:
· 計算成本低,它們是在頁面單個的爬網中建立的。
· 固定長度,容易比較。
· 能夠找到重複的內容,與很多算法不同,它將頁面上的微小改變等同於散列中的微小改變。
這意味著任意兩個指紋之間的差異都可以通過算法測量並顯示為數值。為了降低評估每個也面的成本,谷歌採取了以下技術:
· 聚類:通過將多個足夠相似的頁面分在一組,只需較對聚類中的指紋,因為其他所有指針都已被分類為不相似。
· 估計:對於非常大的聚類,在計算一定數量的指紋對之後應用平均的相似性。
最後,谷歌用加權相似率排除相似的內容的某些部分(如:標題,導航,側邊欄,頁腳,免責聲明等)。它考慮到了頁面的主題,利用n-gram來確認頁面上哪些字最常出現,並在網站的上下文中是最重要的。
三 利用Simhash分析相似內容
利用Simhash查看標記為相同內容集群的地圖。OnCrawl的圖表覆蓋了對重複內容群集的相似內容策略分析。
OnCrawl的內容分析還包括相似性比例,內容聚類和n-gram分析。OnCrawl還在開發了實驗性熱圖,表明每塊內容的相似性可以覆蓋在網頁上。
按內容相似性反應網站。每一個塊表示擁有類似內容的集群。顏色表示每一個群集的規範化策略的一致性。
四 使用規範驗證集群
使用規範的URL來指示一組相似網頁中的主頁面是一種主動的聚集頁面方式。理想狀態下,由規範創建的集群和由Simhash建立的集群應該是一樣的。
標準的聚類匹配相似性聚類(綠色)。突出顯示:6頁完全相似。您的規範政策和Google的Simhash分析以相同的方式對待這些頁面。
如果不是這種情況,一般是因為網站上沒有規範的政策:
沒有規範聲明:每數百個頁的集群,平均相似率為99-100%。谷歌將會施加規範URL。你無法控制哪些頁面將被排名,而哪些頁面將不排名。
或者因為規範策略與谷歌用來對類似內容進行分組的方法之間發生衝突:
規範問題:有超過80%相似性的大型集群或每個集群的多個規範網址。谷歌會強制使用自己的規範URL,或把你希望保留的重複頁面編入索引。
你的網站群集與上面的群集不一樣。你已經遵循了相似內容的最佳做法。包含相似內容的URL(例如可打印/移動版本或CMS生成的備用URL)會聲明正確的規範URL。
過濾掉的規範策略正確處理的重複內容,其餘非規範化網址是要排名的網頁。
刪除經驗證的(綠色)組和有小於80%相似性的組之後的先前映射。其餘46個集群中的大多數只有兩頁。
仍然出現在利用Simhash和語義分析的群集中的網址是您和Google不同意的網址。
五 解決重複內容的問題
沒有最好的技巧來糾正機器對錶面相似的獨立頁面的看法:我們沒有辦法改變G谷歌識別相似內容的方式。但是,依然有一些小技巧能夠讓你的獨特內容和谷歌保持一致的感知......同時依然根據你需要的關鍵詞進行排名。
下面我們舉出五種策略:
1、解決邊緣情況
首先我們查看邊緣的情況:擁有非常低或非常高的相似度的聚類。
· 相似度低於20%:相似,但不太相同。嘗試通過鏈接群集中的網頁,使用每個網頁的不一樣的錨文本,通知谷歌將它們視為不同的網頁。
· 最大相似度:找到潛在的問題。需要豐富內容以區別網頁或將網頁合併成一個。
2、減少重複頁面的數量
網頁不要追求數量,需要追求的是質量。大量重複的網頁,將會產生網頁裡面小塊內容相似度過高,容易被搜索引擎認為是重複的頁面,將會影響到網站整體的索引。
3、使獨特的頁面
請記住:內容微小的差異也會體現在Simhash中指紋中。您需要對網頁上的內容進行重大的改變,而不是隻進行細微的調整。
如何豐富網頁的內容:
· 向網頁添加新的文本內容
· 添加更多不同的圖像描述
· 包括更完整的客戶評論
· 添加更多其他信息
· 添加更多相關信息
· 使用不同的圖片信息
· 使用非常不同的錨文本測試鏈接到不同的頁面
· 減少相似頁面之間共同的源代碼數量
· 提高網頁語義的密度
· 增加更多與主題相關的詞彙量並避免填充
4、創建排名參考頁面
若沒辦法或不適合更改你的網頁,可以考慮創建一個代替所有“相似”網頁的獨立參考頁面。這個策略利用與內容中心一樣的原理來提升多個關鍵詞的主頁面。當你需要把多個版本的產品作為獨立的頁面進行維護時,它將尤其實用。
這個策略可以用於創建固定需求和季節性機會的網頁。它能夠通過提供更為強大的語義和排名來改善頁面群。
它還能夠讓分類廣告網站,招聘網站或其他擁有許多類似列表的網站受益。參考的頁面應按獨立特徵對列表進行分組。
那該怎麼辦:
1. 創建一個參考的頁面,彙集了所有“重複”產品頁面的語義內容。它應該宣傳您要使用的所有關鍵詞並鏈接到所有“重複”URL。
2. 將每個“重複”頁面的規範網址設置為參考網頁,將參考網頁的規範網址設置成自身。
3. “重複”頁面之間的鏈接。
4. 優化網站的導航用以推廣參考網頁。
通過加強“重複”頁面,規範聲明和組合內容的鏈接,參考網頁很容易排名。
5、合併你的網頁
如果你一直在嘗試使用相同的內容來豐富網頁,你可能無法解釋為什麼要保留它們,也許是時候將它們整合到一起了。
如果你決定將頁面整合成一個:
· 保持表現最佳的URL。
· 將你正在刪除的網頁重定向(301)到你要保留的網頁。
· 將你要刪除的網頁中的內容添加到你要保留的網頁中,並對它們進行優化用以對所有群集的關鍵詞進行排名。
想了解更多【乾貨】信息,歡迎訪問黒蝠網絡
閱讀更多 黑蝠網絡 的文章