「痔瘡」的32種寫法連語言學家都哭暈!百度AI嚴打醫療變體詞廣告

互聯網的進階讓虛假醫療廣告越發肆虐,騙子騙術不斷升級,非法醫療機構通過各種“變體詞”形式躲避監管漏洞坑害廣大網民。對此,百度正在通過人工智能技術對變體詞廣告嚴加打擊, 2018年上半年僅醫療變體詞推廣拒絕量就超3億。

為了吸引眼球和繞過監管,通過替換某個字體、改變順序等方式迷惑網民的“變體詞虛假廣告”是近年來常見問題。由於中國語言博大精深,同義詞、同音詞、近音詞,加之繁體字、簡體字等的混用,造成很多特定詞語變體種類繁多,令人難以識別。互聯網推廣中,如“京東”變“京i東”屬於間隔詞變體,“阿里”和“阿狸”屬於諧音變體,“盼盼防盜門”和“朌朌防盜門”屬於形似字變體。這是投機者牟取暴利的違法手段,讓很多互聯網平臺不勝其擾。

為全面打擊變體詞,百度近年來加持AI技術對正規的機構進行品牌保護。“盼盼”防盜門的品牌保護就是一個典型的例子。

此前,有廣告主以“朌朌”進行推廣,試圖以假亂真“盼盼”防盜門。百度AI風控系統監測到此情況後,自動升級添加“朌朌”等多個變體詞,嚴禁其他品牌使用“盼盼”變體詞進行防盜門推廣,保障盼盼防盜門品牌不受侵害。據百度技術人員介紹,“盼盼”的品牌變體詞十分常見,且“盼盼防盜門”全名是“亞薩合萊盼盼門業”,用戶檢索時並不會搜全稱,需要根據用戶真實意圖進行保護。而“盼盼”因有很多重合度,如熊貓盼盼、盼盼食品,還有盼盼防盜門等,可以說相當複雜。在AI風控系統升級後,百度可根據相關內容進行精準識別,最後展示相應的搜索結果。

“痔瘡”的32種寫法連語言學家都哭暈!百度AI嚴打醫療變體詞廣告

在醫療領域,變體詞的情況更是司空見慣,且更為複雜。如胃癌的變體詞“胃|癌”“胃cancer”等;癜風變體形式有百癜風、bai癜風、白I癜風、baidianfeng等。令人震驚的是,“痔瘡”一詞的變體詞在百度AI系統歷史監測中高達32種之多,而且未來還會出現更多樣形式。百度AI系統反饋,“痔瘡”的32種形式中,就“痔”的寫法就有超過8種,如娡瘡、庢瘡、峙瘡、志瘡、致瘡等;而“瘡”的寫法更是五花八門,如庢創、痔愴、痔創、痣瘡、痣窗、痣創等。按照排列組合算,像“痔瘡”這樣的醫療變體推廣數量十分龐大,傳統的人工監測和技術完全手足無措,必須用AI才能解決這一難題!

“痔瘡”的32種寫法連語言學家都哭暈!百度AI嚴打醫療變體詞廣告

百度相關負責人表示:“對於醫療領域變體詞的整治,投機者的騙術不斷更新換代,僅靠傳統的治理方式難以徹底根除。所以我們引入了AI技術,經過幾次升級,全面對正規的醫療機構的名稱進行保護,同時嚴厲打擊虛假醫療廣告。“

一方面,百度通過機器系統對發佈者進行資格審查和內容審查,同時,利用機器系統實現對95%以上的信息進行掃描過濾,每天過濾超過4.7億條。另一方面,百度強化技術研發,用技術創新精進變體詞監測力度。早在2016年,“一種授權信息的識別方法及裝置”的變體詞專利得到國家權威認證,該技術通過解析獲取預定網站的內容,能夠識別所述預定網站的內容中的徽標信息,並根據預定授權信息和所述徽標信息確定所述預定網站的合法性。

技術加持後,百度AI審核拒絕醫療變體詞推廣量日均達160萬,2018年上半年拒絕醫療變體詞推廣量超3億。

為了全面遏制屢禁不止的醫療廣告,百度還推出了很多重量級的舉措,如公立醫院品牌保護計劃。截至7月初,百度對公立醫院名稱(含簡稱)的品牌保護總量達到30252個。品牌保護後,搜索這些受保護的公立醫院名稱(含簡稱),將優先顯示官網,且不出現商業廣告。


分享到:


相關文章: