重拳打擊互聯網違法不良圖片 360搜索OCR技術智能“抗黑”

隨著互聯網行業的蓬勃發展,我國已成為全球第一大互聯網市場。億萬用戶享受著互聯網帶來的便捷服務的同時,也承擔著被黑色產業鏈生產的黃賭毒、製假販假和地下博彩信息帶來的風險。近年來,因互聯網違法不良信息誘發的犯罪,造成公民財產和精神損失的案件頻發。其中,不良圖片信息因其隱蔽性強、形式多樣,危害性較之普通文本信息更大,而針對此類圖片信息的監控更復雜,耗費人力物力成本也更高。

日前,360搜索利用基於深度學習的OCR技術,在360圖片搜索產品中進行落地應用。OCR技術能對互聯網上各色氾濫的違法不良圖片進行識別和監測,屏蔽和過濾掉違法不良信息,從源頭上對互聯網黑色產業發佈的違法信息予以強有力的打擊,用戶在360搜索中搜索相關圖片時,能免受違法不良圖片信息的侵害。

重拳打擊互聯網違法不良圖片 360搜索OCR技術智能“抗黑”

360圖片搜索主頁

作為國內第二大搜索引擎,360搜索服務超過4億用戶,日均8億搜索請求。圖片搜索是360搜索產品矩陣中的重要一環,收錄超過500億高清美圖,為億萬用戶提供壁紙、素材、攝影等高品質搜圖體驗。360圖片搜索在保障用戶享用高品質圖庫的同時,發力安全端,有效隔絕違法不良圖片廣告和信息。目前,360圖片搜索運用這一OCR技術日均過濾超過400萬違規圖片,對藉助圖片文本發佈違法不良信息的黑色產業予以了最強有力的打擊。

重拳打擊互聯網違法不良圖片 360搜索OCR技術智能“抗黑”

360搜索OCR技術識別放貸廣告信息

與傳統文本識別不同,圖片識別的技術難度要更大,背後牽涉的技術細節更為複雜。OCR,全稱Optical Character Recognition,即光學字符識別,是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,用字符識別方法將形狀翻譯成計算機文字的過程,簡而言之就是把圖片上的文字識別出來。從技術原理即可看出,OCR並非一個技術新名詞,熟練使用掃描儀進行文本處理的人都不會陌生。但在人工智能時代,OCR技術迎來新的革命性跨越,由傳統的識別方式,向基於深度學習下的高準確率識別邁進。

傳統的OCR識別步驟較為複雜,需要對圖片文本進行去噪預處理、圖像二值化、版式分析、傾斜校正、字符分割、特徵提取和字符識別等多重處理,任何步驟出錯都會影響最終的識別性能,並且對於複雜背景下的文字,比如廣告圖片等,識別效果差強人意。

此次360搜索實驗室基於最新的機器學習算法,結合360圖片搜索海量的圖像數據,從文本的檢測(Text Detection)到識別(Text Recognition),採用了國際流行的CNN+RNN結構模型和Attention機制等先進算法技術,針對圖片的字識別率提高到90%以上,極大程度上提高了針對不良信息內容的處理效率,實現了對於海量圖片信息的快速篩選和精準過濾。

重拳打擊互聯網違法不良圖片 360搜索OCR技術智能“抗黑”

360搜索OCR技術識別虛假證書辦理信息

當前,人工智能應用於互聯網安全領域已成大勢所趨, OCR技術正在政企機構官網防數據洩露、網站違規內容監控等方面施展拳腳。除此之外,在自動駕駛自動識別道路標識、可穿戴設備中信息交互等領域,OCR技術亦大有可為。未來,360搜索將持續深耕人工智能技術創新,不斷拓展圖像和文本識別領域更多應用空間,為用戶帶來更多便捷體驗和安全保障。



分享到:


相關文章: