2018-10-17 16:45:02 智安網絡

一、內容安全技術概述

互聯網破壞行為增加了互聯網用戶進行業務活動的風險，也降低了互聯網信息服務的管理水平和服務質量。要阻止這些網絡破壞行為，營造良好的網絡活動氛圍，就需要建立一套功能完善、性能較好且易於維護和擴展的移動互聯網信息內容安全技術體系。通過可靠的檢測技術保護信息內容安全，這種技術被稱為互聯網信息內容安全技術。

二、內容採集、過濾、審計技術

用戶要實現互聯網信息內容安全，就必須依靠先進的技術體系來保障。目前，整個技術流程可以分為對信息的採集、過濾和內容審計3個步驟。

1、內容採集技術

數據採集主要是指從本地數據庫、互聯網、物聯網等數據源導入數據，包括數據的提取、轉換和加載。由於數據源不一樣，數據採集的技術體系也不盡相同。

互聯網內容採集主要採用的技術包括內容協商、身份認證、Web 信息採集和搜索引擎等。

（1）內容協商機制

由於客戶端設備性能以及用戶喜好的不同，對同一個網絡對象質量及形式的要求也會有所不同。因此，在網絡中，一個網絡對象可能會有多種不同的表現形式，比如，同一個網絡資源會有不同的媒體類型的版本，也可能有不同語言的版本等。在向Web服務器發送請求的時候，用戶將其對網絡資源的要求包含在請求中，Web服務器在接收到這樣的請求後，會根據自身的情況對請求做出適當響應。雙方在確定了請求資源的版本後再進行資源的獲取。這種客戶端和服務器之間通過協商的方式來獲得內容的過程被稱為內容協商，內容協商機制已經得到了HTTP的支持。

（2）基於Cookie的身份認證

Web服務主要通過HTTP來實現瀏覽器和服務器之間的信息交互，由於HTTP是一種無狀態協議，它並不能在同一用戶不同時刻訪問相同Web網站時進行用戶信息的記憶與繼承，即HTTP協議無法對各個不同的用戶進行區分，Cookie就是為了彌補HTTP這一缺陷而誕生的。

利用Cookie實現身份認證是在傳統Cookie機制的基礎上，Web服務器使用自行定義的認證方式，向通過認證的客戶端傳遞一個代表客戶端身份的Cookie信息。若客戶端後續發送的請求中包含此Cookie，服務器就通過這個Cookie來識別特定的客戶端，返回客戶端請求的頁面。若客戶端後續發送的請求中不包含 Cookie，或者包含了一個服務器無法識別的Cookie，則服務器認為這是一個新用戶的請求，如果用戶請求的是一個需要用戶認證後才可以訪問的頁面，則服務器會返回一個認證失敗的頁面，並要求用戶進行身份認證。

（3）Web信息採集技術

Web信息採集技術通過分析網頁的HTML代碼，獲取網內的超級鏈接信息，使用廣度優先搜索算法和增量存儲算法，實現自動地連續分析鏈接、抓取文件、處理和保存數據的過程。系統在再次運行中通過應用屬性對比技術，在一定程度上避免了對網頁的重複分析和採集，提高了信息的更新速度和全部搜索率。由於網站內的資源常常分佈在網內不同的機器上，信息採集系統從某個給定的網址出發，根據網頁中提供的超鏈接信息，連續地抓取網頁（既可以是靜態的，也可以是動態的）和網絡中的文件，將網內的信息進行全部提取。

（4）搜索引擎

搜索引擎是指互聯網上專門提供檢索服務的一類網站，這些站點的服務器通過網絡搜索軟件或網絡登錄等方式，將Internet上大量網站的頁面信息收集到本地，經過加工處理建立信息數據庫和索引數據庫，從而對用戶提出的各種檢索做出響應，提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索等。

（5）其他採集技術

①爬蟲技術。網絡爬蟲（Web Crawler），又稱為網絡蜘蛛（Web Spider）或Web信息採集器，是一個自動下載網頁的計算機程序或自動化腳本，是搜索引擎的重要組成部分。網絡爬蟲通常從一個稱為種子集的URL集合開始運行，它首先將這些URL全部放到一個有序的待爬行隊列裡，按照一定的順序從中取出URL並下載所指向的頁面，分析頁面內容，提取新的URL並存入待爬行URL隊列中，如此重複上面的過程，直到URL隊列為空或滿足某個爬行終止條件，從而遍歷Web，該過程稱為網絡爬行（Web Crawling）。

②網絡信息挖掘技術。由於網絡可利用信息指數級地增長，信息需求者從海量的Web信息站點中檢索到有效信息並不容易。網絡信息挖掘技術是數據挖掘技術、人工智能信息檢索、自然語言理解技術在網絡信息處理中的應用。網絡信息挖掘有別於傳統的信息檢索，能夠在異構數據組成的數據庫中，從概念及相關因素的延伸比較上抽取出用戶需要的深層次的信息，幫助信息檢索者在茫茫數據海洋中快速獲取網絡信息。

2、內容過濾技術

內容過濾技術主要分為基於網關和基於代理兩類，一般來說，包括名單過濾技術、關鍵詞過濾技術、圖像過濾技術、模板過濾技術和智能過濾技術等。

（1）基於網關的內容過濾

一般嵌入專門的安全網關或者防火牆等網關設備中，此種網絡設備一般通過靜態和動態內容過濾來進行。所謂靜態過濾，就是可自定義可信站點和禁止站點。比如，靜態過濾可以阻塞對“交友社區”的訪問，以拒絕訪問“交友社區”的網站內容。動態過濾也很重要，因為Internet和Web都不是靜態的。相反，新的網頁正以每年數以億計的速度添加到Web，每分鐘都有新的站點和頁面出現。此外，Web頁也不是一個單一的實體，而是由眾多獨立的組件組成，每個組件都有它們自己的URL，瀏覽器可以單獨和獨立地獲取它們。其中，每個組件都可以通過其URL直接訪問，因此也可能是過濾對象。動態內容過濾可以通過設定URL中的關鍵詞來過濾含此關鍵詞的站點以確定用戶是否應獲取某一請求的URL，即便該URL沒有明確定義。比如，動態過濾可以拒絕訪問URL中有“Porn”字樣的所有站點。理想的防火牆不僅應支持靜態內容過濾，還應能讓用戶選擇一個可以自行決定阻塞的廣泛類別列表。這種功能可使互聯網管理者允許或阻止對任何站點類別的訪問。而且，由於Internet始終都在變化，因此，應當定期用被歸入站點類型的新URL更新類別列表。

（2）基於代理的內容過濾

主要通過專用的硬件代理上網設備實現，一般是將設備配置成代理緩存服務器，並部署在企業用戶和Internet之間，這些優化的專用設備就能夠智能地管理用戶的內容請求。當用戶請求一個URL時，請求首先到達設備相應端口安全專用設備進行認證和授權。如果請求的頁面中的對象已經在該專用設備的本地緩存中，它們就從本地直接訪問給用戶；如果不在本地緩存中，安全專用設備就作為用戶的代理，通過Internet和源服務器通信。當對象從源服務器返回時，就保存在本地緩存中為後續的訪問請求服務，同時傳送一個拷貝給訪問的用戶。整個過程被全程監控，並作記錄，供訪問報告統計提供依據。

3、內容審計技術

網絡信息內容審計是指通過採取一定的技術手段，監管網絡中不良文字、圖片、視頻等各類信息的傳播行為，以保證網絡所傳播的各類信息內容的健康性、合法性，提供乾淨的網絡信息環境。它側重於理解網絡所傳播的信息內容，判斷信息內容的性質，並根據相關的安全策略對非法、不良等各類網絡信息進行有效控制和管理，是網絡安全中保障信息資源安全性的重要組成部分。

內容審計技術，是從網絡數據分組中提取出內容，從而對信息內容進行監控與監管的技術。主要應用領域包括對郵件信息的審計、對上網外發信息（如發帖內容）的審計、對聊天信息的審計。內容審計技術如應用得當，可以作為網絡管理的有效工具，如被黑客等非法分子應用，則可作為信息竊取的工具。

網絡信息內容安全審計系統所需的相關技術支撐如下。

（1）數據分組捕獲技術

網絡數據分組是網絡信息內容審計系統主要處理的對象，高效的數據分組獲取技術是內容審計中不可或缺的關鍵技術。目前，從網絡中捕獲數據分組有2種方式：一種是採用硬件方式，在網絡端採用專用的硬件對數據分組進行捕獲；另一種是採用軟件方式，利用軟件通過計算機與網絡連接使用的網絡適配器來捕獲網絡數據分組。

（2）負載均衡技術

目前，網絡流量的增長速度遠遠超過了處理器處理能力的增長速度，無論使用何種數據分組獲取技術，利用單臺基於普通處理器的平臺無法進行百兆流量的實時內容分析。利用負載均衡處理技術可以解決這個問題，即將流量分成幾個部分，這些部分可以由多臺設備並行處理，從而可以降低單臺設備的負載，提高整個內容審計系統的性能。

（3）模式匹配技術

網絡信息內容審計系統在網絡關鍵點捕獲到數據分組後，需要利用模式匹配算法搜索該數據分組內是否出現設定的敏感模式串，以發現可疑數據分組。

現有模式匹配按照不同的分類方法可分為不同的類別。按一次在待匹配文本中需要查找的模式串個數可分為單模式匹配和多模式匹配。單模式匹配是指從文本串中一次只需要查找一個模式串，多模式匹配一次需要查找多個模式串。若按匹配過程中是否允許誤差存在分類，則可分為精確模式匹配和相似模式匹配。精確模式匹配算法要求從待匹配文本串中找出與模式串完全相同的字符串，相似模式匹配要求找出的字符串可以與模式串存在一定的誤差。其實，精確模式匹配也可以認為是相似模式匹配的一個特例，即設定相似模式匹配的誤差為零。