城管案件聚類分析——以北京西城爲例


摘要

針對DBSCAN算法參數對聚類結果具有較大的不確定性問題,該文提出了基於空間分析的參數優化思想。首先,基於Ripley's K函數分析,實現自適應確定數據聚類範圍EPS值;基於K-D樹分析,實現自適應確定在Eps閾值內的點數量MinPts值。然後,基於以上參數的自適應確定思想,利用R語言編寫了DBSCAN算法,進一步實現了數據的精確聚類。基於典型城市管理案件的實驗結果表明:該方法充分考慮了空間數據統計特性,具有較好的適用性,聚類簇特徵明顯,聚類質量較高。

正文

隨著各行業對海量數據處理和深度分析需求的快速增長,數據挖掘成為眾多學者研究的熱門領域[1],其中,在城市精細化管理方面,數據挖掘的興起為其提供了技術支撐[2]。隨著社會與科學技術的進步,各種有關城市管理的問題相繼而生,據多城市政府工作報告指出,伴隨城鎮化進程的穩步推進,城市管理案件(以下簡稱城管案件)的數量也在逐年上升,嚴重影響了城市市容市貌和城市發展的平穩運行。因此,利用空間數據挖掘技術對城管案件進行分析、輔助政府決策,對現代化城市管理和發展具有重要理論和實用價值。

聚類分析作為數據挖掘的一種方法已被廣泛運用,其中基於密度的DBSCAN(density-based spatial clustering of application with noise)算法,因具有聚類速度快、數據集適應性強、噪聲不敏感等顯著特點,受到了眾多研究者的關注[3]。但是DBSCAN算法需要人工確定參數Eps和MinPts,並且這兩個參數的取值直接影響數據聚類質量。針對如何選取最優參數的問題,有大量文獻提出先假定MinPts,再確定Eps值的方法,雖然避免了人工確定參數值,但這些方法是以假定MinPts為前提,仍缺乏參數的自適應確定,如文獻[4]取MinPts為4,根據數據對象集合的第4近鄰距離圖,取Eps為略低於噪音水平百分比位置的值;文獻[5]假定MinPts為3,然後根據K-dist曲線確定Eps值。針對全局參數Eps和MinPts的自適應確定,有學者進行了相關的研究。其中,以數據集特徵統計分析為前提的研究較多,文獻[6]提出將K-dist概率曲線與統計模型擬合取其峰值為Eps,繪製Noise曲線取其拐點為MinPts的方法實現了參數的自適應確定,但整個過程過於繁瑣且計算量大,實用性弱;文獻[7]通過核密度估計理論建立合適的數學模型自適應確定Eps和MinPts值,但該方法不適用於密度差別較大的數據集,且算法的計算複雜度高。也有以探索數據分區為前提的研究方法,如文獻[8-9]對數據區域先劃分再聚類;文獻[10]通過選取種子代表對象,減少區域查詢次數的方法實現高效率聚類算法。

綜上所述,現有文獻針對空間數據及空間統計特徵的研究偏少,基於密度的DBSCAN聚類算法仍需要針對研究數據集探索數據統計特性並實現高質量聚類。本文主要以Ripley’s K函數和K-D樹分析城管案件數據統計特性,並自適應確定DBSCAN算法參數,利用優化的DBSCAN算法對典型的城管案件進行數據挖掘,為城市管理政策的制訂提供決策輔助,為城管監督員的調度提供量化分析支撐,從而提升城市運行精細化管理能力。

本文以北京市西城區為研究區域。西城區位於北京市中心,是集政治、經濟、文化與旅遊業為一體的核心發展區域,其特殊的地理位置對西城區的城市管理提出了較高要求。西城區佔地面積約50萬km2,目前共有15個街道。

本文以西城區2009—2012年的網格化城市管理案件數據為研究數據源,選取佔比最大的市容環境(39%)和街面秩序(36%)為典型城管案件進行研究。根據國家標準《數字化城市管理信息系統_第2部分:管理部件和事件》(GB/T 30428.2—2013)定義,市容環境類案件是指影響城市市容與市貌的案件,主要包括暴露垃圾、綠地髒亂和道路不潔等;街面秩序類案件主要包括無照經營遊商、店外經營和流浪乞討等。

城管案件聚類分析——以北京西城為例

市容環境案件相關性分析結果

基於密度的DBSCAN算法聚類是一種非監督分類方法,在缺乏任何先驗知識的前提下,參數Eps和MinPts的取值對分析結果具有較大影響。因此,其參數的自適應確定是近年研究的熱點。本文針對參數自適應和聚類質量的問題,提出了基於Ripley’s K函數和K-D樹分析的方法優化參數值,並將此方法應用到城市精細化管理案件的數據挖掘中,為城管人員合理部署、行政政策制訂提供決策輔助。實驗結果表明,本文方法確定的參數具有較好的自適應性,聚類質量高、效果明顯,對精細化城市管理實踐工作具有現實指導意義。但是,由於積累數據量有限,實驗區相對較少,因此收集更多的數據對該算法進行驗證將是後續的主要工作。

引用格式

伏家雲,靖常峰,杜明義,等.參數優化DBSCAN 算法的城管案件聚類分析[J].測繪科學,2018,43(8):135-140.


分享到:


相關文章: