百度地圖大數據如何賦能商業選址?

百度地圖大數據如何賦能商業選址?

作者 | 闞長城

題圖 | 站酷海闊

人類幾千年的文明催生了城市的發展,計算機與複雜科學帶給我們新的資源——大數據。羅馬非一日建成,人力和時間成本極大,但試想一下,如果有了大數據,羅馬的建成能夠縮短多少天呢?如今,城市裡藏了大量數據,那麼它們到底是什麼?又該如何被開採與利用?大數據如何輔助商業選址?

11月29日的數據俠實驗室,百度地圖資深研發工程師闞長城為大家介紹瞭如何開發和利用時空地理大數據,並結合百度慧眼的商業案例,解釋了大數據在商業選址中的應用。本文是其演講實錄。

大家好,我今天的分享主要是以下三個方面:

  • 地理時空大數據的介紹
  • 基於時空大數據和人工智能技術在城市規劃方面所做案例
  • 基於時空大數據的商業選址案例


▍地理時空大數據

交通流量、氣象信息、地理信息、手機信號均是時空數據。時空數據具有時間和空間屬性,時間屬性主要是指時間的變與不變;空間屬性一方面是指空間的位置,另一方面是指空間的層次和距離。

現實世界中超過80%的數據都與地理位置有關,數據量非常大。時空數據來自眾多數據源,且數據多樣、異構。

定位數據

移動互聯網時代定位是基礎服務。外賣、打車、購物,甚至視頻等APP都需要通過定位提供相應服務。比如說墨跡天氣會根據位置顯示天氣;視頻根據位置去推薦一些相關視頻。

定位類型多樣,包括衛星、基站、Wifi以及地磁等。基於衛星的定位,典型的是GPS定位,其優點是精度高,缺點是被高樓遮擋或處於室內時,定位精度較差。所以手機APP一般不直接使用GPS定位,而是使用綜合的網絡定位。

百度地圖大數據如何賦能商業選址?

百度地圖基於這些定位能力,開發綜合的網絡定位服務,通過SDK為開發者提供定位服務。定位及高精度定位技術難度大,門檻相對也較高。

主要從三個層面提供定位服務:

  • APP層面:通過SDK對外提供定位服務
  • 設備層面:提供系統級別定位
  • 芯片層面
百度地圖大數據如何賦能商業選址?

短期的定位可以反映人流的聚集和熱力。如左圖是北京某個時間的熱力圖,可以清晰區分人流量多少的區域,右圖是南京東站一天的熱力變化,可以看到從0點開始有人聚集,12點人最多,下午人又變少,定位數據可以非常直觀地反映人流量的變化。

出行OD

基於用戶每天900億次的定位軌跡數據,可以挖掘其出行OD,針對長距離的跨城出行,我們做了百度遷徙,對應下圖左邊第一個圖,中間的圖是鄭州和周邊地區的出行OD,右邊圖是青島某個交通小區的出行OD。

百度地圖大數據如何賦能商業選址?

人口常駐

基於用戶的長期位置和POI(興趣點,Point of Interest)等相關數據,挖掘全國超過13億的常駐人口數據。

用戶畫像

從人的自然屬性、社會屬性等不同方面360度刻畫產出超過萬級的標籤。

POI數據

POI能夠反映一個區域的經濟發展水平和活力等。比如,下圖中左邊是北京二環和五環區域內餐飲類的POI,對比發現:二環的POI明顯高於五環,說明POI的分佈可以反映區域的競爭業態,右邊四利用POI和人的活動模式挖掘的功能區,POI很大程度上可以刻畫空間承載的功能。

百度地圖大數據如何賦能商業選址?

路況大數據

路況可以清晰地反映路網的運行狀態,比如在什麼時間哪裡最堵。路況數據的挖掘是基於公眾數據、行業數據、卡口流量視頻等利用AI技術挖掘得到。路況目前已經覆蓋全國400多個城市,市內和城際道路覆蓋超過99%。


▍時空大數據的應用

城市地理理解

首先,基於地圖時空大數據,從不同的空間粒度進行建模,產出不同空間層次上的地理特徵。空間層次依次從宏觀到中觀再到微觀。

  • 宏觀層面:基於百度遷徙和常駐人口流動數據識別城市群,評價城市重要性。
  • 中觀層面:基於定位數據,對城市副中心發展績效進行評估,同時基於全景圖對街道品質進行評價。
  • 微觀層面:基於地塊粒度,進行城市功能區的發現。

功能區的挖掘動機和挑戰

城市規劃週期一般在5到10年左右,規劃之前往往需要了解現狀、規劃後的效果、如何跟蹤等問題,傳統手段時間較長,效率不高。基於百度地圖POI、人口以及人的活動數據進行城市用地功能的識別,可以在短時間內識別全國各個城市的用地功能。

地理空間中的POI可以反映一個區域承載的功能,如反映某區域承載的是科研教育功能,不同的功能區人的活動模式也有差異,比如說下圖,在工作日人們一般九點離家,下午五六點回家,POI和人的活動模式存在潛在語義信息。

百度地圖大數據如何賦能商業選址?

但在挖掘過程中也存在很大的挑戰:

  • 模型方面,整體來說樣本數據少、獲取困難,分類問題轉化為無監督模型;
  • 特徵方面,存在差異。對於POI類別不均衡的問題,比如餐飲類POI較多,而景區內POI較少;同類POI重要性不同,比如上圖中黃燜雞和全聚德屬於同一區域,但是其重要性有很大不同。

在特徵設計上,首先,利用路網數據將城市切分成一個個地塊,然後以地塊為單位進行特徵提取,利用tf-idf計算不同類POI重要性,如可以降低餐飲類POI的重要性,然後提升景區類POI的重要性。 對於同類POI重要性不一致的問題,可以利用POI在地圖上搜索熱度解決。這樣每個區域就對應一個各類POI重要性的向量。

其次,活動模式特徵設計,將人的一次出行定義為出發目的地以及出發到達時間,區域間的聯繫及時間就構成文檔中的單詞。

在模型設計上,第一,問題轉化。

將區域類比成文檔,區域承載的功能就類比成了文檔的主題,活動模式就類比成了單詞,然後區域POI重要性轉化為文檔元信息。

第二,主題發現,地塊語義標註。

基於地塊的Poi vector和活動模式,利用改進的LDA算法進行區域功能發現,然後進行主題聚類,基於地塊各類POI重要性排行進行語義標註,最後得到最終挖掘結果圖。

百度地圖大數據如何賦能商業選址?

通過評估應用發現,第一,實際調研,其準確率為87%。

第二,專家知識。對寧波市進行功能區發現,並與寧波規劃院一些專家確認其準確率較高,結果超過85%。

第三,規劃現狀。對比規劃現狀,發現符合預期。

百度地圖大數據如何賦能商業選址?

下圖右上角統計了每種類型的功能區各類POI的佔比,發現居住、商業、商務用地對應的POI類別前三名一致:均為公司、住宅和商業。說明居住、商業以及商務這三類POI相關性較強,土地混合利用的情況較為突出。

百度地圖大數據如何賦能商業選址?

在評價土地混合度上,可以使用信息熵度量用地混合度。上圖左下角是地塊信息熵的分佈,從圖上可以看出,北京市中心城區的用地混合度成偏態分佈。

由此說明,土地利用混合度有規律可循,進而可以對土地利用混合度進行建模。

百度地圖大數據如何賦能商業選址?

在用地混合度空間分佈上表現為:

  • 用地混合度向外逐漸呈衰減趨勢,大致呈同心圈層形態
  • 用地混合度的空間分佈呈現單中心結構
  • 距離城市中心越遠,用地混合度越低

在用地混合度建模上表現為:

  • 發現用地混合度和距離的關係,符合冪指數衰減模型
  • 對冪指數兩邊取對數,得到線性迴歸模型
  • 對地塊的混合度和地塊離中心距離進行線性迴歸分析,發現城郊用地混合度波動較大,這是由於城郊存在副中心城市和衛星城鎮,整體上呈組團式佈局,使用地混合度的空間佈局不均勻導致

如下圖所示,通過segnet/unet全卷積神經網絡,將圖片分割成路面、天空、樹木、建築等十餘個類別,再通過地理模型和機器學習算法挖掘街景的特徵及其空間分佈規律。

百度地圖大數據如何賦能商業選址?

首先使用算法對全景圖進行語義分割,上圖是語義分割的結果,顯示出每類要素的佔比,然後利用熱點識別算法進行整體的意向提取,利用非監督的聚類算法對街道特徵分析。結果分析如下:

百度地圖大數據如何賦能商業選址?


百度地圖大數據如何賦能商業選址?

通過聚類分析根據每條道路上各類景觀要素的佔比進行聚類,將道路分為:

  • 交通主導型
  • 建築密集型
  • 景觀空曠型
  • 要素均衡型
  • 綠化優良型
  • 綠樹成蔭型
百度地圖大數據如何賦能商業選址?

城市群的發現首先需要對人口遷徙數據進行分析,發現人口遷徙呈現不均衡現象,且胡煥庸線以西的人口遷徙規模和密度明顯低於以東地區。

其中通過對各省份的遷徙數據分析發現,各省份的人口吞吐量極不均衡;既有廣東、江蘇、河北等人口流動大省,也有福建、甘肅、寧夏等遷徙規模較小的省份;空間上鄰近的省份,短期人口的流動強度相對比較大;遷徙規模的大小既與該省份的人口基數相關,與該省份的空間區位、經濟建設水平、區域發展態勢等均有關聯。

百度地圖大數據如何賦能商業選址?

另外,關於城市群劃定原則有以下幾點:

  • 城市間的聯繫強度足夠大
  • 城市群內各城市須在空間上鄰近
  • 城市群內各城市不一定在空間上直接接壤

在進行城市群挖掘時,能夠基於人口遷徙數據,利用k殼分解算法進行挖掘。

基於人口遷徙和常駐人口流動數據,利用PageRank算法挖掘。結果顯示:北京、上海、廣州、深圳和成都是短期人口流動中的關鍵節點;東部沿海地區上短期人口流動呈現“帶狀均衡”模式;中西部地區的短期人口流動呈現“節點帶動”模式。

城市人口理解

城市人口理解,基於地圖出行位置大數據,挖掘人口在不同時間跨度下的個體和群體特徵。針對人口瞬時流動我們做了人流量預測,針對人們的短期出行我們做了通勤和市內OD挖掘、跨城遷徙挖掘,基於人的長期位置信息我們做了常駐人口挖掘。

在人流量預測上,我們知道每隔幾年都會發生一些踩踏事故,如果能提前知道熱門區域的人流量,就可以避免踩踏等類似事情的發生,同時人流量預測在公共安全和交通管理領域都是非常重要的。但是預測人流量也存在著問題和挑戰:特徵表達方面,時間和空間特性、異常因素方面挑戰,比如天氣、節假日等原因;模型方面,傳統時序模型很難對時空特性和異常建模。

百度地圖大數據如何賦能商業選址?

在模型設計上,對於人流量的預測可以將其轉化為圖像領域的問題來解決。

在解決時間特性、異常因素上時,基於2017年定位軌跡、地理屬性和異常因素特徵進行建模,將城市劃分成網格,將定位數據投影到網格,計算每個網格的流入和流出人數,同時考慮POI熱度,也就是將城市就轉化成了一張圖。網格就相當於圖片中的像素,網格的流入和流出就相當於圖片中的通道。人流量空間的相關性就相當於圖片中像素之間的關係,多個時刻的數據對應多張圖。如下圖所示:

百度地圖大數據如何賦能商業選址?

在將最近幾張圖的數據,放在上圖中殘差網絡模型中,模擬時間的臨近性,同時將對應時間的人流量置於中間的網絡模型中模擬時間的週期性,最後進行網絡融合,再和外部因素進行融合,就得到了整個網絡架構。

另外,在解決空間相關性時,使用CNN卷積操作,可以捕捉空間不同距離的相關性。通過多層卷積捕捉較遠區域的相關性問題,並引入深度殘差網絡,解決網絡較深訓練困難的問題。

百度地圖大數據如何賦能商業選址?

如下圖所示,在損失分佈上,損失在15%以內的網格超過了85%;在預測效果評估上,通過對規律性區域如回龍觀地鐵站人流量的進行預測,同時對突發場景如今年林俊杰演唱會人流量預測,發現模型的預測精度極高。

百度地圖大數據如何賦能商業選址?

關於常駐人口,傳統的全國人口普查,成本大,更新週期長;基於基站定位數據計算,僅依賴時間屬性,數據存在badcase,比如互聯網公司存在加班和三班制人員倒班現象;居住區也會有退休人員等。

下面是常駐點挖掘流程:

首先,地圖標註用戶六個月的定位數據;

其次,基於定位數據識別停留點,去掉路上其他地方噪點。

第三,利用DBSCAN空間聚類算法得到簇;

第四,對簇進行特徵提取,利用機器學習分類的算法挖掘,得到用戶居住地、工作地以及常去地等信息。

百度地圖大數據如何賦能商業選址?

結果顯示,其分類算法的準確和召回均約為90%。

百度地圖大數據如何賦能商業選址?

以下圖為例,青島人口數據校核結果顯示其人口誤差率小於5%,天津人口數據校核顯示,其相關係數約為0.85,通勤距離相差4%。

百度地圖大數據如何賦能商業選址?

有了人口以及人的家和公司數據,再結合用戶畫像數據,我們就可以評估學校、醫院等公共設施的配置,公園綠地的使用效率,任意區域的職住平衡和出行通勤等。

通勤是交通規劃裡的非常重要內容,通勤OD和方式和早晚高峰的擁堵是息息相關的。下面是通勤挖掘的流程:

百度地圖大數據如何賦能商業選址?

上圖左下角圖顯示,騎行和步行主要偏短距離的出行,公交和地鐵主要偏中長距離的出行,說明通勤距離對用戶通勤方式的選擇非常重要。

最後,通過不同的算法,從整體準確召回率和各通勤方式精確召回率兩個方面評估,發現精確率均在85%左右。

百度地圖大數據如何賦能商業選址?

下面看一下各種通勤方式和土地混合度、地鐵站點分佈、路網密度之間的關係。

百度地圖大數據如何賦能商業選址?

(圖片說明:通勤方式和土地混合度的關係)

左圖指用地混合度的空間分佈情況,顏色越紅表示用地混合度越高;右圖是機動車通勤空間分佈,越紅代表該空間中人採用機動車通勤比例越高。從圖中可以看出,北京中心城區土地混合度高的地方機動車出行就低,用地混合度較低地區機動車出行率較高。

百度地圖大數據如何賦能商業選址?

(圖片說明:通勤方式和地鐵站點分佈的關係,地鐵站點密度越高的地區,地鐵出行比例越高,地鐵對機動車交通的壓縮明顯。)

百度地圖大數據如何賦能商業選址?

(圖片說明:通勤方式和路網密度之間的關係,路網密度高的地區,機動車出行的比例相對較低,慢行交通的比例相對比較高。)

基於全網用戶家和公司座標以及通勤方式數據,可挖掘每個用戶的通勤距離和時間。

下圖所示,通勤距離,平均意義上,城市居民通勤距離人群佔比分佈呈現長尾型,即隨著通勤距離的增加,對應的人群佔比相應減小;近80%的城市居民平均單程通勤距離都在10km以內。

百度地圖大數據如何賦能商業選址?

通勤時間,平均意義上,城市居民通勤時間人群佔比分佈呈現長尾型,即隨著通勤時間的增加,對應的人群佔比相應減小;接近80%的城市居民的平均單程通勤時間都在50min以內。

百度地圖大數據如何賦能商業選址?


▍商業選址案例

商業選址流程

首先,宏觀區位選址,包括商圈和聚客點的確定,可使用人口分佈、交通動線以及居民的成分、品質、分佈等數據進行選址。

其次,微觀區位選址,主要指店鋪具體落位,可通過樓層品牌組合以及店鋪客流動線進行選址。

第三,對等店選擇,主要使用相似性來選擇對等店。

百度地圖大數據如何賦能商業選址?

銷售評估

根據對等店的到訪頻次和捕獲率進行銷售額預估。

百度地圖大數據如何賦能商業選址?


注:以上內容根據嘉賓闞長城在數據俠線上實驗室的演講實錄整理。圖片來自其現場PPT,已經本人審閱。點擊“閱讀原文”,獲取作者直播回放。

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後臺回覆“數據社群”,可申請加入DT數據社群。


▍加入數據俠

本文數據俠闞長城,百度地圖資深研發工程師,主要從事機器學習、深度學習、時空大數據行業應用等領域,先後獲得大數據行業應用相關專利6項。

百度地圖大數據如何賦能商業選址?

▍加入數據俠

“數據俠計劃”是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。瞭解數據俠計劃詳情請回復“數據俠計劃”,投稿、合作請聯繫[email protected]

百度地圖大數據如何賦能商業選址?



分享到:


相關文章: