網約車數據是個大寶藏，其實我們每次出行都在更新地圖汽車頭條網

2019-10-22 16:12:38 丸子工坊

很長一段時間地圖數據的採集都是依賴人工的採集的，比如百度地圖就是在全國範圍內放了300多輛測繪車，週期性的進行全國地圖數據的更新採集，當然這樣的效率是不高的。

數月前Uber發表了他們在出行方面的最新研究成果，名為《Improving Uber’s Mapping Accuracy with CatchME》，公開了他們在地圖數據更新方面的最新研究進展。對於像Uber這種服務出行的公司來說，地圖數據的準確性直接影響到了用戶的體驗，如果地圖數據不準確，就會導致平臺會給司機規劃一條比實際距離更遠的路徑，如果司機跟著錯誤的路線走，勢必就會導致用戶要花費更多的時間和金錢，用戶顯然不願意為這樣的錯誤買單，對於一個to C的公司來說，這樣的體驗是極其糟糕的，或許還會背上個“殺熟”、“宰客”的罪名。

那如何提高地圖數據的時效性，保證規劃路徑的準確呢？Uber的工程師給出了一個很有趣的解決思路—利用海量行車GPS軌跡發現地圖中潛在的錯誤，然後針對性的修復錯誤。這顯然和我們傳統的思路是衝突的，在我們習慣性的思維中，地圖數據是比GPS數據可靠的，因為GPS信號在城市環境中，容易受到干擾很不穩定，所以我們通常會使用道路數據來糾正GPS數據，減少誤差。那如何用不準確的數據來更新相對更準確的數據呢？Uber的做法是假設GPS軌跡和地圖數據都是不準確的，利用隱馬爾科夫模型（HMM）和維特比（Viterbi）算法，根據行程GPS點選擇出概率最高的道路序列，正常情況下，這個概率應該是一個比較大的值，說明真實駕駛軌跡和路徑預測是一致的，但是如果這個概率是一個比較小的值則說明真實的駕駛的路徑和路徑預測是不一致，則該路徑上大概率存在道路錯誤，需要針對性的修正。

進行GPS座標和地圖數據關聯的HMM需要輸入兩類參數：發射概率（EP）和傳播概率（TP），EP代表車輛在某個時刻在行駛在某條道路上的概率，TP代表車輛從一條道路形式行駛到另外一條道路的概率。

EP是通過計算GPS點到道路垂直相交點的距離來估算：

TP是通過計算GPS點位的和相應垂直捕捉點之間的可路由距離的插值來估算：

通過上面的計算，TP和EP便可以形成一個計算矩陣，根據這個矩陣Viterbi算法會選擇一個全局最優的車輛行駛路段序列。如下圖所示G1、G2、G3是GPS點位，S1-S7是道路路段，綠色的圈代表TP，黑色的箭頭代表EP，運行Viterbi算法後，便可以獲得相應的路段序列S4、S3和S1。

如果這個序列中包含不正常低的傳播概率，就表明這個地方在地圖上是沒辦法通行的，但是實際上車輛卻可以通行，則說明這個地方很可能存在錯誤，需要結合人工判讀進行解決。如下圖的SegmentA和SegmentB就是不通的，但實際上，車輛還是經過了，說明這個地方就存在錯誤。

從上文來看，這種方法雖然還是停留在半自動階段，仍然需要製圖員的參與，但是它更新地圖的效率和成本控制應該是遠遠優於傳統週期式的地圖更新方法（無論是人工採集還是航飛）。這雖然是一個利用大數據進行地圖更新的小案例，但是這確實給我們提供了一些思考的入口，未來地形圖採集更新會朝著什麼方向發展？對於這個案例，它真正意義上實現了地圖數據“取之於民，用之於民

”，用的人越多，地圖越精準，地圖越精準，用的人就會更多，在這樣的一個生態中，終端是用戶也是數據提供方。

也許你很快就可以想到這種模式其實就是“眾包”模式，目前這種模式運用的最好的就是高精地圖的圖商，但是隻有采用視覺方案的圖商才可以採用這種方案，比如國內的寬凳科技。因為視覺方案基於相對廉價的設備就可以搞定，而基於激光雷達的成本太高，只能採用集中式的採集。我們國家的“天地圖”公眾版近期也公佈會採用“眾包”的模式，但是我並不是很看好，對於眾包的生態來說，必然是需要一個自動化的終端，用戶只要揹著這個終端到處跑就行了，由平臺方自動進行數據採集和處理，公眾的參與度越低越好，你想把所有麻煩的事情扔給終端是不太現實的，除非你能給到用戶足夠多的報酬。