网约车数据是个大宝藏,其实我们每次出行都在更新地图

网约车数据是个大宝藏,其实我们每次出行都在更新地图

很长一段时间地图数据的采集都是依赖人工的采集的,比如百度地图就是在全国范围内放了300多辆测绘车,周期性的进行全国地图数据的更新采集,当然这样的效率是不高的。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

数月前Uber发表了他们在出行方面的最新研究成果,名为《Improving Uber’s Mapping Accuracy with CatchME》,公开了他们在地图数据更新方面的最新研究进展。对于像Uber这种服务出行的公司来说,地图数据的准确性直接影响到了用户的体验,如果地图数据不准确,就会导致平台会给司机规划一条比实际距离更远的路径,如果司机跟着错误的路线走,势必就会导致用户要花费更多的时间和金钱,用户显然不愿意为这样的错误买单,对于一个to C的公司来说,这样的体验是极其糟糕的,或许还会背上个“杀熟”、“宰客”的罪名。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

那如何提高地图数据的时效性,保证规划路径的准确呢?Uber的工程师给出了一个很有趣的解决思路—利用海量行车GPS轨迹发现地图中潜在的错误,然后针对性的修复错误。这显然和我们传统的思路是冲突的,在我们习惯性的思维中,地图数据是比GPS数据可靠的,因为GPS信号在城市环境中,容易受到干扰很不稳定,所以我们通常会使用道路数据来纠正GPS数据,减少误差。那如何用不准确的数据来更新相对更准确的数据呢?Uber的做法是假设GPS轨迹和地图数据都是不准确的,利用隐马尔科夫模型(HMM)和维特比(Viterbi)算法,根据行程GPS点选择出概率最高的道路序列,正常情况下,这个概率应该是一个比较大的值,说明真实驾驶轨迹和路径预测是一致的,但是如果这个概率是一个比较小的值则说明真实的驾驶的路径和路径预测是不一致,则该路径上大概率存在道路错误,需要针对性的修正。

进行GPS坐标和地图数据关联的HMM需要输入两类参数:发射概率(EP)和传播概率(TP),EP代表车辆在某个时刻在行驶在某条道路上的概率,TP代表车辆从一条道路形式行驶到另外一条道路的概率。

EP是通过计算GPS点到道路垂直相交点的距离来估算:

网约车数据是个大宝藏,其实我们每次出行都在更新地图

TP是通过计算GPS点位的和相应垂直捕捉点之间的可路由距离的插值来估算:

网约车数据是个大宝藏,其实我们每次出行都在更新地图

通过上面的计算,TP和EP便可以形成一个计算矩阵,根据这个矩阵Viterbi算法会选择一个全局最优的车辆行驶路段序列。如下图所示G1、G2、G3是GPS点位,S1-S7是道路路段,绿色的圈代表TP,黑色的箭头代表EP,运行Viterbi算法后,便可以获得相应的路段序列S4、S3和S1。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

如果这个序列中包含不正常低的传播概率,就表明这个地方在地图上是没办法通行的,但是实际上车辆却可以通行,则说明这个地方很可能存在错误,需要结合人工判读进行解决。如下图的SegmentA和SegmentB就是不通的,但实际上,车辆还是经过了,说明这个地方就存在错误。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

从上文来看,这种方法虽然还是停留在半自动阶段,仍然需要制图员的参与,但是它更新地图的效率和成本控制应该是远远优于传统周期式的地图更新方法(无论是人工采集还是航飞)。这虽然是一个利用大数据进行地图更新的小案例,但是这确实给我们提供了一些思考的入口,未来地形图采集更新会朝着什么方向发展?对于这个案例,它真正意义上实现了地图数据“取之于民,用之于民

”,用的人越多,地图越精准,地图越精准,用的人就会更多,在这样的一个生态中,终端是用户也是数据提供方。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

也许你很快就可以想到这种模式其实就是“众包”模式,目前这种模式运用的最好的就是高精地图的图商,但是只有采用视觉方案的图商才可以采用这种方案,比如国内的宽凳科技。因为视觉方案基于相对廉价的设备就可以搞定,而基于激光雷达的成本太高,只能采用集中式的采集。我们国家的“天地图”公众版近期也公布会采用“众包”的模式,但是我并不是很看好,对于众包的生态来说,必然是需要一个自动化的终端,用户只要背着这个终端到处跑就行了,由平台方自动进行数据采集和处理,公众的参与度越低越好,你想把所有麻烦的事情扔给终端是不太现实的,除非你能给到用户足够多的报酬。

网约车数据是个大宝藏,其实我们每次出行都在更新地图

在GIS已经完全融入主流IT,这也就意味着测绘地理信息很多传统的工程化手段需要接受IT技术的改造,融入互联网、融入主流发展。


分享到:


相關文章: