数据生产流程:最好的地图是如何产生的?
发布时间: 08-19点击数:485一市民在交通高峰期从二里庄开车前往大望,按常规行驶线行走,耗时将超过1小时;某发生事故,环堵死,在“准确”的道上行驶,耗时未定……很显然,我们需要重新定义什么是“最准的地图”。“准”已经不仅限于线无误,还须能实时动态地提醒用户,走一条更快更省时的道。
“准”的极致是实时,实时的基础是动态数据,而利用动态数据则需渗入应用、云端服务、软件、数据等地图产业全层面。准的地图,地图本身只是描绘“画皮”,“画心”则在数据采集、数据开发、应用封装等一条龙服务。
凡是“准”的地图,必经四重境界:数据发现、数据采集、数据处理、数据发布。浸淫地图行业12年的,遵循并不断提升着该过程的精度和难度。回归初心,便是做一张“最准的地图”。
数据发现:众里寻他千百度
大数据的一大悖论是,一款地图产品越成熟,数据发现的难度越高。数据越来越多,面积数据中所需成分越来越小,存精程度成倍增加。十余年,从起步到多年盘踞国内手机市场,逐渐形成了多种信息发现方式,包括情报搜集平台LSE、API轨迹分析、卫星影像自动识别、UGC反馈以及浮动车等多种方式。
情报搜集平台LSE、API轨迹分析、卫星影像自动识别应用广泛和效率高。在移动互联网时代,地图独创国内众包的数据采集形式,主要包括浮动车和UGC反馈。安装了车载GPS定位装置并行驶在城市主干道上的公交汽车和出租车则是主要的浮动车。目前在全国拥有几十万辆出租车及几百万辆物流车的行业浮动车数据,发现和反馈道交通中的实时状况。对于难以通过浮动车采集况数据信息的城际高速,地图则可以通过众包的力量来解决。
数据采集:千里之行始于足下
每个采集员,都在用脚步丈量世界。不管是车辆采集、步行采集、互联网采集,还是企业用户、航空摄影测量及卫星影像、呼叫中心,千里之行都始于足下。目前拥有几十辆数据采集车,能够收集电子眼、方向信息、道名称、车道数、行车标线等道信息。
最原始的采集方式是步行采集,工作人员手持PDA和相机前往商厦、学校、商场、银行等场所拍摄照片,再录入到数据采集系统。虽然拥有国家甲级电子地图测绘资质,但采集员在进行步行采集时仍会面临“轰出门”的,比如银行,他们甚至误以为采集员是要打劫银行。
由于新浪微博、阿里巴巴等企业LBS业务均采用地图数据,通过这张撒在互联网上的“网”,得以收到大量来自用户的反馈——这是基于互联网的采集方式。据了解,每位“增值事业部”员工每天能够处理150条左右的报错反馈,每月可处理约2300 条报错反馈。
通过物流公司运输车辆上的GPS仪,同样可以发回数据,这是企业用户数据采集。如今有30 多万辆物流车在给回传数据,使得能够及时更新数据,让地图数据更加准确;与此同时,有 6 万辆出租车使用服务,并传回大量数据。
租借飞机进行航空摄影测量是采集中最高端的做法,目前市场上提供商用的三维地图主要是卫片(卫星拍摄),其分辨率近50公分。目前已经为56个城市绘制了超过7500 平方公里的三维模型,精度为厘米级别,通过航拍和实采完成。
数据处理:千锤万凿出深山
所有道数据都是采集员一个一个跑出来的。或许,用一些令人叹为观止的数据更能让你感受到这个过程的艰巨。目前,累计生产了超过400种道属性信息、超过7500平方公里三维模型数据、近5000万个POI地标信息,以及近520万公里道数据——可环绕地球赤道达130周之多。
数据处理可分为数据生产和增值数据生产。在数据生产中,值得一提的是背景生产。“背景”是指除了道和建筑之外的山、河、湖、水等“为作作背景衬托”的物体。增值数据生产包括了运营POI和深度动态信息。所谓运营POI 是指给相关 POI 信息做专页,比如在地图上集中展示的中国银行,这可以帮助 POI 更直接地展示信息。而深度动态信息,则指详细展示 POI 点的信息,比如对于一家酒店,不仅仅是到这里,而且展示其文字介绍、房价、电话等,同时也展示基于的优惠等服务信息。