12月3~5日,由中国汽车工程学会主办的“互联网汽车与车联网电商大数据TELEMATICS@CHINA”论坛在上海举行。期间,来自国内外互联网、汽车行业的精英汇聚一堂,共议互联网汽车与汽车电商未来。以下为会议发言实录。演讲者为高德软件有限公司副总裁 董振宁。
董振宁:各位,今天我们在这里跟大家交流一下大数据在智能交通时代下的探索。其实14年以来,大数据领域的建设在中国国内如火如荼,包括这次大会里面也有很多的这种演讲都在讨论关于大数据的议题,与数据,在怎么建怎么用,怎么管,其实我认为很多公司都是在一个探索的过程,高德跟阿里自2013年进行交通大数据的研究和探索。按理说,高德是在行业内处在一个顶尖地位,对业务非常的了解。阿里在云计算云处理方面有很大的优势,这像家力量应该是很强的,但是实际上我们在进行应用的探索的过程当中,还是有很多很多的困难需要解决,这里面我也把我们一些应用的经验跟大家进行分享。
首先我先介绍一下高德的智能交通信息系统,目前高德的这种智能交通在全国拥有最多的用户,我们用户总量已经超过了3个亿,更重要的就是说,我们交通信息服务目前已经覆盖了114个城市,而且全国主要的高速都已经覆盖了交通信息和50%以上的主干道路。同时我们每个季度基于交通大数据来进行中国主要交通报告的数据挖掘。其实我们的投入只是业内同行的1/5,包括我们的人员也是业内人员的1/3,但是我们开通了城市数是其他人的3倍,以及我们的质量在业内都是遥遥领先。我们为什么做到这一点,我们主要依赖于大数据实现了弯道超车大数据的发展。目前来讲我们分享了超过70万的交通事件,这里面有几个显著的指标,就是说,我们数据来源其实分行业数据和公众数据两大类,有一个显著的指标就是说,高德的这种来自于公众的数据占比已经超过了50%。达到了56%。还有一个就是手机终端的数据,也超过了车载终端总包的数据。我们这种大数据的构成都是依赖于行业数据操作的时候,我们更多依赖于纵包的公众数据来运营。基于这些海量的数据,我们到底怎么用,其实这里面还是有很深的序文学问。我们在用这些数据的时候,我们秉承了两个原则,第一个是从内到外来用,首先我们利用这些海量的数据在完善我们地图数据库和完善我们基于用户出行的后台的服务。
我们在14年初的时候有一个项目,是专门用这种海量纵包数据来发现用户新增的道路,当一个高速开通之后,我们就发现,有很多的轨迹以非常高的速度在一条没有道路的区域行使,这时候很大的概率它就是一条新增的道路。我们基于这种模式来进行的全国的所有新增道路的挖掘和发现。同时基于广大的用户的行为,其实来帮我们识别哪条道路是主要的道路,是用户常走的道路,哪条是不常走的道路,我们通过路网进行频率的分析。如果有一条道路每个季度有3万多辆车不通过,但是它旁边的道路每个季度只有几十辆车通过。它的道路属性可能在我们数据里面都是一样的,但是实际用户的行为选择不一样,所有这些根据用户行为统计,我会把它迭代到我们路径规划当中,这样保证我们为用户所选的道路都是常走的用户,好用的道路,从而提升我们整个后台用户服务的质量。这就是大数据从内开始。
另外一个,这些数据应用怎么来对外,对外也是分成了两个方面。第一个方面基于公众的层面,第二个是社会的需求和政府的层面。首先第一个,我们对大数据的认识,在公司内部我们基本上都不称职为大数据,我们都称之为叫数据技术。其实大数据包括海量数据对我们来讲不是最关键的,最关键的是我们从这些海量数据当中是否能够提出有用的有质量的数据,而且我们海量的数据当中会发现,只要有10%的数据就可以影响我们所有的分析和质量。在数据处理当中,第一个最重要的事情就是数据清洗的工作,花了很多的时间和海量数据当中把脏数据剔除出去,有用的留下来。接下来我们对外提供服务,它是两个层次,第一个是公众层次,第二个层次是社会层次。对于公众层次需要这些数据的服务,它主要是什么呢,用户来讲广大用户来讲并不关心很多的事情,他最关心的就是说,导航过程当中你把我从A点安全的送到B点,在交通大数据的时代,再加一个新的功能,帮助我们更快的把用户从A点送到B点,所以说,用户是更希望不是交通信息的本身,而是把交通信息结合的路径规划来实现用户最短的到达时间的这种目的地的时间。当然对公众来讲这种交通大数据还可以做什么呢,帮他们做错峰出行。我们知道7点钟很拥堵的时候我们可以7点半出发,我们所化费的时间比7点节省很多。社会跟政府来说更宏观,就是说这些拥堵怎么产生的,以前我们所有政府的信息采集都是基于点信息的采集,通过传感线圈、摄像头进行信息采集,成本非常巨大,但是采集成效非常缓慢。而且随着时间的推移,随着设备的老化和维护,政府手里的数据慢慢变得都不可信了,机遇这些海量大数据的新型的数据时代,我们实际上有一种更低成本更全国范围内的这种数据的采集方式。基于这种数据采集方式就可以进行更多的分析,来帮助我们政府发现拥堵产生的原因和传播的机理来试图解决这些问题。
这里有几个例子,第一个我们看一下,通过大数据来解决我们的公众问题,这里面我举了一个基于高德地图时间的例子。我们晚高峰的时候高峰在东三环我去北四环,正常的路径我们走三环的路径,这个我们可以看到,它非常非常的拥堵,基于这种时时交通拥堵的计算,我们有一条非常好的路径就是走四环,它基本沿路都是绿的都是少量的黄。四环虽然比三环境多数了0.5公里,但是我只需要45分钟直接可以节省22分钟的旅程。根据我们在北京和上海这样的大城市的测算,我们基本上利用交通信息可以帮助用户节省15到20%的时间。还有一个应用场景,就是说,其实我们在用交通信息的时候不仅是我们上路的时候,我们在出行前的时候还可以帮用户进行出行的决策,在高德地图有一个很重要的功能是路况提醒,它解决的是我们上下班之后道路选择的问题。当我们早上8点半出发的时候就有一个相关的信息推送到门口,告诉我们延安高架路江苏路出口自西向东非常拥堵。这个服务上线不到一个月就超过100万的用户进行订阅,可见基于上下班拥堵是一个出行的刚需。实际上我们提供这个服务后面,我们还有很深的一些后台的计算功能,比如有一个功能就是ETA,预计到达时间。这个预计到达时间是非常不好计算的,为什么,因为它不仅仅依赖于当前时时的交通信息,桥依赖于很大程度历史信息和预测。这里面有一个图标,这是我们高德地图所有结束导航的时候,会把它实际的时间和预计到达的时间返回回来,我们针对准确率再进行评估,我们有优良中差,正确的时候我们20公里之内有86%的准确度,20公里之内77%的准确度。以后,ETA的准确度越来越高。
接下来我们看一下大数据社会的应用。这个比较有影响力的基于数据挖掘的中国主要城市的拥堵排行,一个季度发一次,12月3号就是前天我在北京把3季度的报告给发出来了。3点开的新闻发布会,5点央视就做了一个专题在央视一台报道,可见交通的影响力还是非常大的。在拥堵排行当中可以看出一些数据,北京、上海、广州、深圳,深圳最近拥堵有一些缓解,但是我们发现,二线城市的拥堵已经超出我们的想象,尤其是杭州,出于工作的原因我经常北京杭州两地跑,我发现到北京也堵杭州更堵。基于大数据我们是做的全国的数据,有一些城市我们不熟悉,比如大连,我工作之后很少去大连,我根本都不知道大连拥堵不拥堵,也不知道我的结果是不是准,在3号晚上交通报告发布之后,我就开始看网友的回复,这是互联网经常的一个工作模式,靠用户的反馈来判断我们的服务的体验好不好。我们发现有一个大连的网友发了一个非常神的回复,直接写了一个段子,说一个出租车司机在大连拥堵的时候突然把车门打开把一个蜗牛打的粉碎,人家问为什么,他说这家伙从一开始跟着我,现在已经超过我了。我们就可以看到大数据采集的方式,很真的把相关的一些数据分析出来。其实对于我们来分析拥堵的排行对我们来讲是不重要的。关键是我们是否如何能够针对这些数据发现数据的内在的规律,并尝试解决一些问题,这才是我们最重要的出发点和目的。这里我们可以看一下,对于公众出行的这种交通的拥堵模式做了一些分析我们会发现很有意思的效果。这里面我们拿北京、上海、广州、大连进行分析,对于大部分的用户来讲可以看出,早高峰一般在8点左右,晚高峰17点到18点,相对来讲晚高峰都是高于早高峰。但是我们也能看出这些数据不相同的地方。举个例子来讲,广州这条白色的线,我们发现它早高峰会从8点一直持续到11点,它拥堵程度虽然不像北京上海这么高,但是持续时间比较长。晚高峰相对来也讲也比较高。北方这种大连城市会发现,早高峰比其他城市的高峰直接早一个小时左右,其他的时候7点到8点拥堵,而它6点就拥堵。而晚上结束的比较快,晚上5点之后晚高峰就结束了。
我们又发现其他有意思的数据,比如用户的暑期、7、8、9拥堵也不一样,7、8月份的程度要明显小于9月份,9月份的拥堵程度比8月份足足增加了8.7%的拥堵。这里面我们做了限行天气对交通的影响,红点都是周一,这里面主要的原因是北京三季度的周一限行是4和9。这比限其他牌的尤其是8的车多上路30万辆。这里面我给大家解释一下,拥堵延迟的概念,它用了你在早晚高峰时间,比如我们早上高峰需要一个小时,晚上30分钟,就是60除30等于2,我们花的代价是2倍的代价。这里面可以看到,中国各个城市的路况交通压力分析。其实我们发现,拥堵的产生是有它的一些特性,举个例子讲,对于北京,即使我们在最堵的时候我们的拥堵道路只占了总道路的不到20%,尤其快速路上。这意味着说,我们80%道路都不是那么堵的,但是就这20%的拥堵道路造成了我们整个全城道路的瘫痪。北京还是考虑我们现在已经是靠限行来解决拥堵,现在限行还不够,要靠单双号限行来解决。这只是靠行政命令直接控制上路的车辆数解决拥堵。但是这种方式其实虽然有效,但是不持久。真正的有效道路我们认为,通过这种数据我们发现,其实最堵的路网分布是不均衡的,最堵的也不超过20%,对于我们来讲更多的靠这种信息的传递,让我们更多的人在使用信息工具进行辅助出行,客观上来实现这种道路分流和错峰帮助我们规避拥堵,靠科技手段提升我们的社会出行容量。
这里我们看一下,APEC对城市交通的影响,我们北京以前是高峰期是1.72,APEC是只有1.32%,这是极度畅通的情况。白天正常情况下就是1.2、1.3左右。足足下降了38%,道路平均速度从22公里一下子调到35公里,上升了60%,那几天北京人民过了极度幸福的日子,但是有一段时间你是不能上路的。这里面是APEC期间整个道路的影响,以前所有的道路都是2.6、2.7、3.0的拥堵,而APEC期间都是50%的下降,北京最大的面临的这种上路的车辆数和它的道路的使用率是北京拥堵一个很重要的原因,而且还可以看出,大量拥堵道路都是城区跟郊区之间的连接点上。每次拥堵必需的。
我们发现了问题,对于大数据来讲,最关键的是要解决问题,我们如何利用这种数据分析解决问题呢,高德跟清华大学也做了一些尝试。这时候高德跟清华大学对北京市的一些主要的道路进行研究这是北四环路的一个图,纵轴是长度,横轴是0到24小时,这是0到30天,这样就可以把它一个月的时间直接显示出来。基于这个我们可以分析出,快速路的拥堵都是由于车流交汇导致的。所以设置较强的缓冲带,在关键出口进行诱导车流,在临近学校的路口进行动态的控制。这张图是基于除了快速路之外还做了北京市的一些主要的道路,会发现主要道路的拥堵尤其关键主要道路拥堵远远严重超过快速路。主要道路基本上持续的都是这种红和黄。上进南路一带一天24小时都是拥堵的。个数据对现场进行分析,发现了很多有意思的原因,很简单,这条路是上帝到中关村的要道,本来是双向四车刀,由于路边的停车变成了两车道,再加上红绿灯不合理,造成持续拥堵。另外这条道路旁边还有一个小学,以及周边有一个商场,停车位不足也导致大家都在路边停车,客观造成拥堵。所也这些建议都是传递给我们的管理部门,希望他们根据这些我们的建议来进行相关的修改。我们再通过大数据对这些建议进行监控。所以对于交通来讲,我们在找一个新的模式,通过这种纵包的模式找到更低成本的全国的采集方案形成海量数据。基于这些数据分析的时候,每个城市拥堵的成因跟原理跟他们本身地域有很大的关系,北方城市跟南方城市不一样,一二线城市也不一样,光靠高德和阿里也很难做好,所以我们做了开放平台,联合大学、科研机构和各个相关的单位,大家一起来做,我们提供数据,这些相关研究机构来进行算法和考察给相关的政府和社会,通过我们一起努力大家治理我们整个中国社会的拥堵问题。谢谢大家。