新浪汽车

沈康麒：语音科技与智能手机的Telematics

http://www.sina.com.cn 2010年12月09日 16:17 新浪汽车综合字号：大中小

　　由中国汽车工程学会主办、上汽集团和中国联通协办的2010 Telematics @ China高峰论坛于今日在上海富豪东亚环球酒店隆重开幕，论坛吸引到了700多位来自相关政府部门、汽车厂商、电信/广电运营商、软硬件生产商、TSP /SP/CP、科研院校、媒体、投资机构等的热切参与。深圳市车音网科技有限公司总经理沈康麒先生发表致辞。

深圳市车音网科技有限公司总经理沈康麒

　　大家下午好，我今天给大家分享一下我们车音网在过去一年当中用语音的技术给大家Telematics的服务提供的经验，这次讲到C4车联云，这个经过过去一年实际的推广和应用，跟各个厂商进行交流，利用自己的自身优势，总结出这样一个概念，这里给大家分享一下，这个车联云的概念最大的价值就是给大量的TSP提供商大大降低成本。可以快速的把业务铺开。

　　这个实际上就是说未来汽车生活的需求，刚刚也是很多人讲了，另外就是说车联网未来改变汽车的一些概念也不讲了，驾驶环境之下，为什么我们讲语音识别，在车里考虑安全驾车的时候，语音就是很好的手段，我们就是让大家驾车，可以通过语音获取自己所需要的信息，这个方式如果语音识别的效果很好，能够满足大量的要求，我相信很多人会使用。今天我们车联网的市场已经运用了几年时间，我们有6万会员，会员使用情况大家还是非常喜欢的应用，大家通过我们的平台，每天达到18万次的呼叫量，这么多的呼叫量里面90%就是用语音识别实现的。用户的方式就是可以接收的，用户的大量使用过程当中，积累了用户的使用习惯，这样的基础之上提出C4车联云的概念。

　　这个实际上实现车联网的一个理念，今天从车联网的角度来说，我们有这么一个平台，这么一个平台我们达到目的是什么？我们希望通过这个平台把人车和交通结合起来，进行完整的结合，大家通过这么一个平台，实现人与人的交流，人与车的交流，方便获取自己想要的信息。下面重点讲一下，我们在所谓的语音平台研究上的一些心得，那我在这里简单的介绍一下，我们昨天因为外面有一个展台，很多人来问我们，我们用的是不是什么技术，这个里面我稍微纠正一下，今天我们车联网里面用的语音技术都是我们自己研发的，我们没有采用任何第三方的技术。

　　这次云计算的特性，我们车联网所有的应用通过后台实现，我们今天车联网就是和车载蓝牙联系起来，进行车联网的应用，我们所谓的语音指令发到后台，后台进行语音识别之后，推送到手机端进行执行和运算，所以说这么一个运行模式，上面已经开始了一些应用，目前我们应用数据来看，这个效果还是非常好的，我简单介绍一下，我们搞这个平台上面，自己集成了那些比较好的技术，第一个就是非特定人的语音识别技术，这个里面搞语音识别的人很多，搞的比我们好的人也是很多，我们这里就是有两个优势，第一个优势就是把语音识别做好，这个模型的训练是非常重要的。因为我们是非特定人，不要求用户训练，怎么样不要求用户训练的情况下，保证语音识别达到满足用户的要求？用户在车里，十次里面九次是错误的，我们就是关门了，十过十次里面一次是错误的，我们就是成功的。

　　车载的情况下，高速公路下我们达到90%的识别率就是有把握的，达到这个条件我们这个团队大概做了十几年语音识别经验，我们积累了很多的样本，第二个我们在车载环境下做了四年的时间，我们采集了车载环境下很多的语音样本，今天车联网的角度来说，语音识别用到车联网领域这个也是非常重要的，目前我们有6万人会员，这个实际使用的语量也是非常重要的，这个就是车音网的核心东西，我们强大的语料库就根本的东西，这个非特定语音识别的技术实现，这个东西因为时间关系，技术上的原理不讲了。

　　第二个就是声闻识别技术，这个就是说判断这个声音，根据这个声音判断您这个人的这么一个技术，今天我们车音网第一阶段，我们在4.0会使用这个技术，用来作为身份的界定，不能做的很高级别上，还是有一些缺陷，但是用在一些不是特别重要的界定一定可以了，还有就是语音检索技术，我们最近搞了一套直接对音频资料进行语音检索的技术，今天如果放了中央人民广播电台的资料，在我们的界面上输入上海汽车这个字，只要音频里面讲到上海汽车这段声音都是可以找出来，我们现在测试下来的技术大概准确度达到98%。

　　这个语音检索技术在4.0平台上可以应用，我们会推出车音网个性化语音电台，就是个性化电台的推广，这个就是说用户可以定义自己想听的内容，输入关键词，我们跟中央人民广播台合作，定制相关的内容抽出来来听，这个用户也是觉得比较有价值的东西。

　　第四个就是自然语法下的语音识别的模型，这个也是车音网重点研发的一个东西，大家都在讲TSP的服务，这个里面大量的都在用人工，我们现在看到这个里面用的最多的就是导航，今天看到无论ONSTAR，还是GBOOK设置导航的时候就是人工设置，这样的成本很高，有没有办法降，比如说40%，50%人工，目前语音识别如果用这种方式来做，实现比较有难度，用户设置目的地，很难把准确目的地说出来，如果自然语音就是可以实现的，今天我们也在研发的方向，我们也跟一些车厂合作，研发一些东西，我们相信这个自然语言的东西出来之后，对于导航，对于TSP大量的人工价值也是有价值的。

　　还有就是旋律识别，这个技术很多公司也是有，这样的技术集成在平台上，提供给第三方来用，还有就是移动环节云技术，云的概念已经很热了，大家已经讲了，这个里面不介绍了。

　　我们车联云的概念，我上面讲到的这几大技术，就是语音识别，语音合成，那么声闻识别，旋律识别，自然语言识别，这几个语音有关的东西组成一个平台，我们可以把这个平台让各大TSP作为接入来用，第一阶段可以自动化的程度做好，100个电话接入，60个处理了，这个对于人工节约有很大的好处。

　　这个是我们整个平台的功能的介绍，大家可以看一下，我们有客户端，今天的客户端已经集成到了手机里面，这个手机可以上车给车用，下车给人用，第二个就是客户端集成到了车里面，把客户端集成到车里面，我们体归服务，还有就是平台服务，这个平台里面提供了很多应用，今天我们车音网里面提供语音拨号，导航，个性化电台，音乐，语音实名这样的应用在里面，这样的应用从车音网角度来说，我们跟某些厂商在谈，您可以不采用我的东西，我可以自动化处理你的东西，有的平台上的应用可以不用，但是把别人的应用放在这个平台上，就是省了大量的人工成本，这个应用层的东西我们自己也在开发，我们希望更多的应用放到这个平台上使用。

　　最下面一层平台就是我们的最底层的核心平台，这个里面有声闻识别，音频搜索，还有大量的语音特征库，还有自然语言模型等等，这个地图引擎也是和第三方地图公司合作的，这个里面我要介绍一下，我们这次做的自然语言模型，对于POI的搜索，和地图紧密的结合，从底层开始做的，我们用的是分布式架构的检索，如果导航到上海豫园，这个就是上海找出来，这个可以锁定，然后找豫园，这样的准确度大大提高，这次自然语音结合和地图的结合就是精密的结合，大量的语言模型，语法结构的基础之上做这样的东西，另外车音网两个来源，一个就是最近采集了一万个语量，让自己的会员来做，这个就是真实的语言来说，成为语料，在我们的架构里面，有下面底层的频率，我们会提供SDK可以接入进来，人工应用可以自己去做。

　　那就是说这是我们服务提供的模式，今天车音网两个方向，一个就是后装提供B2C的方式，还有一个平台给TSP的厂商降低人工成本，提高整个平台的效率，这个就是车音网目前提供的手机端的应用，我们有展台可以看一下，另外就是我们车音网的一些研发环境，这里简单介绍一下，一个就是我们的团队是做云识别十几年了，应该是很成熟的团队，最近我们得到了一些国家的课题，比如说像国家搜索引擎专家组做的语音识别多媒体的一些搜索应用，我们也在做。

　　商业模型也不讲了，这个是我们最近在做两个方向，一个自然语音的识别模型，重点就是做POI的识别，第二个就是声象音讯系统，就是手机的屏映射到车载的屏幕上去，这个是很有意思的应用，另外我们叫智能实时路况的平台，这个就是要结合起来做，我们已经规划怎么做这个事情，就是说从车音网的角度来说，我们通过这个平台，让更多的车接入这个平台，享受这样的服务，明年会有30万辆车接入我们这个平台，谢谢大家。

(编辑：姵姵)

转发此文至微博 | 打印此页

看完该新闻后，你的评价是：