版权声明:本文版权为网易汽车所有,转载请注明出处。
网易汽车12月9日报道 每当深夜寂寞难耐时,工场菌总会默默地打开siri,然后默默地调戏它一番,然而每次对着它喊“退出吧”,它就一个劲儿地跟你死循环,就是不退出。然后工场菌总是默默地按下home键,默默地说一句“傻x”之后睡觉。
上周,工场菌跟同事出去体验某品牌的智能后视镜时也遇到了点好玩的事,通过语音控制导航、拨号等一些操作还算顺畅,当问“附近有没有火锅?”时,差点没把工场菌吓懵,傻乎乎地找到1000多公里外的重庆去了。
在工场菌的眼中,语音交互技术应该就像是钢铁侠家里的 贾维斯 一样,不然还交互个啥啊。然而无情的现实告诉我们,语音交互却是“山东大汉怒骂车载智能语音”。为啥好端端地就是听不懂人话呢,还能不能好好聊天了,“不要拨号”、“取消导航”这类指令却偏偏执行拨号、导航的操作。
语音识别≠语音技术
相信很多小伙伴都把语音识别当成了语音技术的全部,其实语音识别只是语音技术其中的一个分支。语音技术还有其他多种应用, 比如说话人识别、语种识别、语音合成、音色转换、语音增强等等。
比方说语种识别,管你阿拉伯语、英语还是汉语,它都能听懂,音色转换简单点说就是男变女、女变男。
而 语音识别 呢, 是 当前发展最快、热度最高 、大家生活中接触最多的语音技术。语音识别的进步代表着机器的听力发展,是人工智能的重要一步。 说白了就是机器能听懂人话。
车载语音为何“听不懂”人话
人人都在说智能汽车,智能汽车大概可以这么理解,当汽车装上一个智能的大脑(系统),那么摄像头就变成了眼睛,各种雷达赋予了感知环境的能力,传感器差不多可以认为是神经网络吧,那么语音识别自然就是汽车的耳朵啦。
不过,遗憾的是,这个“耳朵”似乎听力不太好。
根据J.D.Power发布的《2016年美国新车质量调查》报告内容,在所有汽车买家所投诉的问题中,有23%的问题涉及汽车信息系统,而涉及语音识别系统的问题也占据了相当大的份额。
负责美国汽车质量调查的副 总裁 瑞尼-史蒂芬斯(Renee Stephens)在接受记者采访时表示:“在我们看来,语音识别系统所引发的故障仍然是汽车消费者投诉首要问题。今年以来,汽车制造商在这一领域做出了一些改进,但行动进度仍比较缓慢。”
事实上,在美国60后、70后以及千禧年和婴儿潮一代人中,车辆语音识别被称作是汽车最难使用的5大功能之一。在国内是个什么情况呢,有“山东大汉”足以一言以蔽之。
那么,为何最“耀眼”的语音识别技术还是饱受诟病呢?
早期的语音识别系统都依赖于数据库来执行语音指令,这些数据库中的数据比较简单 、有限,比 如星巴克等连锁店、xx加油站 、xx酒店和xx景区等等的地理位置。 但是在实际使用过程中,会出现许多机器难以理解的地名,还有各式各样的连人都不一定能听懂的方言,再比如当人们把“牛奶”读成“留来”,到底是机器错了还是人错了。而且,条目式的语音指令(机器能识别的固定的词组和句子)远远不能满足现实需求。另外,就算存个10000条指令,关键是谁记得住呢。
如果你问“今天天气怎么样?”机器说,没问题,我能听懂,如果接着问“明天呢?”,机器还不跟你急。所以人工智能的思维也是需要的呀。
此外,如果周边环境嘈杂那么对于语音识别系统来说就抓瞎了。有时候车载语音识别完全没手机好用,毕竟孩子啼哭的车内环境是不能跟安静的室内环境相比的呀。车内空间虽然小,噪音反而更大了,发动机噪声、风噪、外界环境噪音,再碰上车内要是几个人同时讲话,那对于语音识别来说就是“宝宝心里苦,宝宝不说”。
用麦克风阵列降低噪音干扰
既然车在语音的主要问题在于存在机器难以理解的词和车内的噪音,那么如何解决这个问题呢。
对于噪音的干扰,目前采用比较普遍的解决方法是麦克风阵列,这个阵列是 由不同方向的数个麦克风组成 的 。原理就像人的两个耳朵,这两个麦克风能够准确指出车内每一位发出声音乘客的位置。
当你在车内开始说话时,第一个捕捉到你声音的麦克风会对声音进行定向,然后只识别这个特定方向传来的声音,这个麦克风也会成为这次语音命令的输入源,如果这个时候,隔壁的麦克风听到了副驾驶的说话声,并不会对此次输入造成影响。当阵列中的麦克风数量越多,其所定位的方位越狭窄,那么所受到的干扰就会越小。
So,按照这个逻辑来看,意思是如果麦克风多到把驾驶员围成一个圈,是不是效果最好呢,不过成本可是个问题哦。
数据库 建模用于语音 自我学习
上面说了条目式指令,还有机器需要人工智能,那么把这两者结合起来是不是会好一点呢。既然无法穷举所有的语言规则,那么如果就建立一个语音模型,然后让机器自我学习。
目前,国内语音技术做的比较好的科大讯飞就是这么干的。 在科大讯飞的语音模型中,专门有一个模块是去判断一句语音命令里头的意图,在语句中寻找关键字,科大讯飞把这些关键字叫做“参数”。意图与参数,就构成了这条语音命令所要表达的信息。“我要去天安门”或者“天安门在哪”对于系统来说都是一样的,参数是“天安门”,“在哪”和“要去”是意图。
那么,既然让机器自我学习就需要大量的“粮食”喂它呀,这个粮食就是大量的语音数据。比方说,每天人们都讲些什么话,有什么不同口音等等。通常这个数据都是及时T甚至更多。
学会了一个词之后,再学习发音有什么不同,然后在一定的语境中去理解这些词,哪些是关键字,哪些是意图。通过机器对大数据进行分析、处理。
So,云系统将会成为未来的主流趋势 , 依托大服务器群、大模型、大并发,云系统能提供更好的语音识别能力和语义分析能力。
虽然技术不断地在进步,不过语音识别技术仍是一个缓慢发展过程。
热门车型推荐
奔驰S级 (进口)
- 厂商指导价(万):91.78~178.17万
- 级别: 豪华车
- 上市时间:2007年
- 在产车型:5款
- 排量(L):2.5~3.0 AT
- 油耗(L):7.8~8.5(官方)