日前,百度宣布百度Create大会(暨百度AI开发者大会)将于1月10日举办。据悉,百度已连续第五年举办Create大会,今年的Create大会将依旧在百度希壤元宇宙中呈现,分享百度在人工智能、自动驾驶、智能交通、智能搜索、量子计算、人工智能科学计算等领域的最新进展与思考。
在Create大会正式召开之前,百度展示了如何用“手机全双工语音交互”改善使用导航应用的体验,还详细介绍了如何用“上帝视角”提升汽车的自动驾驶能力,以及百度自研的深度学习平台飞桨在科研领域的运用。
业内首发全双工语音交互技术
以实际使用场景为例,当用户驾驶车辆时使用地图导航,一般会借助时播放的导航语音认路。当环境音比较嘈杂,而用户需要修改路线的时候,语音可能会识别不请。它的原理也不难理解,如果手机App在说话的时候,又在听,它可能会识别自己说的话,非常容易造成误判。
百度语音首席架构师贾磊解释说,很长一段时间,都没有一个方案能普适的支持在手机上实现全双工的语音交互——在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。
理论上讲,想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。贾磊说,在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。
而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。通常,手机上喇叭距离麦克风的距离比较近,同时手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。
百度的技术团队融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。
据介绍,这是第一个能在手机上实现纯软件方案回声消除的技术。这个技术的实现让让人机交互更智能顺畅,更逼近人与人直接交互的体验。目前,百度已经计划将全双工语音交互运用到更多场景中,比如智能汽车。
车路一体的UniBEV解决方案
在近日的沟通会上,百度还展示了自动驾驶车路一体解决方案UniBEV。
据了解,近几年来,有的车企推出了BEV(Bird's Eye View,视觉为中心的俯视图)自动驾驶感知方案。据介绍,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加;这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。
而百度基于BEV基础上,提出了UniBEV车路一体的解决方案。它集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。
基于统一的BEV空间,UniBEV 车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。百度借助大数据+大模型+小型化技术闭环,在车端路侧的动静态感知端有更大的优势。
此外,百度还展示了飞桨团队的最新成果:推出了超大规模图学习训练技术PGLBox,是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模。据悉飞桨目前已经在百度的智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。
免责声明:本文转自网络,仅代表作者个人观点,与亚讯车网无关。其原创性以及文中陈述文字和内容(包括图片版权等问题)未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。
买车、卖车就上亚讯车网 www.yescar.cn
汽车团购 tg.yescar.cn,省心、省力、省钱!团购电话:400-6808097
关键词:百度,手机,语音,技术,消除