深度学习技术及应用国家工程研究中心

语音是智能交互重要而便捷的入口，语音技术是人工智能关键核心技术之一，已广泛应用于移动互联网、智能家居、智能车载、智能IOT、智慧医疗、智能办公和智能客服等领域。

语音预训练和大模型技术是近期业界的研究重点，我们研发了基于历史抽象的流式截断conformer的语音识别技术，下一步将重点探索语音预训练大模型，以及面向实际应用的快速蒸馏技术。同时，信号处理和语音识别一体化建模、语音识别和语义理解一体化建模、基于细粒度建模的对抗解耦合成技术，以及情感个性化合成等也是重要的创新方向。

近年来端侧语音交互需求旺盛，智能座舱成为关键应用场景，跨模态技术和三态融合的深度学习、结合虚拟人表情的情感语音合成都成为复杂语音交互业务的重要探索方向，这也使得基于专用芯片的语音技术成为业界研发的热点。语音技术从单纯的识别、合成，走向文本、语音和图像一体化交互发展阶段，需要以用户体验为核心进行持续的超越和创新。同时，隐私保护趋强，数据安全问题日渐突出，基于芯片的语音解决方案也是保护个人信息的重要手段。

工程研究中心将继续在语音预训练、跨模态融合以及智能语音芯片上深耕，引领语音技术和产业化创新。