您的位置：首页 >业界 >

掌握Python和英伟达这个工具，你也能做出自己的对话机器人

时间：2022-01-19 14:02:56 | 来源：机器之心Pro

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音已成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。目前，语音服务存在于各种场景中，包括实时会议记录、视频实时直播字幕、呼叫中心语音质检、实时会议记录等。想要实现不同的语音服务，这涉及到方方面面的技术，例如，在进行实时会议记录任务时，需要将会议中的音频实时转写为文字，辅助会议记录工作，同时适用于电视会议等远距离场景，这涉及到自动语音识别(ASR)技术。除此以外，我们在日常生活中，也经常遇到需要将文本转化成语音的技术(TTS)，该技术可以通过自然逼真的智能语音，让机器拥有「说话」的能力；而我们日常观看的新闻和视频APP中总是向我们推荐感兴趣的内容，这又涉及到语义理解技术。

那么，有没有一种技术，可以同时完成自动语音识别、语音合成、语义理解的技术任务？

今年，英伟达发布了 NVIDIARiva，这是一种现成的语音服务，可以轻松部署在任何云或数据中心。NVIDIARiva的设计旨在帮助用户轻松、快速地访问会话 AI 功能，实现开箱即用，通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。该服务可以处理数百至数千音频流作为输入，并以最小延迟返回文本；还能快速构建高级别的对话式 AI 服务。

NVIDIARiva是一个使用了 GPU 加速，快速部署高性能会话式 AI 服务的 SDK，可用于快速开发语音 AI 的应用程序。RivaSDK 在 NVIDIA GPU 上运行，在高吞吐量水平下提供最快的推断响应。

目前，NVIDIARiva整合了ASR、TTS和语义理解等智能算法引擎，用户可以使用这些功能进行科学研究。

为了深入了解和快速上手NVIDIARiva在构建语音方面的应用，英伟达联合机器之心推出「详解对话式AI应用服务框架NVIDIARiva」三期线上分享，通过英伟达专家的理论解读和实战经验分享，向开发者展示如何使用NVIDIARiva快速构建企业级 ASR 语音识别助手、快速构建企业级 TTS 语音合成助手、使用 Python 快速构建基于NVIDIARiva的智能问答机器人。

2022年1月26日，系列分享第3期：

使用Python快速构建基于NVIDIA Riva的智能问答机器人