CTI论坛(ctiforum.com)(编译/老秦):语音体验无处不在,从家里的智能技术到汽车里的命令。语音是一种新的、更人性化的与周围环境互动方式,正在推动下一波消费者和员工体验。事实上,Opus研究发现,80%受访者认为流感的流行加速了自动语音识别的采用。

由于开发人员使用了这种新的通信模式,在创建强大的用户体验时,浏览所有不同的组件可能非常困难。作为一名专注于人工智能通信领域的首席技术官,我与许多客户交谈,了解他们需要什么来使他们的语音体验成功。以下是创建强大的语音体验时应避免的四个关键问题:
忽略音频源的质量。基于语音的体验很大程度上取决于音频输入的质量和整合体验的转录能力。作为一名开发者,倡导高质量的语音数据非常重要,因为低质量的语音音频不仅难以听到,而且更难开发你的语音体验。确保您使用良好的语音格式并采用FLAC和Opus等等,这些标准提供了很好的压缩和优化。ASR供应商可以处理您拥有的任何数据,但如果您避免使用低采样率(例如8)kHz),使用更高质量的采样率(例如16kHz),你的数据会更干净。当结束时,与你的团队合作,以确保你的录音要求被听到是非常重要的。
依靠刚性架构ASR。我经常看到开发人员被锁定在提供最小灵活性的现成解决方案中。寻找一个提供低成本解决方案和易于导航的实时功能的提供商是一个现实的目标,但没有一个适合所有人的解决方案。开发者需要确切知道他们想从音频数据中获得什么,这样他们就可以选择一种技术来分析最相关的观点。寻找能够提供部署灵活性和速度、高精度、实时能力、可扩展性和定制培训的提供商非常重要。这些功能的重要性排名会根据你的使用情况而有所不同,但是选择一个对每个功能都很好的ASR技术会让你的语音体验更好,因为它们会随着最终用户的需求而变化和增长。
忽略应用程序将使用的上下文。如果你想让你的语音体验在电脑上运行,你不需要担心连接和带宽。另一方面,如果你的团队成员主要使用可能出现连接问题的移动设备,那么你应该选择最适合优化低带宽的音频编解码器,这样你就不会占用用户的网络连接。警惕封闭源代码音频编解码器也很好,因为不需要标准化。如果可能,尽量使用开源音频编解码器。
没有空间去测试和失败。所有公司对语音体验都有不同的需求,有时他们不知道语音体验在实时和现实生活中是如何工作的。构建应用程序或API在这个过程中,可能会出现很多问题。因此,当你越来越接近找到满足企业需求的产品时,在构建系统时考虑健壮性和灵活性是非常重要的。 作为一名开发者,你想为你服务的任何受众创造更好的语音体验。比以往任何时候都更重要的是,保证你的语音数据质量高,了解你的基础ASR技术能做什么,创造一个能准确处理你需要的敏捷后端体验。语音体验的时机就在现在,通过尽快添加合适的API您的语音体验将蓬勃发展,满足客户的需求。
声明:版权所有 非合作媒体拒绝转载 作者:Deepgram首席技术官Adam Sypniewski 原文网址: https://www.speechtechmag.com/Articles/Editorial/Industry-Voices/Four-Pitfalls-to-Avoid-When-Building-Compelling-Voice-Experiences-148050.aspx 摘自 C_ T_ I_论坛