销售咨询热线:
售后服务热线:4000-830-188
捷通华声灵云语音合成技术:让人机交互更有“温度”
【来源】:互联网 【作者】:匿名 【时间】:2021-12-03 【阅读】:

      语言的多模态应用已成为人们生活中习以为常的现象,一句简单的语音控制,一次短暂的智能客服答疑。这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判......

  有 “温度”的声音

  语音技术主要分为语音合成(Speech Synthesis, 或者 Text to Speech),语音识别(Speech Recognition, 或者 Speech to Text),自然语言处理。其中,语音合成技术发展最早,且应用已较为普遍。

  “说”是人机交互无法忽视的环节,语音合成的重要性日益凸显。

  语音合成技术旨在通过将文字转化为语音,让机器“开口说话”使得机器变得有“温度”,实现趋于完美的人机交互。

  从早期的机械化语音合成开始发展至今,语音合成的应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报,场景相对单调,现其应用场景更复杂更多样,智能助手,智能机器人,文字阅读等诸多领域都能见到语音合成技术的身影。

  如在有声阅读方面,用户需求越来越个性化;

  机场,车站广播等服务业,甜美温柔的音质可以拉进与乘客间的距离,让乘客在繁忙的旅途中感受到温暖;

  人们在听新闻时,往往期望播音员具有一个浑厚,稳重的声音;

  服务业客服场景下,人们倾向于声音更加热情,亲切。

  如何让合成的声音听起来自然并富有情感,是语音合成领域的一个主要发展方向。

  增强语音交互真实感

  传统的语音合成技术,选音拼接和参数合成两条路线长期并存。前者音频,语速真实,但合成效果不稳定,甚至听不懂,而后者合成内容效果基本稳定,但音质机感浓重,音色损失大,语速不流畅。

  为了提升合成语音自然度,流畅度,研究者们创立了全新的波形生成和序列到序列路线,直接以因果预测的思路逐个生成音频样点,追求完全还原,填补了参数合成与波形拼接在音质方面的鸿沟。同时,传统的参数合成需要另建一个专用的时长模型来预测每字的长度,存在严重的机器感。由于端到端路线的发展,Transformer架构的Tacotron系统通过直接建立文本序列到音频帧序列的映射模型,克服了一字一顿的顽疾。Tacotron-Wavenet填补了参数合成与拼接合成的鸿沟,加大了语音柔顺度的提升,完胜传统参数合成和各种拼接合成。

  捷通华声所研发的灵云语音合成技术应用最新的深度学习技术,通过引用“全并行架构声学模型”将转化速度,韵律预测效果以及声学模型训练效果进行提升,将合成语音的音质与自然度提升到与人类接近的水平。

  目前,灵云语音合成技术支持中,英,日,韩,维,藏等多种语言,男声,女声,童声,卡通声等多种音色,具备热情,甜美,严厉等多种风格,为营销,导航,新闻,阅读等领域提供服务支持。

  声音定制,真正的“人情味儿”

  捷通华声还可根据用户需求,通过录制和制作语音合成定制音库,在极短时间内定制出各式各样的高度仿真的人工智能声音,效果自然且逼真。

  实际上,在AI行业或者用户群体中,AI语音定制的能力始终被报以高度期待,利用AI模拟人声,不仅可以注入记忆,陪伴等社会情感因素,还可借助用户熟悉的声音触发更多的应用想象。灵云语音技术可将制作一个高品质声音所需的训练时间极大降低,让AI语音定制不再需耗费过多时间和资源,以更平常方式“飞入寻常百姓家”。

  语音合成技术的快速发展,机器合成语音越发自然生动,富有情感表现力。捷通华声作为深耕语音合成领域多年的企业,在一次次升级和迭代中,满足不同场景下越来越多的用户需求,已广泛服务于金融,电信,能源,交通,教育,司法,公安,医疗,互联网等多个领域。

展开
Baidu