科大讯飞高建清:“底座+能力+应用”是AIGC整体布局的三层架构

2023-03-30 19:42:45 来源:上海证券报·中国证券网 作者:孙小程

  上证报中国证券网讯(孙小程 记者 罗茂林)在3月29日举办的首届中国AIGC产业峰会上,科大讯飞AI研究院常务副院长高建清发表演讲称,“底座+能力+应用”是科大讯飞AIGC整体布局的三层架构:以文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件为技术底座,形成了音频创作、视觉创作、文本创作三大AIGC能力,进而衍生出在教育、医疗、人机交互等领域的丰富应用。

  具体来看,音频创作上,高建清分享了科大讯飞研究院在虚拟声音自动创造和多风格多情感语音合成系统SMART-TTS上的技术进展和成果。高建清认为,语音领域的大模型能够进一步提升语音合成系统文本泛化性和语音多样性,通过prompt能实现对语音合成中音色、韵律、口音等属性的控制;语音合成从“自然可懂”继续向“悦耳享受”进化,声音自动美化技术将成为新方向。

  视觉创作上,科大讯飞在虚拟人技术上持续深耕,目前已形成从3D虚拟形象口唇表情和动作的AI驱动到AI贯穿3D形象构建的全流程。高建清表示,AI技术可加速虚拟人制作流程,在各环节发挥重要作用;AIGC技术的快速发展也将让文本、视觉、视频等多元素的融合更加深入,未来以虚拟人为核心的自动视频制作将会快速发展,生成的虚拟场景将呈现更全面的多维信息。

  AIGC创新应用方面,科大讯飞基于在AIGC各方面的技术积累与行业应用经验,打造了AIGC内容创作基地——讯飞智作和讯飞音乐“词曲家”平台等创新产品。目前,讯飞智作已运用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营等多个领域。

  高建清表示,依托国家新一代人工智能开放创新平台、认知智能全国重点实验室、语音及语言信息处理国家工程研究中心三大国家级平台,科大讯飞在认知智能大模型核心技术的研发基础上,重点结合教育、医疗、人机交互、办公等若干方向进行应用落地探索,并将持续赋能行业,促进数字经济发展与产业进步。