AI合成主播的迭代史，藏着人工智能技术的未来

作者：来源：澎湃新闻·澎湃号·政务日期：2020-12-30

“大家好，我叫小艾，是中国驻特立尼达和多巴哥使馆的一名新成员。”

12月25日，中国驻特多使馆在当地社交媒体发布了一则视频短片。视频中的信息播报员“小艾”优雅知性，谈吐顺畅自如，还用中、英、法、西四种语言向网友们致以新年祝福。

但这并不是一个真正意义上的“她”，而是通过人工智能、5G技术合成的AI外交官。

小艾在自我介绍中提到，“我的诞生代表着中国先进人工智能技术的最新运用之一。按照中国最新发展规划，AI、5G等创新技术将在未来的五到十五年里得到更加广泛的应用。希望我和我的‘人工智能家族’可以为中特友好合作与特多经济多元化转型升级提供更多助力。”

据了解，未来小艾负责运用多语种语音和字幕，在国际上讲述更多中国故事，为中特友好故事续写新篇章。

这是中国合成AI主播第一次走出国门，但并不是第一次在大众面前亮相。早在2018年，新华社就迎来全球首个全仿真智能AI主持人“新小浩”。如今，两年多时间过去了，历经技术的迭代，中国AI主播家族逐渐壮大，“他们”各司其职，为主持人分担工作压力，引领中国AI技术走向新时代。

接下来，我们一起认识一下不同版本的“他们”。

全仿真智能AI主播

AI 主播1.0版本

2018年11月7日，在第五届世界互联网大会上，全球首个全仿真智能AI主持人“新小浩”惊艳亮相，“他”西装革履，谈笑风生，令人惊奇。

“新小浩”是以中国新闻主播邱浩为原型合成的虚拟形象，如何做到如真人形似的呢？据搜狗CEO王小川介绍，智能AI主持人基于“搜狗分身”技术，将真人主播邱浩的声音、唇形、表情动作等特征进行提取，然后再通过语音合成、唇形合成、表情合成以及深度学习等技术进行克隆。

在播报新闻时，只需提供文字，AI合成主播“新小浩”就能进行仿真播报。
虽然，“新小浩”开启了AI主播新时代，在技术上实现了大的突破，但“他”仍存在一些缺憾，比如面部表情不丰富，没有肢体动作等。随着技术的发展，一年后，他的迭代版本惊喜亮相了。

站立式AI主播

AI 主播2.0版本

2019年2月，全新的“新小浩”技术升级，“他”不再局限于“坐着播新闻”，而是升级为“站立式播报”，还增加了一些肢体动作，形象愈发惟妙惟肖，同时也进一步增强了用户的新闻视听体验。

紧接着，2019年3月，全球首个AI合成女主播“新小萌”也加入到这个特殊主播队伍中。“她”和2.0版本的“新小浩”一样，都可以在固定位置站着播报新闻，肢体语言也相对丰富。这主要通过模型优化及多风格数据的使用，实现了表情合成、肢体动作与语义的匹配，让AI合成的主播更智能。

除此之外，本次技术迭代也让AI合成主播定制周期不断缩减，从一开始的需要大量数据，录制非常长的时间，到2.0版本已经减少到利用几个小时的视频资料就可以形成一个逼真形象。

3D形象AI主播

AI 主播3.0版本

站起来的AI合成主播已不稀奇，但能走动、做手势、换装的3D版AI主播你见识过了吗？2020年5月，以新华社记者赵琬微为原型的“新小微”正式上岗，参与全国两会期间进行新闻资讯播报。
与之前AI合成主播相比，“新小微”最大的不同在于其3D特性。“她”不再局限于固定位置坐着或站着，而是可以走动、转身，支持多机位多景深，360°任意角度呈现内容等能力。在表情上，“新小微”的表现也更加细腻、多样化，可以根据文字产生不同的微表情，还可以根据不同场景、不同新闻报道需要变换精致的发型、服装和妆容。
据了解，“新小微”的合成采用了扫描还原、面部肌肉驱动、表情肢体捕捉等技术，而对于妆容、服装上的改变，则是基于其“微模块化”的特性，先对各个部位和表情进行了模块化处理，然后像拼乐高一样重新组装
不得不说，技术进步让AI合成主播越来越有“人样”了。

从坐着播报到站起来播报，从固定位置播报到走动起来的3D形象，AI技术进入主持人行业仅仅两年多的光景，已经在终端表现上实现了大的突破，AI技术的魅力正在逐渐展现。

也许用不了多久，4.0版本的AI合成主播就能走出演播室，来到大家身边，更好地满足新闻呈现的多样化需求，当有一个合成主播采访你的时候，可千万别惊讶！

原标题：《AI合成主播的迭代史，藏着人工智能技术的未来》

此页面上的内容需要较新版本的 Adobe Flash Player。

人工智能

委员会简介

最新动态

基础软件