AI语音欠缺的人情味其实是人类说话时自然的瑕疵
2023-02-19 生活

>>>编者按

AIGC,指的是利用人工智能技术来生成内容,去年底相继风靡全网的AI绘画和聊天机器人模型ChatGPT都属于它的分支,至今热度不退,仍处高歌猛进的当口。除了扎堆体验当作娱乐消遣工具的看客,还有一些人却慌忙给自己打了一个问号:它会抢我饭碗吗?AI到底是“洪水猛兽”还是帮助人类更高效工作的工具?相关从业者是如何看待AI的?《生活周刊》分别采访了绘画、朗读、写作等领域的从业者,从他们的实际运用中解读这些问题。本期聚焦AI语音,受访人为喜马拉雅AIGC制作人、ONE播客主理人马晓橙。

AI语音在人们生活中的应用日益广泛,而且越发趋近于真人语音。本文均为受访者供图

青年报记者 丁文佳

放眼当下生活,似乎每个人都与AI对话过。呼唤智能设备、物流配送来电确认、接听客服热线……甚至有时候浑然不知,像是接听一个推销电话,即使敷衍来回几句婉拒挂断之后,或许仍未察觉对面只是“机器人”。曾经明显有别于人类说话的机械声音,竟在不知不觉中逐渐变得与人声真假难辨。

得益于近期AIGC大规模闯入大众视野的机会,越来越多人开始认真审视起生活里的AI,这些无所不在的AI语音技术算得上其中鲜活一例。除了需要做出回应的对话环境,终日充斥耳旁的短视频配音、视频作品、有声书等也都借着AIGC呈现出丰富面貌。当面对情绪起伏已不在话下的AI语音,旁人尚且还在辨别是否真人音色,一向靠嗓音谋生的人或许正琢磨着AI语音技术坚定追寻的人情味,一直以来指向何处。

人情味在声音

不追求完美的真实语音面貌

人情味是AI语音技术的核心追求,情绪强弱、个性嗓音、方言风貌等人类的说话习惯都被通盘考虑。不过,技术方标榜的“媲美”始终是个暧昧不清的词,在无限“媲美”人类声音的技术攻关路上,涌入听众耳朵的感受莫衷一是。但人情味浓度多寡,自然决定了不同AI语音技术之间的竞争优劣,在“耳朵经济”的白热化竞争下,人类也得以随处考验自己的耳朵。

最常见莫过于手机短视频上,我们频繁听到来自AI合成的各种个性方言配音,为不擅长自行配音的普通用户提供了高效有趣的解决方案。这种将文本一键合成语音的方式,即TTS(Text To Speech),这在AIGC领域下已经相当成熟,短视频制作爱好者尤为信手拈来。

在这个多数人都能自制短视频的时代,人们似乎对各种稀奇古怪的AI配音都能淡然处之。在体验机器的人情味越来越浓的过程里,大家也都默契接受着来自AI的不足,人类大抵也没有在心灵深处做好被机器迎头赶上的思想准备。姑且把TTS当作一门尚有进步空间的AI工具,倒也不用在娱乐消遣之时突然去深究“人类是否被机器取代”等一系列宏大的命题讨论。

“停连和重音是AI语音最难攻克的部分,也就是最不像人的地方。”科班出身,毕业于乐山师范学院播音专业的马晓橙解读了AI语音欠缺的人情味。他介绍,停连即停顿和连接,人工播报时也会突然声音停顿,有些逗号或句号的地方则会不停止而连读。同时,语言由各种句子组成,句子又由词和短语构成。最能体现文意和最能表达思想感情的词和短语,就需要用声音突显出重要性,谓之重音。

身在北京的马晓橙说,“就像我们这个电话采访的过程,你会明显感觉到在跟真人对话,原因就在于不仅我有思考的停顿时间,而且你无法掐准这个停顿会有多久。以及我的重音有时候会不符合规则,但越不符合规则,它就越是真人的感觉。”

所谓的不符合规则,仿佛也指向了人情味的特点,人情味在某一方面指的是人类说话时的瑕疵。“作为主播好坏的评价标准,不再是你的音色有多好、普通话多标准、多么字正腔圆等体现,不仅这些业务能力你绝对比不过AI,连生产效率也是没法比的。”马晓橙说,现在很多影视解说短视频的固定AI配音模版“小美和小帅”被广泛使用的背后,正是出自大家对这些模仿方言和口音等真实语音面貌的接纳。

人情味在内容

谈吐比声音本身更具人情味

2014年,还在大三的马晓橙在课余开始尝试做播客,这距离业内公认的2020年中国播客元年还为时尚早。播客一词概念源于苹果产品“iPod”与广播“Broadcast”的合成,可以理解为播放音频的客户端,极像调频广播节目。它与有声书、音频直播等内容共同构成网络音频产业。马晓橙介绍,播客节目的后期制作是典型的非线性剪辑,不仅没有时间顺序限制,素材也是可以自由分割的,也就是说可以随意复制、粘贴、缩短和拉长素材。

“每一句话之间或者第几分钟要停多少毫秒,这是遇到有声书专业制作团队来剪辑时经常问我的问题。”他表示,有声书、广播剧等都有一套成熟的线性剪辑流程,在他们的固定流程里,不需要去考虑哪些话是应该剪掉的。播客节目则不然,比起播报信息更像聊天,不仅需要考虑适当的停顿时间,还要去权衡主持人和嘉宾即兴聊天的重点,该不该剪都需要经验来判断。一旦失去这些“不符合规则”的自然因素,就会显得相当呆板。

这也意味着播客是AI语音技术难以插手的领域,目前仍在业余时间坚持做播客的马晓橙充满信心地看待AI热潮,“我不觉得这是挑战,我反而认为AI语音的发展对于播客来讲是一件非常好的事,它让自己更加客观看待播客优势。如果是配音主播的确可能‘没饭吃了’,因为可能只是声音好,这个AI完全可以做到。除非你的声音已经成为一种个人标签,大家非常认可并愿意继续买单。”马晓橙认为,近十年来,形式上无论自己单人播还是与人搭档对谈,内容上比如请人来做脱口秀、访谈等,所有节目的共同点都是讲故事。因此,他坚定地表示,“做播客需要讲故事的能力。”

由此可观,TTS等语音类AIGC也只能企及有文本的语音内容,常常需要即兴发挥的播客节目显然无法满足预先的文本撰写。若是围绕讲故事能力,倒是可以由此及彼想到近期红到发紫的ChatGPT,马晓橙同样给出了积极观点,“AI的确可以学习所有知识,但很多人类经验是无法看到的。”家乡在长白山的马晓橙举了个例子,“AI能搜集到如何描述长白山美景的场面,甚至变成语音也会描绘得非常美,但是它没法告诉你长白山天气能具体冷到什么程度,还有长白山的公共厕所也很特别,里面有咖啡、书籍和休闲设施,这种超常规的经验不仅需要被描绘,描绘它们时惊叹的语气也很重要。”

我们不难得出结论,播客在“耳朵经济”里属于富有创造力的事物,这也是AI相关话题里始终绕不开的经验与原创性。恰恰说明了在播客和其相似领域里,谈吐内容比声音本身更具魅力,这本身就是人情味至关重要的体现。我们经常在网上见到网友制作的新闻主播口误集锦,这些失误多由“嘴瓢”导致,却不小心制造了笑料,究其制作初衷也不过是为了博取欢乐。网友们的反应几乎是一面倒地表示理解,大多边捧腹边心疼调侃“又被扣钱了吧”。与此截然不同的是,比如主持人等一旦在内容表达上出现了偏差,往往引来群起而攻之。联想至此,更加理解了马晓橙所表达的“播客反而会在AI语音技术发展下显得更加珍贵”。

马晓橙珍藏着读者写给他的信。

人情味在陪伴

声音之外的情感交流需求

AIGC涉猎的领域里,AI语音不比其他生成书面劳动成果的技术,因为声音是人类的一部分,甚至与每个人都息息相关。赶公交、开车、做家务、跑步……生活充斥着看似零散却又被身体和眼睛占用的时间,这时候的耳朵便成为继续与外界保持联系的工具。因此,作为听觉媒介的语音社交比起普通的文字社交,更符合大众的情感交流需求,马晓橙认为无论是音频节目还是播客都具有陪伴性。甚者,声音类节目的用户黏性比视频更高,因为在短视频里看到主播突然拿起的任何一样东西,用户下意识的反应会是“是不是要带货了”,第一时间便产生了抵触情绪。

“想要做好主播,你的人生要很丰富,那么你讲述的故事才能让人信服和共情。”马晓橙说,真人主播的优势在于互动,即使不是实时互动,之后的陪伴同样尤为重要。社会经验不足时,马晓橙没有太多故事可讲,他试水播客的很长一段时间里坚持朗读一位作家的文章,连他自己也没敢想的是,这些一直默默陪伴他的听众通过微博将其播客直接推荐给了这位作家的公司,“马晓橙”这一主播名字得以被更多人认识和喜爱。不久后,另一位经常被马晓橙朗读的作者“叫兽易小星”对他青睐有加,马晓橙进入由其参与创办的媒体公司万合天宜。后来,马晓橙又如愿来到上海加入“ONE·一个”团队专职做播客。始终没有放弃播音梦想的马晓橙在一次次经历中积攒了无数听众。

“做播客也是在记录自己的生活,每天的节目都在讲述自己最近又经历了什么。比如在我低落的时候,我的节目也会明显让人感觉低沉。当我回过头去听的时候,会感觉它是一个声音日记。”在此之前,马晓橙的播客没有任何盈利,但他坚持每天六点起床,保证节目更新。“单纯靠着今天又有人留言夸我了,我就觉得特别开心。”马晓橙表示,这种情感陪伴是相互的,他认真地维护着每一条评论,这一行为也让听众们意识到对着他们说话的人是一个富有感情的真人。有人告诉马晓橙,自己最难熬的时候是靠他节目度过的;有人说,听着马晓橙的播客从大学到结婚生子,现在孩子也在听;有人给马晓橙寄东西和明信片,纯粹当作是身边的朋友,把生活中开心和不开心的事都一起分享。

马晓橙的声音显然创造了比原本播音更重要的价值,“感恩这个互联网时代,不然我如此平凡的一个人凭什么参与到几万甚至几十万的人的人生里。”

马晓橙

  智能语音是如何越来越像人的?  

AI背后有教它做事的人

AIGC在技术端的发展离不开专精该领域人士的调教,马晓橙于两年前就乐观地看待技术进步,进入上海喜马拉雅科技有限公司北京分公司就职。他一方面协助AI技术团队在建立声音模型时给予专业意见,即从声音角度如何让AI语音更像人类;另一方面则是将已经建模的AI声音做成真正的音频节目,涵盖从制作到精修的整个流程。

“比如AI技术团队需要一个女生音色,而音色又分情感类、播客类、财经类等,于是需要根据类别再挑选合适的音色,一步步下来让声音更像人类。”马晓橙介绍,公司目前已研发60余种主播定制音色,加上旁白、对白、喜、怒、哀、乐等变化,超过100个音色应用。

经过技术调教的AIGC可以直接根据文本内容进行自主判断,最终生成的语音就会自带情绪变化。马晓橙介绍,在市面上,AIGC可以直接批量生成网文。因为网文受众更注重故事情节,因此对AI生成内容接受度更高,如果AI将多音字读错了,用户也不会有明显反感。此外,经济类、常识科普类等更注重内容的节目也比较适合AIGC来提升节目制作效率。而针对精品节目则需要人工干预,比如检查多音字、判断AI语音识别的情绪是否正确等问题。与此同时,不断提升的技术实现了预先对常见多音字进行标注,这样在文本输入后,会自动先识别一遍然后进行纠正,极大缩短了后期精修时间。

马晓橙表示,AIGC也为节目录制节省了很多时间,根据他个人经验,通常一个小时的音频最少需要录制一个小时十五分钟,因为这一过程里出现错误需要重读,录制完毕后仍需要耗费大量时间来剪辑。与此形成鲜明对比的是,一键生成的AIGC可能用三分钟就将一小时节目制作完毕。不过,马晓橙强调,具体转换时间取决于服务器的承载能力。

“我制作的一些精品剧,其实如果不事先告诉你是AI做的,你可能是听不出来的。”AIGC在有声读物制作领域的大展身手,也让马晓橙更加深刻思索AI浪潮下的自己。不过显然他是幸运的,在教会AI人情味的同时,自己的优势仍在。

  Q&A  

AI和真人主播互为补充,二者并非替代关系

作为头部音频平台,喜马拉雅已在AI语音技术领域潜心钻研多年,并在内部专门成立了珠峰实验室这一核心部门,长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,这些能力同步市场化,在多情感、角色语音合成已经做到市场领先。这无疑吸引了一大批像马晓橙一样擅长声音表现的年轻人的加入,对他们来说,能够亲自参与AI语音技术的更迭浪潮,或许也是一个自我审视的过程。对此,上海喜马拉雅科技有限公司相关业务负责人也进行了解读。

青年报:喜马拉雅的用户中音频内容创作者有多少?从近些年趋势来看,哪些内容更受听众用户欢迎?

喜马拉雅:截至2021年,喜马拉雅内容创作者超1351万,内容非常多元,涵盖了超100个品类,包括各类播客和有声小说等。悬疑、影视、科幻、人文历史、亲子儿童、个人成长等内容都比较受用户欢迎。

青年报:从平台角度来看,非播音等专业出身的普通人在创作声音内容时,他们的作品存在哪些不足?在AI技术介入前,是否提供了帮助?

喜马拉雅:非专业出身的普通人在刚开始接触音频创作时,可能会在技术处理上面临很多问题,比如如何降噪、保证声音质量,以及如何剪辑等。另外,一个好声音是需要主播大量的练习、坚持反复的训练几年才能做到,一部有声剧需要多人团队紧密配合才能完成……这些都是普通人创作时碰到的壁障。AI技术介入前,我们也会做一些辅助创作者剪辑、录音等的工具,但AI的赋能打开了更多的可能性。喜马拉雅通过多情感语音合成技术,提供了长文本一键制作工具,让一个人完成一部有声剧成为了可能,让普通主播也能制作出优质作品。

“单田芳声音重现”系列成为AIGC代表作品。

青年报:喜马拉雅何时大规模引入AI技术来全方位赋能运营和用户?其中,更受网友关注的AIGC在赋能创作者时,具体体现在哪些方面?

喜马拉雅:2021年,喜马拉雅的研发开支超10亿元,同比增长64.6%,技术和研发人员占比近40%。近两年来,这些研发技术落地的成果颇丰。例如,通过行业领先的TTS技术,喜马拉雅已成为音频领域AIGC的先行者,正在现有的“UGC+PGC+PUGC”内容生态之外,探索AIGC的更多可能性。AIGC极大地提高内容生产效率,降低内容生产成本。截至目前喜马拉雅已通过AIGC创作有声书专辑超37000部,为多家出版集团提供数字化出版能力,让用户实现“边听边看”,其中“单田芳声音重现”系列专辑总播放量超1亿次,成为AIGC代表作品。

同时,AIGC也帮助内容创作者更有效地生产内容,拓宽内容分享渠道。目前有数十家新闻媒体和上千家自媒体通过喜马拉雅的TTS技术上线了上千张专辑。喜马拉雅通过开放平台,为AIGC、虚拟数字人、智能制造等提供语音合成能力,已经应用在直播、客服、政务等多种场景。

在喜马拉雅自研TTS(语音合成)技术的支持下,创作者一天内可以制作和更新上百集内容。截至目前,喜马拉雅上的AIGC内容日播放时长超250万小时。

青年报:原来在喜马拉雅生产真人配音内容的用户,平台利用AI帮助他们改变或引领了哪些习惯?

喜马拉雅:主要还是让音频创作的门槛更低,让他们创作起来更容易、产出作品质量更高,在技术方面限制更小。未来我们会继续利用AI技术,在我们的创作者平台上推出更多的创作者工具,持续赋能内容创作者。

青年报:喜马拉雅平台自己生产的音频作品中,是否还有一些是仍在使用真人声音的,在AI技术全面覆盖的当下,保留真人音频作品的意义是什么?

喜马拉雅:喜马拉雅自营的音频内容中,大部分都仍然是由真人主播来演播的。真人演播依然有不可替代的方面,比如情感的丰富程度。对我们来说,AI可以辅助真人主播更好地演绎,同时也和真人主播互为补充,二者并非替代关系。

青年报记者 丁文佳

来源:青年报

返回上页 回到首页

青年报社 版权所有

广告热线:021-61173717 | 违法和不良信息举报电话:021-61177819 / 61177827 举报邮箱:services@why.com.cn    测试版