如果这样的AI被大规模部署,将颠覆工作室、内容创作者和制作人的游戏规则。这几乎不可避免。
撰文
微胖
年,韩国电影《寄生虫》获得奥斯卡最佳影片、最佳导演、最佳原创剧本和最佳国际影片奖,改写了电影历史。
导演奉俊昊在获奖感言中说:「一旦克服了一英寸高的字幕障碍,你就会看到更多精彩电影。」
《寄生虫》获得最佳影片奖,成为奥斯卡历史上第一个获此奖项的非英语片。早在《寄生虫》之前,一些外语电影就冲破字幕障碍,在好莱坞主流市场获得成功。但这并不影响字幕作为障碍的真实存在。流媒体之外,国际电影和电视剧仍然难以吸引观众。截至年,只有12部电影在1,多家美国影院上映。《寄生虫》之前,最后一部是年李连杰的《无畏》。事实上,《寄生虫》刚上映时,这位奥斯卡最佳影片奖得主只在三个影院上映。正如其成功所表明的那样,一部出色的电影无论使用何种语言,都应该能够吸引观众。然而,许多获奖或提名的字幕电影很少能获得万美元的票房。
李安的《卧虎藏龙》斩获四项奥斯卡奖项,并创下1.28亿美元的票房。地球另一边,全球最大电影市场中国的受众不得不在字幕中消费不菲票价。目前,很多影院在进口片上,甚至不再排播国语版。
以近期火热上映的《失控玩家》为例,笔者所在商圈所有电影院、所有场次均只提供英文版。人类阅读速度通常比听力慢,有多少人天生喜欢字幕而不是配音呢?几十年来,娱乐业一直试图通过将声音配音到电影、游戏、广告和电视节目中来寻找全球市场。但这是一个漫长而昂贵的过程,也伴随着观众体验脱节,甚至盗版横行。神经网络的兴起正在悄然改变这一全球文化消费的传统方式。机器想要一个「勇敢新世界」。所有语言都是「一等公民」,没有一寸高的字幕,甚至没有人类配音,你能像欣赏《长安十二时辰》一样观赏《东城梦魇》。最终,「最佳国际影片奖」可能会消失,奥斯卡简单地成为一项无国界大奖。
01谁在做大蛋糕?
技术的商业化崛起,始终离不开一个根本前提——市场。谁需要它?谁制造了需求?这个需求到底有多么可观?需要译制一定是因为存在一个广大的非英语内容需求市场。在为非英语内容创造新的全球市场方面,Netflix可谓居功至伟。要知道,在五到十年前,全球市场还没有对非英语内容的需求。成立二十多年、身经百战的Netflix能有今天市场地位,当年远征海外,功不可没。公司从年开始海外扩张之路,年自制剧《纸牌屋》的巨大成功不仅让公司更加坚定原创的战略重要性,也认识到美国本土订阅用户增长的局限性。Netflix投入大量现金,一头扎进本地语言的内容原创。自制剧《*枭》、英剧《*》、德剧《黑暗》、西班牙《纸钞屋》成就「爆款」,葡剧《3%》、法剧《马赛城》、日剧《火花》引发轰动,无一不表明海外市场受众早已成熟,只是市场缺少适合他们的本土化内容。目前,Netflix原创内容中很大一部分都是非英语内容,超过60%付费用户来自海外。公司在其年第四季度的财报中宣布,其近期订阅用户收益的绝大部分来自国外。。Netflix的商业模式——全球订阅视频点播(SVOD)只有在跨地区传播内容时才真正有意义,而现在最大障碍之一就是本地化。在说服观众克服字幕障碍去看外语片的这场运动中,Netflix也算鞠躬尽瘁。为了能更好地在海外发行,他们给平台内容添加了28种语言字幕。「我们看到,有越来越多的订阅者在选择超越国界和文化的电视电影节目。」Netflix的一名发言人曾告诉《纽约时报》。这位发言人还指出,字幕并没有阻碍好的内容在Netflix上被人喜爱和欣赏。例如,Netflix原创剧集《*枭》既有英语场景也有西班牙语场景,而这部剧已经被续订了一季又一季。Netflix原创剧集《*枭》蛋糕不断变大,众多竞品入局,Netflix迎来了更加激烈的竞争Round2。美国主要流媒体开始扩大内容制作投资力度,期望在新一波SVOD订户竞争中获得优势。其中不乏HBOMax、DisneyPlus这样的传统巨头,还包括AppleTVPlus、亚马逊Prime这些根本不差钱的科技大佬。例如,迪士尼正在将其核心战略从付费电视转移,宣布打算关闭个国际电视频道,并将内容迁移到DisneyPlus。亚马逊在Prime上的电视剧、电影和音乐的预算从年到年增加了40%以上。不过,Netflix很清楚自己在非英语市场的先发优势,也预见到海外用户终将成为商业帝国的核心支柱(就像谷歌那样),他们选择「海外包围美国本土」。用Netflix国际配音总监DebraChinn的话说,「实际上是在创造新的观众群。」这条路直接关系着未来的营收空间,配音工作也因此显得尤为重要。过去几年,他们一直在招募配音演员和制片,试图建立一套工程化生产线。一方面,旨在提升国际节目的英语版本品质,吸引那些可能对低质量配音感到厌烦的英语观众,提高全球3.71亿英语母语者(其中,大多数生活在美国)对非英语系列内容的整体收视率。配音内容对于美国或英国的电视观众来说是一个陌生的概念,除非你看中国的武侠片。有趣的是,市场分析公司Statista发现,59%的美国成年人更愿意观看英语配音的外语电影,而不是带字幕的原版电影。在年的一次采访中,Netflix曾透露,热门节目的配音版本更受欢迎。例如,85%的美国观众选择《Rain》(《惨雨》)的配音版本而不是字幕;78%观众选择了德国惊悚剧集《Dark》(《黑暗》)配音版;选择西班牙《MoneyHeist》(《纸钞屋》)配音版的有72%。首部丹麦剧集《惨雨》
西班牙剧《纸钞屋》另一方面,Netflix也希望将英语配音经验推广到更多语种配音中。根据AmpereAnalysis数据,Netflix在大多数非英语地区播放的内容中,90%为外语内容组成,配音工作重要且艰巨。以欧洲为例。长期以来,节目的配音版本在欧洲的电视市场上司空见惯,那里的节目经常跨越国界——这是一个蓬勃发展的行业,有自己的颁奖典礼,配音演员本身就很有名。这让本地消费者更愿意接受配音。尤其是法国、西班牙和讲德语的国家,配音是进入市场的首要条件。在德国,配音还变成了一个大产业,顶级配音演员每部电影能挣1.5万至2万美元。如果美国的一家主要发行公司想把片子成功打入德国市场,必须得配音。配音在意大利也是一个非常成熟的市场。现在,意大利99%的电影和电视节目都是配音的。近几年,Netflix在配音方面的投资以平均每年25%到35%的速度增长,配音内容消费的增速比投资更快,平均每年超过%。「金主」增加预算,一些从事本地化的大型工作室收入也随之暴增。最近,拥有Netflix、亚马逊、苹果等流媒体大客户的媒体本地化提供商ZOODigital迎来有史以来最好的季度财报。从细分市场来看,本地化对业务收入贡献超过51%。对公司基于云的配音服务的需求大幅飙升,配音收入增长了50%,达到万美元。另一个全球本地化工作室BTIStudios年配音仅占其收入的3%,此后跃升至61%,而字幕收入不到40%。ZOODigital认为,流媒体热潮对媒体本地化供应商来说是一个好消息,因为字幕和配音在主要流媒体平台之间正在进行的观众争夺战中发挥着关键作用。随着内容预算的增加,他们发现,买家越来越希望与能够提供端到端服务的供应商合作。最近,BTIStudios与另一本地化公司IYUNOMediaGroup合并,以应对「通过启用全球配音和字幕功能来满足对本地化内容快速增长需求」,包括应用AI应对交付周期的变化。
02配音的阿克琉斯之踵
Netflix首席产品官GregPeters将国际影片收视率的增加完全归因于更好的配音。
什么是好的配音?「作为一名配音演员,你能得到的最好赞美就是没人意识到这是配的音,」在邦德系列电影中为丹尼尔·克雷格配音的德国DietmarWunder认为。
「我们的工作就是消失在原版后面,让观众不会想起这一点。」但是,大多数配音距离「不着痕迹」仍然遥远。ScottMann在年执导了由罗伯特·德尼罗主演的惊悚片《双面劫匪》(Heist)后,被影片的一个配音版本惊得目瞪口呆。影片中整段整段对话都经过了修改,以便使外语台词更接近于德尼罗的口型。拍摄期间,德尼罗会花费数周时间讨论某一个场景,询问角色会戴什么样的袖扣或穿什么样的袜子。然而,当影片进行配音时,他的表演却受到了玷污。「这令人心碎。我们为剧本纠结了几个月,争论哪些台词应该说和应该怎么说,然后却看到它的一个外语版本,台词全被改了。一切都感觉糟透了。」在现有技术和作业模式下,让斯科特·曼心碎的结果几乎无可避免。国际发行公司收到ADR(全片剪辑完之后,把演员请回来重新给台词配音的技术处理方式)声带和最终语言声带后,会发给不同地区做译制处理。例如在中国,配音导演先看原片,翻译将台词翻译成中文文本。接着,口型员进行初步核对,根据外文文本长度、口型等调整中文翻译。随后,配音导演、配音演员以及翻译一起看原片,分配角色,并根据演员配音习惯进行中文翻译复对。最好的配音经常会修改语言,以找到与演员嘴巴动作最接近的同步。比如,Hello,说成「你好」。可是,「llo」的英语发音可以拖音,为了保持口型一致性,「好」也要拖音,于是有了所谓「朗诵腔」的「你好」。尽管了做了大量后期工作,演员的表演和配音之间还是会存在不匹配。不少中国观众也欣赏不了这种「朗诵腔」。电子游戏领域也是如此。很多时候,游戏发行商只会在作品中针对英语同步角色口型,在为其他语言做本地化时会进行额外的配音。如果将一句对话从英语翻译成法语,翻译后的版本可能比原句长得多,通常的处理方式是加长动画,以塞满多出来的音频时间。除了技术手段,是否划算也是制约配音质量的重要成本因素。一位动画师需要花大约7小时才能做完单个角色在游戏里说1分钟话的动画。《赛博朋克》这样一款含有大量对话的大型RPG,如果支持10种不同语言配音的口型同步,游戏公司需要支付巨大人力和时间成本。在美国,一部时长两小时的电影配一种语言的花费可达15万美元以上,大片通常被翻译成12种语言,电视剧通常被配音成6到8种语言。所需时间和金钱并不划算。以译制「业界良心」《功夫熊猫3》为例。据说,中文配音用了8个月,梦工厂还特别设立了中文创作团队,有中文编剧、导演等,他们按中国人说话的方式重新写了一版接地气的对白。中文版按照中文台词给每个角色重新做了口型和表情。如此耗时耗力的操作,在不少进口大片上映基本实现准同步(有时甚至提前上映)的趋势下,也只能停留在个案层面。随着后期译制时间越来越紧张,很多时候,一部进口动画片在中国的配音时间只有3-5天。据说,某位流量明星为《驯龙高手3》仅用了一天时间。粗糙赶工,只能是完美摧毁一部精美电影的原本内涵。每集60分钟的10集剧目,Netflix通常需要16周进行配音。再财大气粗,公司也有战略侧重。在日本市场,几乎每个节目都带有日文字幕,超过40%被配音。宫崎骏和吉卜力工作室的精彩作品更是被添上28种字幕及20种配音。除了日本,另外四个最大配音市场都在欧盟——法国,德国,意大利和西班牙,60%的外国内容均被配音。对于Netflix来说,用法语、德语、意大利语和西班牙等语言配音的内容还可以继续输送到拉丁美洲,非洲以及加拿大等其他市场。但诸如俄罗斯,土耳其,观众仅占Netflix用户基础的一小部分,爱沙尼亚人口仅百万,目前很难以证明对他们大规模本地化投资的合理性。最有意思的是印度市场。公司CEO里德·哈斯廷斯曾预言,Netflix下一个1亿用户将来自印度。但印度使用种语言,其中,23种被认为是官方语言。由于Netflix的印度市场订阅数据增长非常迅速,配音翻译这一难关早晚都得攻克。
03DeepVideoPortraits 深度换脸
哪里聚集了低效的密集劳动,哪里就有被新技术革命的可能。新冠疫情流行进一步加速了这一进程。Netflix不得不在年推迟某些节目的本地语言版本,工作室关闭,配音演员被淘汰。AI可以帮助弥合这些差距,即使工作室最终决定依靠真正的配音演员来制作最终版本。嗅觉灵敏的创业公司带着深度学习技术,相继入场。和迪斯尼一样,ScottMann也开始研究Deepfake变脸。Deepfake的一个基本假设是,如果有足够多角度的2D照片,实际上可以创建一个完整的、连续的3D模型。你可以用网上搜罗来的大量明星2D图片训练模型,教会AI创造出关于该明星的3D面部,通过叠加,替换掉目标视频的人物脸部。不过,只要几秒钟,大部分观众就可以察觉到视频是伪造的。因为训练数据是静止图片,当你将名人的脸贴到色情演员脸上后,容易出现眉毛不匹配,动作不稳等纰漏。年,马克斯普朗克信息学研究所ChristianTheobalt团队在SIGGRAPH上展示了DeepVedioPortrait(DVP),可以重现近乎逼真的人类视觉效果。系统会使用一系列人脸Landmarks重建人脸,这样它就可以跟踪、捕捉一些敏感部位(比如眉毛、鼻子、嘴巴等)的微妙动作,以便创造性地将这些微妙细节「转移」到目标演员身上,让其面部动作看起来和新发音时的表情一样准确和同步。研究人员会使用一种面部表示方法来计算两个视频的面部参数。为了更加逼真,他们还会稍微修改这些参数,进行渲染。这也是生成对抗网络(GAN)的用武之地。一个神经网络生成内容,而另一个拒绝或批准每项努力。目标是生成与目标视频帧中的图像一样好的假图像,以欺骗鉴别器网络。只要大约两千帧——相当于一分钟的镜头——就足以训练网络。
不过,目前也只有面部表情可以进行逼真的修改,DVP也无法处理变化太大的背景。
与Deepfake采用2D图片进行学习不同,训练DVP的是真人演员3D面部动作。DVP不是换脸,而是面部特征处理,犹如一场AI操纵的面部肌肉木偶戏。DARPA官员MatthewTurek曾对外媒表示,那些能在当前GAN作品中检测出微妙变化线索的方法,对DVP作品似乎不太有效。因为,它似乎完美地匹配了源演员和目标演员之间的整个面部和头部运动。除了经得起大荧幕挑剔的逼真效果,打动那些超负荷工作的视觉效果艺术家和预算紧张的好莱坞制片人的地方还在于性价比。制作迅速,价格便宜,特别是与完整翻拍电影的成本相比。数字换脸在影视圈是很常见的事情,特效镜头的拍摄也历经多年。在《本杰明·巴顿奇事》,几乎在电影的每一帧中,布拉德·皮特的脸都被修改过的计算机图形版本所取代。人脸的计算机图形编辑已经广泛用于今天的故事片。一个很好的例子是《本杰明·巴顿奇事》。不过,传统特效镜头需要大量的后期制作,并且消耗巨大的资金成本,即使是几秒钟的片段,也需要人力物力的投入,通常还需要训练有素的艺术家进行数周工作。比如,特技替身演员会短暂地看向镜头,即使是短暂的一刻,也需要大量的后期制作,以确保屏幕上的人看起来就像他们应该做的那样。解决这些问题通常需要重新拍摄,或者是巧妙的计算机制图和合成的结合,这些从来都不便宜。DVP展示了如何在未来更轻松地创造这种视觉效果。人们可以轻松编辑演员头部位置和面部表情,以改变摄像机角度或巧妙地改变场景构图。研究人员表示,AI不仅可以产生高度逼真的结果,而且与当今使用的手动过程相比,速度要快得多。尽管技术还处于概念验证阶段,但鉴于其对视觉娱乐产业可能产生的颠覆性影响,发现了这份研究白皮书后,ScottMann决定成立Flawless。作为标榜开创新一代电影制作科学和创新的AI公司,公司产品介绍确实写得有模有样。目前网站上第一个(也是唯一一个)AI产品名为TrueSync,号称世界上第一个使用AI以多种语言创建完美唇形同步可视化的系统。TrueSync有一个所谓的性能保留引擎,就是关于演员的头部3D模型。影像原作品涉及演员独特表演风格的细节,比如皱眉和眼角低垂的表演神态,都可以被AI学习并捕捉到,完整保留下来。尽管演员的脸被替换了,但他们原始的细微表演将被保留并延续到目标脸上,以维持原有电影的质感与沉浸感。
技术自动生成与配音对话相对应的嘴唇动作。杰克·尼科尔森在《义海雄风》中与汤姆·克鲁斯聊天的口型也几乎与法语配音完美同步。如果客户需要斯嘉丽说中文,他们需要先将中文录制成演员对话,就像传统配音那样,并将这些音频和图片发给Flawless。公司的系统会根据这些资料,并基于既有的斯嘉丽模型,计算斯嘉丽说中文时的独特嘴部动作,创建斯嘉丽说中文的面部模型。最后,还需要公司数字效果艺术团队进行润色。
在Flawless看来,对于想要保留原始演员阵容魅力的导演来说,该技术将是一种更经济的方式。获得年奥斯卡提名的丹麦电影《Druk》(又译作《酒精计划》、《酩酊大醉》)在国内取得成功后,准备再由莱昂纳多·迪卡普里奥担任主角,为英语观众重新制作。这意味着6千万美元的翻拍成本。如果男主咖位在英语观众中号召力不足,可以找大腕翻拍(比如,好莱坞翻拍《无间道》)。但是,男主麦斯·米科尔森在英语世界的名气并不低,电影表达的丹麦饮酒文化对于美国观众也不陌生。如果使用Flawless技术,在保留电影原汁原味的同时,还能以更低的成本(比如,翻拍成本的2%)触达到更多英语观众。
04声音艺术
Flawless的技术还做不到其名字承诺的那样,%完美无瑕,但已经相当不错。像迪士尼这样的公司也在努力提高deepfake技术的质量,以便它很快满足好莱坞的需求。虽然深度换脸技术目前还没有拿得出手的商业成功案例,但是,语音AI已经在游戏视频领域验证了商业成功。备受期待的科幻RPG《赛博朋克》推出的第一个月,全球销量就超过万份。据说,预购玩家数量最多的国家是中国。这与中文本地化出色表现不无关系。当你玩这款游戏时,会发现说普通话的角色确实就像在说普通话。可响应10种语言的配音也被视为营销的重要一环。在游戏制作商CDProjektRed看来,在游戏里,玩家最直观的感受还是配音。通过为玩家提供本地化体验,能拓展新的零售市场。游戏技术支持方JaliResearch的技术可以检测形成每个单词的各个声音,并相应地为角色的面部设置动画。正如ScottMann受顶会论文启发创办Flawless,CDProjektRed也是在SIGGRAPH上找到技术缪斯。这款游戏本地化的技术支持来自一家加拿大创业公司JaliResearch。他们开发了一套工具,利用AI将音素准确映射到目标人物嘴形上,使角色令人信服地以不同语言进行对话。该技术可以追溯到公司首席技术官PifEdwards博士期间的一项研究。攻读计算机科学博士之初,Edwards想专注于面部动画,但最终