在信息化、智能化的大背景下,AI技术以其强大的计算能力和学习能力,为广播电视和网络视听行业带来了革命性的变革。从内容创作到传播渠道,AI技术的应用正逐步渗透广电行业的各个环节,极大地提升了生产效率,丰富了用户体验。
AIGC在广播电视和网络视听领域的应用呈现出以创新驱动为内核的新质生产力的明显特征,内容制作方式、网络传播能力、互动交互效果以及监测监管手段都将发生系统性的变革,新的劳动资料、新的劳动对象、新的劳动者应运而生。
AIGC作用下生产力三要素的变革
生产力是推进社会变革的根本动力,生产资料是衡量生产力发展水平的客观尺度,也是划分经济时代的物质标志。麦肯锡在2023年发布的《AIGC经济影响报告》中预测,通过AIGC与行业应用的结合,到2040年可能实现每年0.5%至3.4%的劳动生产率增长。
互联网在Web1.0、Web2.0、Web3.0与元宇宙时代的迭代升级过程中,孕育了相辅相成的内容生产方式,主流媒体也跟随互联网的变迁经历了自身的变革和转型,经历了从传统广播电视传播体系到融合传播体系的变迁。内容生产方式也经历了从PGC到UGC,再到AIGC的发展历程。
“大数据+大模型+大算力”构筑了广播电视和网络视听发展新质生产力的“新基础”,将成为元宇宙时代的内容生产基础设施,广播电视和网络视听行业在技术创新、产业结构、人力资源、资源利用等方面将发生巨大的变革。
(一)数据成为新的劳动对象
数据作为新型生产要素,具备可复制、大规模、非消耗、边际成本接近于零等新特性,与传统的广播电视生产方式相比,在生产成本、内容稳定性、内容丰富度、受众体验等方面都有大幅度提升,能够为广播电视和网络视听高质量发展提供更广阔的机会。
在传统的内容生产过程中,劳动对象主要是由创作者通过智力和技能加工的具体素材。AIGC技术的运用使广播电视视听行业的劳动对象从单一的人工创作素材转变为多元化的数据资源和智能化生成过程,使之更加具备数据化、虚拟化、灵活动态化的属性。
(二)大模型成为新的劳动资料
AIGC的学习过程就是对模型的训练过程,也就是调整变量和优化参数的过程。根据学界经验,深度神经网络的学习能力和模型的参数规模呈正相关,AIGC的学习能力取决于参数的规模和训练所需的数据量。
由此,生产基础设施的主要变化有以下几个特征:一是高性能计算资源需求增大,AIGC技术依赖强大的算力支持,数据中心、云计算平台、GPU服务器等硬件设备将成为不可或缺的劳动资料,以便快速高效地处理大规模数据和运行复杂的AI算法。二是智能创作工具更替加快,AIGC内容生成软件、智能编辑系统、自动剪辑软件等将成为新的劳动资料,它们能够辅助或直接参与到内容创作、编辑、合成等各个环节,技术迭代更替的速度更迅速。三是新型技术融合更广,AIGC在3D模型、虚拟现实等领域的应用,使得立体化、沉浸式的视听体验所需的技术和素材也成为重要劳动资料。自然语言处理、计算机视觉、语音识别与合成等技术集成,构成了AIGC的重要组成部分,成为生产过程中的核心劳动资料。
(三)出现新的劳动者
AIGC的最大优势是其具备逻辑推理能力,突破了线性思维框架实现非线性推理,通过归纳、演绎、分析,实现对复杂逻辑关系的描述。
新的劳动者具有以下明显特征:一是技能结构发生转型,劳动者需要掌握新的技能和知识,包括理解AIGC技术的基础原理、熟悉AIGC创作工具的使用方法以及如何有效地与AIGC协同工作,如训练、优化和初步审核AIGC生成的内容。二是工作职能发生变化,内容创作者的角色可能转变为AIGC内容策略或AIGC内容监制,他们负责指导和监督AIGC创作流程,确保输出内容符合创意目标、意识形态和法规要求。三是伦理与法律素养要求更高,AIGC创作的内容更加丰富和多元,涉及版权、原创性、隐私权等问题将更为复杂,劳动者需要具备更高的伦理意识和法律素养,以应对可能出现的知识产权和伦理道德挑战。四是跨界协作增加,AIGC技术的应用会促进跨学科、跨专业的协作,例如与数据科学家、工程师团队紧密合作,共同开发定制化的大模型,以满足内容生产的特定需求。
综上,生产要素的高效配置实现生产力的跃迁,形成广播电视和网络视听的新质生产力雏形,从宏观、中观、微观层面体现出AIGC在广播电视网络视听行业引起的质量变革、效率变革和动力变革。
AIGC在广电视听的应用现状与问题
(一)AIGC在广电视听的应用现状
1.主流的视频生成大模型
当前国内外视频生成模型主要有三类,也就是扩散(Diffusion)模型、转换器(Transformer)模型以及结合上述两种模型的DiT(Diffusion Transformer)模型。生成视频的相关应用也分为文生视频模型(Text-to-Video)、图生视频模型(Image-to-Video)以及视频优化模型(Video Optimization)三类。
从以上情况可知,DiT模型是当前文生视频应用的主要模型。从OpenAI公开的文件可知,Sora的训练与其他大模型的底层算法逻辑类似,但是它借助了ChatGPT的自然语言理解能力,涌现出对基础物理规则的理解,从而做到对用户需求的精准呈现。根据其公布的论文可以了解到,Sora在画面解构训练和多重算法组合方面具有优势。
一方面在画面结构上,OpenAI团队在训练过程中将画面或者片段分解为“补丁”(Patch)或者说是“拼图”。这些拼图就像是文字中的单词或字母,通过让人工智能学习“拼图”来理解和处理视频数据。这样复杂的图片可以变成简单的拼图,每一块拼图就是一个“补丁”。这种方法让大模型能够更有效地处理和生成视频,并为训练中将扩散模型和转换器模型结合的DiT路径提供了基础。
另一方面,Sora的建构使用多重优质算法组合。在Sora发布之前,图像生成领域形成了Diffusion(扩散)和Transformer(转换)两种主流算法。Sora所采用的DiT架构将两者融为一体。使用Diffusion通过添加噪声,使图片受到干扰,然后扩散算法随机降噪生成清晰的图片。Transformer作为深度学习算法,采用Encoder-Decoder(编码器—解码器)架构并引入自注意力机制与多头注意力机制,通过预训练学习“拼图”,理解并创造图像。如果说Transformer架构是一个多才多艺的理解者,那么Diffusion架构就是一个创造性的艺术家。Sora将这两种技术结合起来,它不仅能够创造出各种各样的图片和视频,而且还能根据文字进行创作。
如果说以ChatGPT为代表的大语言模型的出现标志着机器开始“听懂人话”,那么以Sora为代表的视频生成模型则标志着人工智能开始“描绘世界”。未来随着技术的发展,将有更多类人“感官”,例如嗅觉、触觉等赋予人工智能。
2.AIGC内容生产主要的三种模式
(1)AI Generate(大模型)生产模式
这种方式通过用户输入指令,辅以文字、图像、视频等数据,由人工智能大模型直接生成内容。生成过程仍然是一个“黑箱”,人类在完成算法和模型训练之后,视频大模型的推理过程摆脱创作者控制,生成的结果不可预测性较高。
大模型的生产方式需要在特定的通用大模型基础上投入大量的训练数据和算力资源,初期的建设成本较高,并且需要在科研攻关、需求应用、安全发展、产业生态等方面取得合作和支持。中央广播电视总台联合上海人工智能实验室在2023年发布了“央视听媒体大模型”,《千秋诗颂》是首部在“央视听媒体大模型”下生产的系列动画片,高度再现了中国古诗词中的人物造型、场景和道具。
基于“央视听媒体大模型”文生图、图像可控生成技术,采用提示词进行画面内容生成,同时可以使用风格参考图、草图等方式对生成内容进行打磨,生成所需的人物形象、场景、道具等图片。例如在场景生成时,先选择一张参考图像,并给出“中国风、唐朝、秋冬季节道路”的提示词,即可生成相应AI场景。
动态效果方面,主要使用了“央视听媒体大模型”文生视频和图生视频功能,选取主角对象后输入动态效果提示词,便能得到动画效果。例如选取古代文人的人物形象,输入“唐朝,一个文人,抱着古琴走”,就能生成对应的动画;输入图片素材后,采用图像驱动视频,可以生成4-8秒动画视频。另外,基于主题一致性模块,生成的动画还可实现“多机位”效果,保持故事情节连贯。
后期制作中结合配音配乐模型生成节奏对应、旋律匹配的配音、配乐,再辅以人工剪辑,制作成片。
(2)AI Workflow(工作流)生产模式
这种模式视频生产类似“AI组合拳”,创作者是核心,其各个阶段的创作能力因不同的大模型加持而提升,也是目前行业内应用最为广泛的一种生产模式。根据基础模型功能区分,这类视频创作分为以下几个阶段:
工作流的生产方式相比于大模型的生产方式,初期的建设成本更低,只需要通过接入相关的模型接口,在传统的内容生产流程中借助人工智能实现数字合成、虚实融合的呈现效果,众多主流媒体都采用了这种“一站式AIGC工作台”的内容生产方式以提升生产效率,上海广播电视台的“智媒魔方”、芒果超媒的“AIGC HUB”、成都市广播电视台的“知著AI智能应用平台”都是类似开箱即用的AIGC工具套装,满足了主流媒体内容创作中的部分需要。
继《千秋诗颂》之后,中央广播电视总台通过工作流的生产方式制作播出了AI全流程微短剧《中国神话》,实现美术、分镜、视频、配音、配乐全部由AI完成。《中国神话》AI工具套装由“文生剧本”“文生图”“图生视频”“文生音频”四个重要功能的应用集成,其中“文生剧本”功能基于GPT-4语言模型,“文生图”功能基于Midjourney绘画模型,“图生视频”功能基于Runway和Pika视频生成模型,“文生音频”功能基于Suno音乐模型。
《中国神话》为保证神话场景和人物东方化审美角色的统一性、剧情的连贯性,创作者反复修改提示词,以生成符合大众认知、具有东方韵味的神话人物与场景,“文生图”环节提示语发挥了至关重要作用。《中国神话》为了将故事完整地呈现在观众面前,在创作中更加注重人物呈现、逻辑连贯、情感表达等内容性部分的制作。
在“图生视频”环节,为最大限度地去提升角色的“演技”,探索剧情人物的动作连贯与情感表达,需要制作团队对人物主体的动态感进行多种参数搭配尝试,以克服主体运动幅度和画面稳定性不同步的难题。例如,在《中国神话》系列之《填海》中,为让“鸟羽微动”这2秒的画面生动起来,创作者反复调整参数搭配最终达到理想的效果,该剧配音配乐也均由AI完成,并表现出一定的创意能力。
(3)AI Agent(智能体)生产模式
智能体是一种可以直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,可以从人类指令直接生成视频内容,过程中并不需要人的介入。从这一点上,智能体与大模型生成的过程类似。两者的核心区别是智能体生成过程不再是“黑箱”,人为因素对创作影响增强。智能体作为一种操控基础模型的模型,具备长时间记忆,在创作者发出指令后,可以依据用户使用习惯、本地数据、专业数据集等,分解工作任务,通过与各种基础模型的适配,寻找出实现指令的最佳方式,并完成指令。
智能体的生产方式可能是未来AIGC应用的一个趋势,智能体的生产方式核心在于自主性的增强,AI可以独立完成一个工作节点,或在某个工作节点减少人类的干预。目前,智能体的内容生产方式还处于试水阶段,从建设成本、生成效果、产出效率来看,这种内容生产方式更值得内容制作机构关注。
(二)AIGC应用中的问题
1.模型成熟度不足
从生成效果来看,文生图的模型普遍对于数量、否定指令理解较差,存在真实性较弱、纹理细节不够、生成画面一致性较差等问题。目前多模态大模型共同缺陷主要有以下几个方面:
(1)逼真度:尽管AIGC技术在生成内容方面取得了显著进展,但生成的视频内容在逼真度上仍然无法与真实世界相媲美。这包括物体的物理属性、光影效果、纹理细节等,难以达到真实世界的复杂性和多样性。
(2)场景和元素多样性:AIGC模型在生成多样化的场景和元素方面存在限制。如果训练数据集中的场景和元素类型有限,模型生成的内容会显得单一和重复,缺乏真实世界中的丰富性和变化性。
(3)连贯性和逻辑性:视频内容需要在时间线上保持连贯性和逻辑性。AIGC模型在生成长视频或复杂场景时,可能会遇到难以保持内容连贯性的问题,导致生成的视频出现不自然或不合逻辑的跳跃。
(4)角色交互和动态行为:在涉及多个角色或动态交互的场景中,AIGC模型可能难以准确模拟角色之间的复杂交互和行为。这包括角色的动作、表情、对话等,可能无法达到真实世界中的自然和流畅。
2.算力不足
视频内容相较于文本和静态图像具有更高的数据密度和复杂度,每一帧画面都需要处理大量的像素信息。对于长视频而言,这不仅意味着数据量的线性增长,更涉及连续帧间的时间序列关系处理,这对计算资源提出了极高的要求。特别是采用高清或超高清分辨率时,单帧图像的处理就需要庞大的算力支撑,更不用说合成连贯的动态视频。
算力不足是AIGC生成长视频的主要限制因素之一。首先,由于算力资源有限,生成长视频的时间成本极高,往往需要数小时乃至数天,难以满足快速创作和即时反馈的需求;其次,为了在有限算力下完成任务,可能不得不降低模型复杂度或视频质量,导致生成内容细节缺失、流畅度下降;再次,高算力需求限制了算法的探索与迭代速度,阻碍了新技术、新模型的开发应用,影响内容多样性和创意表达。
在技术层面,视频生成过程中的每一环节,从帧内渲染到帧间预测,都是高度计算密集型任务;更大、更复杂的模型虽然能生成更高质量的内容,但其对算力的需求呈指数级增长;虽然GPU等加速器提高了并行处理能力,但在大规模长视频生成场景中,数据传输与同步问题成为瓶颈;长视频处理需要在内存中存储大量中间数据,现有硬件配置往往难以满足这种大规模数据处理需求。
3.大模型的评价指标体系尚不成熟
大模型的评价指标体系在模型的应用过程中至关重要,它直接影响模型的选型、优化、部署和效果评估。
清华大学新闻与传播学院开展了一系列大语言模型综合性能方面的研究工作,研发的“元测”模型评价体系提供了可供性、可用性、可信度、可替代性和可塑性5个一级指标和26个细分二级指标,评价了模型的物理属性、生成效果、安全性、感知能力和抗干扰能力等,使用客观和主观相结合的评价方式,且客观数据可获得。
中国传媒大学开展了文生视频模型主观评价体系的研究工作,采用主观评价的方法,直接采用观看者的视觉感受作为主观评价结果,从图文一致性、真实性、视频质量和美学质量4个一级指标和26个二级指标,评价了模型的生成质量,这套主观评价体系高度依赖评测人员的专业识别能力和数据分析,需要由专业机构策划实施。
现阶段,大模型的评价工作并没有一套行业公认的评价指标体系,特别是视觉大模型的评价,评估机构对视觉大模型的研究还处于初级阶段,缺乏更细颗粒度的指标,用于评估的数据集和评估策略也都还处在摸索阶段,尚没有系统性的评估方案。
4.内容生成的知识产权争议
AIGC本质上是机器学习的应用,而在模型的学习阶段,无法避免使用百科全书式的海量数据集执行训练,但目前对于训练后生成物的版权归属问题尚无定论。当前业界关于AIGC涉及的版权问题主要有两种看法。一类观点认为,内容由素材库训练生成,本身来自素材库,需要对相关的素材作者提供版权付费。但对于广播电视和网络视听的AI项目来说,AI的素材学习库十分庞大,获得所有训练集的授权是不切实际的。此外,AIGC本质上是机器的再创造过程,就好像是一个导演在看完几十万部影视作品后,制作出新的作品,或多或少会受到其观看作品的影响,但要求其向所有学习的影视作品的作者支付版权是不科学的。另一类观点认为,AIGC产生内容的过程是一个完全随机且创新的过程,不存在版权问题,版权属于AIGC的用户或者平台,具体规定由平台制定。
平台在处理版权问题的过程中,可能采用以下三种方式:一是生成物由作者使用AIGC工具创造,其版权完全归作者所有;二是生成物由平台AIGC工具生成,其版权归平台所有,但作者可以在非商用的情况下自由使用,对于商用的情况,只有付费用户有权自由使用;三是生成物由公共的作品数据训练而成,其知识产权也不应由某个机构或个人占有,任何人生成的作品都可以由其他人自由地以任何符合法律规定的形式使用。
研究机构通常认为在AIGC的内容生产水平尚未达到较高水平的现阶段,无需考虑作品的版权确属问题,目前最关键的是想办法解决算力不足、算法落后的问题。内容制作机构对AIGC作品版权的问题,考虑得较为谨慎,认为AIGC生成的作品也是人类劳动的成果,是提示工程师直接作用于生产资料的劳动产物,版权应该得到相应的保护。
AIGC行业应用的展望
尽管AIGC技术目前面临一些困难与挑战,但AIGC是当前和未来技术发展的重要趋势之一,AIGC技术的出现,将引发广播电视和网络视听传播体系的变革。当生产力发生了质的变化,必然带来生产关系的重构,形成与AIGC相适应的新型生产关系。广播电视和网络视听行业在建设、运营和管理等方面将迎来系统性的改革,这将是广播电视和网络视听行业进一步深化改革的重要举措。
加速形成广电视听新质生产力已成为全行业的目标和共识,形成以数据为基础的新型传播体系,或将是广电视听高质量发展的趋势之一,以“数据+模型”的智能制作平台,优化和丰富内容供给;以“算网融合”的智能传播平台,扩大主流媒体传播效果和网络传播能力;以“虚拟+现实”的智能交互平台,拓展文化消费新场景;以“模型to模型”的智能监管平台,推进安全播出保障体系化进程。
(一)“数据+模型”的内容生产
主流媒体传统的内容生产方式,受限于成本、技术和资源这三个因素,内容产出量和生产效率始终处于缓慢发展的状态,AIGC的引入,将给主流媒体内容生产带来更高效的生产率和更丰富多样的内容产出。虽然AIGC是通过算法模型来主导内容生产,但是人类内容创作者仍然扮演了至关重要的角色,短期内仍无法被完全替代。算法模型的优化,价值观的判断,是这种新的内容生产方式的核心,在未来一段时间内,人机合作的内容生产方式,将是主流媒体实现高质量内容生产的最佳模式。
新的生产方式将会引入新的内容生产要素,不再局限于现实的声音和图像,虚拟场景、数字人、AI人声将成为内容生产要素的重要组成部分;借助于大模型的自然语言处理能力、视觉处理能力和语义理解能力,实现跨模态、跨平台的内容匹配,进一步丰富内容生产,主流媒体内容生产将向“数据+模型”方向迈进,进一步提升广播电视和网络视听吸引力、传播力、影响力。
(二)“算网融合”的智能传播
中国信通院《中国算力发展指数白皮书(2022年)》统计,截至2021年底,全球数据总产量达67ZB,我国数据总产量达6.6ZB,全球算力总规模达616EFLOPS,2030年全球数据将达到YB级别。未来,AIGC将提高内容生产的效率,催生丰富的交互式应用形态,新型广播电视网络必将承载更多的内容和更加丰富多样的业务形态,实现AIGC时代节目的跨屏跨网跨终端传播的需要,新型广播电视网将承载巨大的数据运算和网络安全需要,算力和网络资源需要实现统一纳管和融合路由调度。
“算网融合”的智能传播平台将成为支撑人工智能发展的坚实基础设施,内容制作和网络运营不再是相互分割的业务板块,而是同处于高效、可靠、安全且用户体验良好的网络生态环境中的有机整体。
在AIGC应用时代,针对大规模机器学习模型,特别是深度学习模型的训练和运行所需的计算环境和资源配置,对计算能力、数据管理、存储、带宽和网络性能等方面有着极高的要求,需要为各种AI应用提供更强大的支持。
主流媒体将在“算网融合”的智能传播平台基础上,构建一套差异化特色业务体系,实现“抓内涵”和“抓传播”相结合的管理目标。一方面突出主流媒体特色,用好用足广播电视内容资源,另一方面增强主流媒体的覆盖面、到达率、影响力,满足人民群众日益增长的文化生活需要,把更丰富的收视体验带进主流媒体的传播通道,强化全流程、全频道、全屏幕、全业务的贯通。
(三)“虚拟+现实”的智能化交互
在AIGC的作用下,内容走向多元化,大模型的使用不仅拓宽了广播电视和网络视听从业者创作模式,还降低了用户使用和参与创作的门槛,传播网络不再是节目传送的通道,还将系统性解决算力和网络资源的配置,为主流媒体丰富业态模式提供了可能,与受众的互动空间也将从现实空间扩展至虚拟空间,主流媒体与受众的交互方式将迎来新的变革,更多内容丰富的作品通过交叉互动的方式,融入人民群众的工作和生活中,满足人民群众的信息需求、文化需求和娱乐需求。
未来,AIGC将为区块链、Web3.0和元宇宙带来深层改变,加速形成广义数字孪生形态与物理形态的平行世界。在元宇宙空间中,通过VR/AR/MR/XR,结合“剧本杀”的内容新模态,推陈出新,激发人民喜爱、传承和弘扬中华优秀传统文化的热情。利用多模态感官感知、数据可视化工具、沉浸式视听等技术,集成增强分析工具、地理定位数据、感官刺激、自动语音识别和行为算法等工具,实现现实生活与元宇宙空间的衔接,形成内容生产大模型与受众的交叉互动平台,创新主流媒体文化新品类和新服务,打造新型的文化消费新空间。
(四)“模型to模型”的智能化监管
全新视频生成大模型,其生成过程涉及庞大的训练数据集,具备高度智能化、生成速度快、创意性强等特点。由于可以模拟动态视觉效果和捕捉与日常生活经验一致的互动模式,生成的视频内容可能涉及各种复杂的场景和情节,特别是面向个人用户使用时会产生版权、隐私、安全、虚假内容、不良价值观等问题,这些问题因AIGC生成速度快和数量大更加突出。
“模型to模型”的智能化监管,从管理的主体和客体来看,就是以算法管理算法、以模型监管模型的一种行业管理思路。具体来说就是,使用一组算法或模型来监控和评估另一组算法或模型的行为和特性,以确保算法和模型的透明度、公平性和安全性,保障大模型生成视频内容的合法合规,更好地控制人工智能系统的潜在风险,同时促进其积极发展。
AIGC将数据、算法和算力带入整个行业的运行中,大模型在未来很可能会成为一项社会公共基础设施,参与到整个内容的制作和传播过程中。意识形态、公共服务、技术产业三大属性决定了未来广电视听大模型的基本定位,大模型训练数据集是广电视听大模型能发挥作用的基本保障,“算网融合”的智能网络基础是广电视听大模型运行的底座。建设一套符合中国特色社会主义核心价值观的广电视听大模型是行业共同的愿景,也是行业发展的选择。