当前位置:
首页
> 新闻资讯 > 行业资讯
视频领域生成式人工智能发展新态势
发布日期:2024-05-11 16:41信息来源:国家广电智库 浏览次数:

自从Sora发布以来,人工智能生成视频走上了行业风口。国内外一系列大模型进入公众视野,4月27日,在中关村论坛上,清华大学人工智能研究院发布的视频生成大模型——Vidu再一次将人工智能生成视频推上风口浪尖。虽然当前国内外有多个视频生成模型,抖音的Dreamina,海外的Pika、Gen-2、StreamingT2V、MagicVideor等多个视频生成大模型,但是与一年前大语言模型ChatGPT引发的业内“百模大战”和社会“狼来了”的恐慌相比,这一轮大模型爆发带来了行业和公众的应用热潮,呈现出新的发展态势。

一、视频生成走上新风口,

但大模型成本高企

最先进的人工智能模型的训练成本已经达到了前所未有的水平。根据斯坦福大学发布的《2024年人工智能指数报告》数据,OpenAI的GPT-4估计使用了价值 7800 万美元的计算资源进行训练,而谷歌的Gemini Ultra 的计算成本则高达 1.91 亿美元。相比之下,几年前发布的一些最先进的模型,即原始 Transformer 模型(2017 年)和谷歌的Bert模型(2019 年)训练成本分别约为 900 美元和 16 万美元。

视频大模型更是一种“奢侈品”。Sora上线以来,多个人工智能视频生成应用上线。国际上Pika、Gen-2、StreamingT2V、MagicVideo、Boximator先后上线,国内抖音Dreamina、清华大学Vidu模型上线。虽然国内主要人工智能企业相关的大模型研发也在紧锣密鼓地进行,但是Sora公布后并没有再现ChatGPT引发的“百模大战”场景。

二、生成视频的主流方式

从AI工作流转向智能体

当前人工智能生成视频的三种方式(见图2)。一是AI generate(大模型)模式。这种方式通过用户输入指令,辅以文字、图像、视频等数据,由人工智能大模型直接生成内容。典型的有文生视频Sora、Vidu,图片生成视频Pika、Runway等,视频生成视频MagicVideo等不同应用。生成过程仍然是一个“黑箱”,人类在完成算法和模型训练之后,视频大模型的推理过程摆脱创作者控制,生成的结果不可预测性较高。

二是AI Agent(智能体)模式。智能体是一种可以控制模型的模型,它可以从人类指令直接生成视频内容。从这一点上看,智能体与大模型生成的过程类似。两者的核心区别是智能体生成过程不再是“黑箱”,人为因素对创作的影响增强。智能体作为一种操控基础模型的模型,具备长时间记忆,在创作者发出指令后,可以依据用户使用习惯、本地数据、专业数据集等,分解工作任务,并与各种基础模型的适配,寻找出实现指令的最佳方式,并完成指令。

三是AI Workflow(工作流)模式。这种模式视频生产类似“接力”,创作者是核心,其各个阶段的创作能力因不同的大模型加持而提升。根据基础模型功能区分,这类视频创作分为以下几个阶段。1.语言生成阶段。这一阶段,使用大语言模型生成剧本、分镜头剧本以及描述相关文生图应用提示词(Prompt)。2.图片生成阶段。利用提示词输入文生图大模型,生成符合创作者意图的图片。3.图生视频阶段。将图片输入视频生成应用,设定图片运动轨迹,生成视频。4.使用辅助工具生成配音、旁白、字幕、音乐等元素。

AI Workflow是国内外专业创作者比较常用的方式。从创作者的参与度来看,AI Workflow成本最低;创作者对创作过程的把控力度最强,用时也最长;生成视听内容的质量也最高。北美上映的首部人工智能创作电影作品《我们的终结者2重制版(Our T2 Remake)》、央视频《中国神话》都适用该方式创作。芒果TV发布的AIGC HUB,上海广播电视台的Scube(智媒魔方),成都市广播电视台的“知著AI智能应用平台”都属于工作流方式。

由智能体驱动的强交互应用将会逐步替代工作流成为主流。智能体集纳各类基础大模型能力,为用户提供了多样化和高效生成式解决方案,在不同的应用场景中展现出了强大的能力,从基础的文本解析到复杂的视觉转换,再到视频内容的延伸和编辑,为用户打造了一个全面的生成服务平台。科技界认为,如果大模型是人工智能的Iphone,那么智能体将是未来的应用商店。2023年下半年,多个智能体框架产生,例如OpenAI 开发了AutoGPT、谷歌开发了AutogenStudio、字节跳动推出Coze,阿里达摩院开发了Aesop Agent等。除此之外,大量的人工智能网上社区,例如HuggieFace、Github、魔搭社区等逐渐向智能体方向发展。

三、人工智能“技术鸿沟”呈扩大化趋势

美国触及世界模型建构,处于全球领导地位,其他国家仍在基础开发领域追赶。美国拥有全球最多的原创大模型研发机构,在2023年全球发布的知名大模型中,有61个来自美国,约占全球的58%,远远超过欧盟的21个和中国15个模型的水平(见图3)。美国头部企业创新不断。除OpenAI 外,谷歌和Meta都是全球大模型重要玩家,成熟的模型和算法都来美国。

与此同时,自2022年以来,中国和包括英国在内的欧盟的私人人工智能投资分别下降了44.2%和14.1%,而美国在同一时期内经历了22.1%的显著增长。

四、应用是关键,部署开放生态是未来

大模型建设不是终点,基于模型建构开放的应用生态是行业发展的未来。视听大模型生态目前呈现出多种不同生态布局路径。

一是大模型基础设施地位强化,快速转向平台式发展。具有超强自动生成能力的模型,例如Sora以及未来必然出现的更强的视频生成模型,将成为视听内容生产传播的基础设施。这些基础设施一旦面向用户端开放之后,将呈现出强大的生产力、传播力和影响力,它们将成为智能时代的新媒体,成为新兴主流媒体。

二是视频生成模型将越来越多地嵌入到用户界面中。多个应用将集纳先进的人工智能功能,更易于访问和使用。2024年4月15日,Adobe宣布在其工作流中全面纳入Sora、Pika、Gen-2;4月17日亚马逊云科技宣布,在Amazon Bedrock上正式推出来自Anthropic的Claude 3 Opus模型。

三是生成式应用依托智能体走向个性化。智能体对于模型层和应用层的粘合力增强,集纳大语言模型、图像和声音生成模型,成为多任务处理功能实现的重要路径。智能体主要基于大模型开展工作,在处理复杂的任务,如语言理解、对话生成、内容创作等方面优势明显,并且能够根据环境的变化和用户的输入进行动态调整和自我优化。

视频大模型训练和修改的成本相对较高,垂类模型的建设需要强有力的主体推动,未来开放C端服务才能让行业大模型发挥最大的价值。从专业生产制作领域,消除生成式人工智能的使用障碍,利用较小的投入,加强建设AIGC一站式工作台、AIGC工具箱、AIGC Hub、智能体等,推动相关模型的应用,为制作者赋能,并从工作流方式转向智能体建设是成本最低并且更能推动行业产能发展的方式。

分享到
[全文下载]