争造AI时代剪映:国产Sora的生态暗战与商业黎明

正见TrueView
关注

图片

内容/刘萍

编辑/一白

校对/咏鹅

当DeepSeek用1/10算力实现GPT-4级别性能时,这个信号值得所有文生视频从业者深思:中国AI创新不应趋于技术复刻,而是要构建原创技术范式。真正的破局点或在于“场景定义技术”的创新路径。当技术研发深度融入产业需求时,中国公司完全可能开辟出超越Sora范式的新赛道。正如大模型领域涌现的MoE架构创新,文生视频的下一轮突破,或诞生于技术与产业需求的化学反应之中。

今年春节,DeepSeek火遍全球。上一次大模型引发如此震动,还是OpenAI发布Sora时。

2024年2月15日,OpenAI的文生视频模型Sora横空出世,凭借其逼真的效果、复杂的镜头转换、以及最长可达1分钟的视频生成时长,瞬间在全球引发热潮。这一突破也引得国内厂商紧急入场,快手可灵、字节即梦、阿里通义万相、腾讯混元等文生视频模型接踵而至,背后亟待开掘的是如剪映般超8亿月活和近百亿营收的商业空间。

然而卷了一年后,厂商们依旧是互联网时代“小步快跑,试错迭代”的产品思维。近期快手可灵发布1.6版本,语义理解、文本响应度等功能有所提升,收费规则没变;时隔一月,阿里云发布通义万相2.1,在大幅度复杂运动、物理规律遵循、艺术表现等层面全面提升,首创生成汉字视频……

DeepSeek只用少量GPU和低廉的部署成本实现媲美OpenAI效果的解题思路,或许能为文生视频厂商提供解决困局和改变竞争维度的样本参考。

如果说2024年,文生视频厂商完成了从0到1的初步探索,在AIGC技术日新月异的发展节奏与大厂激烈竞逐的浪潮中,2025年将背负的是从1到10乃至100的期待。谁将成为引领新一轮文生视频风潮的先锋?谁又将出现在自家大厂失败产品的盘点名单之上? 

Part.1

技术路线共识下的创新困境

追赶者难破时长魔咒

当OpenAI在2024年2月15日向世界展示Sora时,这个能生成60秒高质量视频的AI模型不仅重新定义了文生视频的行业标准,更在无意间为中国AI赛道划定了技术追赶的坐标系。

传统U-Net架构需要完整图像的前后向传播,而Sora基于Transformer的patch训练机制可将计算成本降低40%以上。这种效率提升让国内厂商在算力受限的环境下看到了希望——正如DeepSeek用1/3的GPU资源实现GPT-4水平的语言模型,文生视频领域似乎也存在类似的“捷径”。

从快手可灵到阿里通义万相,从字节即梦到腾讯混元,国内厂商集体开启了一场名为“复刻Sora”的技术军备竞赛。

可是,虽然国内厂商已掌握Sora的技术核心DiT架构(Diffusion+Transformer)的基础原理,但这并不意味着他们能顺利复制出国产Sora,关键差距在于技术体系的完整性。毕竟技术路线以外,Sora未披露的技术细节,诸如参数规模、算法设计等关键技术环节仍存在代际差距。

相比难以突破的算力、算法和数据三大核心难关,国内各厂商的主要比拼指标围绕时长、视频的分辨率等展开。

而这场始于技术路线模仿的追逐战,也在经历近一年的发展后,逐渐显露出更深层的创新困境。清华系AI公司瑞莱智慧RealAI、蚂蚁集团和百度联合孵化的生数科技,去年4月底就携文生视频模型Vidu亮相,号称能生成最长为16秒的视频,但7月末正式上线时,视频时长却仅有4秒和8秒两种选择。

智谱AI在去年7月发布了文生视频清影(Ying),底层技术也沿用了DiT架构,可生成的视频最长仅有6秒,11月增加至10秒。从清华系RealAI的16秒承诺缩水至实际8秒输出,到智谱AI清影模型从6秒艰难爬升至10秒,国产模型始终困在"秒级"竞技场。

即便头部玩家快手可灵通过"续写"功能实现3分钟拼接视频,其单次生成仍停留在10秒门槛。这种困境在Sora Turbo正式版发布后更显讽刺——OpenAI主动将时长压缩至20秒,暗示首秀的1分钟视频实为精心剪辑之作。

图片

在生成式AI领域,技术路线的透明度与实现能力之间存在巨大鸿沟,也揭示了一个残酷现实:单纯的技术路线模仿难以突破物理模拟、时空连续性等核心难题。就像当年国产芯片遭遇的“制程追赶悖论”,文生视频领域同样面临“参数堆砌效率递减”的困局。

而当整个行业陷入同质化竞争的泥潭时,所谓技术突破往往沦为参数调优的数字游戏。

Part.2

数据荒与技术伦理

构建生态壁垒的双重挑战

如果说技术路线是看得见的战场,那么数据争夺就是水面下的暗战。2024年9月爱奇艺起诉MiniMax的版权纠纷,揭开了大模型训练的暗箱——“数据荒”。

算法、算力和数据是支撑AI文生视频模型运行的核心三要素,也是决定技术突破的基础。

数据是模型训练的原材料,训练数据越多,模型越强大。没有稳定的数据来源,大模型的训练无从谈起。经过“百模大战”,高质量数据已变得越发昂贵且稀缺。

强如OpenAI也难逃“数据荒”的困境。

2023年,OpenAI因擅自使用媒体数据,惹恼了欧美主流媒体,最终拿钱消灾,与Politico、《时代》、《金融时报》等签订了付费协议。同年5月,OpenAI首席执行官奥特曼公开承认,AI公司在不久的将来会耗尽互联网上所有的数据。

去年8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录数百万个YouTube 视频来训练大模型。OpenAI的前任CEO Mira在采访中被问及是否拿YouTube的视频训练Sora,Mira拒绝了回答。

当互联网公开数据即将耗尽,拥有私有数据池的平台便拥有了护城河。相信这也是快手、字节、阿里、腾讯等拥有长短视频平台产品的厂商,争相入局的原因之一。

快手、抖音这样的短视频平台,天然拥有数据资源禀赋,多年来积攒了巨量、丰富的视频数据;阿里旗下的优酷,为国内三大视频平台之一,坐拥高质量的视频资源。

谷歌的文生视频模型Veo2被认为比Sora还强大,暂且不分析复杂的技术问题,光是谷歌涌有YouTube,就比OpenAI少了许多数据来源烦恼。

当技术水平尚处于统一竞争维度,都未能打破算力、算法和数据禁锢,文生视频赛道的竞争也开始演变为平台级生态系统的对抗。 

Part.3

商业化前哨战

从流量狂欢到价值沉淀的路径探索

枪战片版《甄嬛传》,武打剧类《红楼梦》,大熊猫做家务……在快手、抖音、小红书等社交平台,这些“魔改”、创意十足的小视频播放量屡创新高。

虽然创作者已经率先分得流量甜头,但与通用语言大模型的商业化历程类似,留给文生视频的发育时间注定不会太久。

2025年,文生视频势必要经历从技术崇拜到商业理性的范式转换。

参考行业基准线Sora Turbo的订阅制收费模式,每月20美元可生成50个视频。具体而言,月收费20美元的ChatGPT Plus用户可直接使用Sora,但每月最多生成50个480p视频或更少的720p视频,时长为5秒。月收费200美元的ChatGPT Pro用户,能享受更多的视频生成数量和更高的分辨率,时长达20秒。

而中国厂商正在积极探索更具本土特色的变现路径。快手提供免费额度,并设置了收费梯度,月费分为66元、266元和666元三档。用户每次登录能免费获得一定数量的灵感值,消耗完需要开通会员获取灵感值,才能继续生成视频。

或许是出于促进内容生态繁荣的需求,2024年10月18日,快手可灵启动了首期“未来合伙人计划”,推出一站式AIGC生态合作平台,帮助创作者降低创作门槛。但这种2C模式面临双重挑战:个人用户付费意愿天花板明显,而专业创作者受制于平台流量管控策略。

因AI视频容易引发版权纠纷,且若平台充斥太多AI视频,会引起用户反感,进而影响社区生态。为此厂商们也在积极探索更多变现路径以求破局。

抖音和博纳合作了AI科幻短剧《三星堆:未来启示录》;快手联合贾樟柯、李少红等9位知名导演,依托可灵制作出品9部AIGC电影短片。但具体收益如何还有待考证。

除影视合作外,电商也是B端商业化的重要试验田。如阿里面向平台商家开放专属图生视频,推动营销落地;可灵将部分内测名额给了遥望科技等MCN机构,以加速技术的应用与推广。

这些探索揭示出新的价值逻辑——当技术竞赛陷入僵局,场景化落地能力加速赛程推进。

Part.4

行业终局思考

走出OpenAI的范式“阴影”

DeepSeek用MoE架构突破算力瓶颈,文生视频领域同样需要架构级的变革。 

多模态大模型与神经渲染的结合,量子计算对扩散模型的加速,甚至是脑科学启发的认知架构,这些前沿探索虽然风险巨大,却是打破同质化竞争的唯一出路。 

当技术突破、数据生态与商业落地形成正向循环,中国AI企业才能真正构建起自己的护城河。

在这场虚实交织的竞赛中,最后的赢家不会是某个技术参数的保持者,而是那些能重新定义视频生成与物理世界关系的规则制定者。

正如智能手机革命不仅是通信工具的升级,文生视频的终极价值,在于创造人类认知与数字世界交互的新范式。这条路注定漫长,但正是这种超越短期功利的坚持,才能孕育出真正改变世界的创新力量。

       原文标题 : 争造AI时代剪映:国产Sora的生态暗战与商业黎明

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存