共计 1866 个字符,预计需要花费 5 分钟才能阅读完成。
![](https://yojack.cn/wp-content/uploads/replace/5d2a295be2f63643aa40522425542af2.jpeg)
图片来源:界面图库
界面新闻记者 |
界面新闻编辑 | 宋佳楠
近日,百度 CEO 李彦宏 称“百度 不做 Sora” 的演讲被 媒体 曝光 后,有关“中国 版Sora到底 值不值得做”的 话题 又在微博、小红书 等社交媒体 引发 众多争论。
李彦宏 在内部 讲话 中称 ,Sora 这种 视频 生成 模型 的投入 周期 太长 ,10 年、20年 都可能 拿不到 业务 收益 , 无论 多火 爆,百度 都不去 做。
反对 的声音 认为,这属于 百度 自身 业务 的问题 。 国内目前在 视频 生成 模型 上最有希望的公司是快手 和字节跳动,二者 的业务 离视频 更近 ,待其 视频生成足够优秀之后会快速完成拉新,并带动用户体验 提升。
快手 和字节跳动 是国内互联网大厂中 积极 布局 视频 生成 大模型 的公司 。Sora 发布 后,快手便推出文生视频大模型“可灵”,其背后的技术原理和 OpenAI 的 Sora 类似,都是把常用于视频生成人工智能的扩散模型与 Transformer 架构相结合,依托于快手短视频平台,拥有大量可用于训练的视频数据 。“可灵” 发布 几个月 之后 , 字节跳动旗下火山引擎发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型,面向企业市场开启邀测。
除 字节跳动 和快手 之外 , 今年 发布 视频 生成 模型 的公司 还包括 阿里云 、Minimax、 生数科技 、 智谱 AI等 公司。
国内 视频 生成模型 领域 虽然 看起来 火热 , 但确实 面临 着非常 严峻 的挑战 , 李彦宏 对视频 生成 做出 的判断 并非 无稽之谈。
界面 新闻 从一位负责 视频 生成 模型 的技术人士处 了解 到,生成式 AI 技术正大幅降低视频生成的门槛,导致视频数据以 20 倍左右的速度增长 , 对计算成本和效率提出了严峻的挑战。以 Sora 模型为例,其训练和推理所需的算力需求分别达到了 GPT- 4 的 4.5 倍和近 400 倍。
中国 银河 证券 研究院 的报告 也显示 ,Sora 对算力需求呈指数级增长。 其根据 Sora 参数规模 推演 出的 训练单次算力需求或可达到 2.6×10^24Flops,相当于 GPT-3175B 的 8.2 倍。目前 Sora 还在初级阶段,伴随不断迭代调优,其训练数据集规模将 进一步 增大,未来算力需求 也会 大幅 增加。
上述 技术 人士 还表示 , 在编解码层 和框架层 , 视频 生成模型 也面临 着诸多 挑战 。 一方面 是效率 的问题 , 另一方面 是在计算需求日益增长的情况下,能否 灵活 处理 越来越 复杂 的需求。
这些都对 视频 生成 模型形成巨大考验 ,但其 在商业化 上的 形势 仍然 不够 明朗 , 一定程度 上使 训练 和推理 成本 上的 挑战更为严峻。
据 界面 新闻 了解 , 目前 视频 生成 模型 的落地大多在影视制作、电商营销等领域 , 处于 概念 多于 实质 的阶段。
快手曾高调推出由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》,并于近日联合李少红、贾樟柯等 9 位知名导演,启动了完全依托视频生成大模型制作电影短片“可灵 AI”导演共创计划,试图以此来证明视频生成大模型在影视制作领域的可用性。
但 《山海奇镜之劈波斩浪》整部影片并不是由 AI 一气呵成,而是使用可灵大模型的文生图和图生视频功能生成了很多时长 5 秒的分镜头,再由后期剪辑团队剪辑而成。其在 成本 上整体的降幅不超过四分之一 , 远不如外界预期的那么大。
从 快手 近期 的一系列 动作 来看 , 其仍然 在为 可灵 AI 的落地 寻找 更多 应用 场景 。 比如 , 快手 试图 通过 资源 和流量 扶植 的方式 , 让品牌方、制作机构、媒体等需求方 能够与 AIGC创作者 进行 商务 合作 , 以支持 使用 可灵 AI 的创作者 获得 变现 机会 。 这在 一定程度 上反映 了AIGC的 变现 并不像 想象 中的 那么 容易。
在 这些 挑战 之下 , 视频 生成 模型 领域 的一个发展趋势 是降本 。 虽然 很多 公司 依然 在积极 投入 视频 生成 模型 , 但尽可能 降低 训练和推理成本,已经 是很多 公司 都在 探索 的方向。
在 预处理过程统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,则 是其他 一些 公司 降本的重点 。 抖音 一位 视频架构 技术 负责人 表示 , 超大规模视频训练数据集导致计算和处理成本激增、视频样本数据参差不齐,以及 处理链路环节多、工程复杂等,都 让视频 生成 模型 训练和推理 成本 增加 。 同时,对 GPU、CPU、ARM 等多种异构算力资源的调度部署 也是 挑战 之一。
据界面新闻了解,豆包视频生成模型 自研了多媒体处理框架 BMF来应对模型训练的算力成本挑战,该方案可使用大量潮汐资源,为模型训练提供支撑。
除此之外 ,通过自研 芯片 在同等视频压缩效率下 实现视频大模型训练和推理成本 降低,是部分 互联网 大厂选择 的方向。而 一些 AIGC 公司则 在探索将 低质量视频与高质量图像相结合,在 保障 视频 输出 画质 的基础上 降低训练模型 成本 的方法。当成本真的降下来,视频生成模型的未来之路也会更加明晰。
文章来源:李彦宏坚称不做视频生成模型,中国版 Sora 到底值不值得做?