李彦宏坚称不做视频生成模型,中国版Sora到底值不值得做?

14,565次阅读
没有评论

共计 1866 个字符,预计需要花费 5 分钟才能阅读完成。

图片来源:界面图库

界面新闻记者 | 肖芳

界面新闻编辑 | 宋佳楠

近日,百度 CEO 李彦宏 百度 不做 Sora演讲被 媒体 曝光 有关“中国 Sora到底 值不值得做” 话题 又在微博、小红书 社交媒体 引发 众多争论。

李彦宏 内部 讲话 Sora 这种 视频 生成 模型 投入 周期 太长 1020可能 拿不到 业务 收益 无论 多火 百度 不去

反对 声音 认为,这属于 百度 自身 业务 问题 国内目前在 视频 生成 模型 最有希望的公司是快手 字节跳动,二者 业务 视频 更近 ,待其 视频生成足够优秀之后会快速完成拉新,并带动用户体验 提升

快手 字节跳动 国内互联网大厂中 积极 布局 视频 生成 大模型 公司 Sora 发布 快手便推出文生视频大模型“可灵”,其背后的技术原理和 OpenAI 的 Sora 类似,都是把常用于视频生成人工智能的扩散模型与 Transformer 架构相结合,依托于快手短视频平台,拥有大量可用于训练的视频数据 “可灵” 发布 几个月 之后 字节跳动旗下火山引擎发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型,面向企业市场开启邀测。

字节跳动 快手 之外 今年 发布 视频 生成 模型 公司 包括 阿里云 Minimax 生数科技 智谱 AI 公司

李彦宏坚称不做视频生成模型,中国版 Sora 到底值不值得做?

国内 视频 生成模型 领域 虽然 看起来 火热 确实 面临 非常 严峻 挑战 李彦宏 视频 生成 做出 判断 并非 无稽之谈

界面 新闻 从一位负责 视频 生成 模型 技术人士处 了解 生成式 AI 技术正大幅降低视频生成的门槛,导致视频数据以 20 倍左右的速度增长 对计算成本和效率提出了严峻的挑战。以 Sora 模型为例,其训练和推理所需的算力需求分别达到了 GPT- 4 的 4.5 倍和近 400 倍

中国 银河 证券 研究院 报告 显示 Sora 对算力需求呈指数级增长根据 Sora 参数规模 推演 训练单次算力需求或可达到 2.6×10^24Flops,相当于 GPT-3175B 的 8.2 倍。目前 Sora 还在初级阶段,伴随不断迭代调优,其训练数据集规模将 进一步 增大,未来算力需求 大幅 增加

上述 技术 人士 表示 编解码层 框架层 视频 生成模型 面临 诸多 挑战 一方面 效率 问题 另一方面 是在计算需求日益增长的情况下,能否 灵活 处理 越来越 复杂 需求

这些都对 视频 生成 模型形成巨大考验 ,但其商业化 形势 仍然 不够 明朗 一定程度 上使 训练 推理 成本 挑战更为严峻

界面 新闻 了解 目前 视频 生成 模型 的落地大多在影视制作、电商营销等领域 处于 概念 多于 实质 阶段

快手曾高调推出由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》,并于近日联合李少红、贾樟柯等 9 位知名导演,启动了完全依托视频生成大模型制作电影短片“可灵 AI”导演共创计划,试图以此来证明视频生成大模型在影视制作领域的可用性。

《山海奇镜之劈波斩浪》整部影片并不是由 AI 一气呵成,而是使用可灵大模型的文生图和图生视频功能生成了很多时长 5 秒的分镜头,再由后期剪辑团队剪辑而成。其在 成本 整体的降幅不超过四分之一 远不如外界预期的那么大

快手 近期 一系列 动作 来看 仍然 可灵 AI落地 寻找 更多 应用 场景 比如 快手 试图 通过 资源 流量 扶植 方式 品牌方、制作机构、媒体等需求方 能够与 AIGC创作者 进行 商务 合作 支持 使用 可灵 AI 的创作者 获得 变现 机会 一定程度 反映 AIGC 变现 并不像 想象 那么 容易

这些 挑战 之下 视频 生成 模型 领域 一个发展趋势 降本 虽然 很多 公司 依然 积极 投入 视频 生成 模型 尽可能 降低 训练和推理成本,已经 很多 公司 都在 探索 方向

预处理过程统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,则 是其他 一些 公司 降本的重点 抖音 一位 视频架构 技术 负责人 表示 超大规模视频训练数据集导致计算和处理成本激增、视频样本数据参差不齐,以及 处理链路环节多、工程复杂等,都 视频 生成 模型 训练和推理 成本 增加 同时,对 GPU、CPU、ARM 等多种异构算力资源的调度部署 也是 挑战 之一

据界面新闻了解,豆包视频生成模型 自研了多媒体处理框架 BMF来应对模型训练的算力成本挑战,该方案可使用大量潮汐资源,为模型训练提供支撑

除此之外 ,通过自研 芯片 在同等视频压缩效率下 实现视频大模型训练和推理成本 降低,是部分 互联网 大厂选择 方向。而 一些 AIGC 公司则 在探索将 低质量视频与高质量图像相结合, 保障 视频 输出 画质 基础上 降低训练模型 成本 方法。当成本真的降下来,视频生成模型的未来之路也会更加明晰。

文章来源:李彦宏坚称不做视频生成模型,中国版 Sora 到底值不值得做?

    正文完
     0
    Yojack
    版权声明:本篇文章由 Yojack 于2024-10-21发表,共计1866字。
    转载说明:
    1 本网站名称:优杰开发笔记
    2 本站永久网址:https://yojack.cn
    3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
    4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
    5 本站所有内容均可转载及分享, 但请注明出处
    6 我们始终尊重原创作者的版权,所有文章在发布时,均尽可能注明出处与作者。
    7 站长邮箱:laylwenl@gmail.com
    评论(没有评论)