李彦宏坚称不做视频生成模型，中国版Sora到底值不值得做？

14,565次阅读

没有评论

共计 1866 个字符，预计需要花费 5 分钟才能阅读完成。

图片来源：界面图库

界面新闻记者 | 肖芳
界面新闻编辑 | 宋佳楠

近日，百度 CEO 李彦宏称“百度不做 Sora” 的演讲被媒体曝光后，有关“中国版Sora到底值不值得做”的话题又在微博、小红书等社交媒体引发众多争论。

李彦宏在内部讲话中称，Sora 这种视频生成模型的投入周期太长，10 年、20年都可能拿不到业务收益，无论多火爆，百度都不去做。

反对的声音认为，这属于百度自身业务的问题。国内目前在视频生成模型上最有希望的公司是快手和字节跳动，二者的业务离视频更近，待其视频生成足够优秀之后会快速完成拉新，并带动用户体验提升。

快手和字节跳动是国内互联网大厂中积极布局视频生成大模型的公司。Sora 发布后，快手便推出文生视频大模型“可灵”，其背后的技术原理和 OpenAI 的 Sora 类似，都是把常用于视频生成人工智能的扩散模型与 Transformer 架构相结合，依托于快手短视频平台，拥有大量可用于训练的视频数据。“可灵” 发布几个月之后，字节跳动旗下火山引擎发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型，面向企业市场开启邀测。

除字节跳动和快手之外，今年发布视频生成模型的公司还包括阿里云、Minimax、生数科技、智谱 AI等公司。

李彦宏坚称不做视频生成模型，中国版 Sora 到底值不值得做？

国内视频生成模型领域虽然看起来火热，但确实面临着非常严峻的挑战，李彦宏对视频生成做出的判断并非无稽之谈。

界面新闻从一位负责视频生成模型的技术人士处了解到，生成式 AI 技术正大幅降低视频生成的门槛，导致视频数据以 20 倍左右的速度增长，对计算成本和效率提出了严峻的挑战。以 Sora 模型为例，其训练和推理所需的算力需求分别达到了 GPT- 4 的 4.5 倍和近 400 倍。

中国银河证券研究院的报告也显示，Sora 对算力需求呈指数级增长。其根据 Sora 参数规模推演出的训练单次算力需求或可达到 2.6×10^24Flops，相当于 GPT-3175B 的 8.2 倍。目前 Sora 还在初级阶段，伴随不断迭代调优，其训练数据集规模将进一步增大，未来算力需求也会大幅增加。

上述技术人士还表示，在编解码层和框架层，视频生成模型也面临着诸多挑战。一方面是效率的问题，另一方面是在计算需求日益增长的情况下，能否灵活处理越来越复杂的需求。

这些都对视频生成模型形成巨大考验，但其在商业化上的形势仍然不够明朗，一定程度上使训练和推理成本上的挑战更为严峻。

据界面新闻了解，目前视频生成模型的落地大多在影视制作、电商营销等领域，处于概念多于实质的阶段。

快手曾高调推出由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》，并于近日联合李少红、贾樟柯等 9 位知名导演，启动了完全依托视频生成大模型制作电影短片“可灵 AI”导演共创计划，试图以此来证明视频生成大模型在影视制作领域的可用性。

但《山海奇镜之劈波斩浪》整部影片并不是由 AI 一气呵成，而是使用可灵大模型的文生图和图生视频功能生成了很多时长 5 秒的分镜头，再由后期剪辑团队剪辑而成。其在成本上整体的降幅不超过四分之一，远不如外界预期的那么大。

从快手近期的一系列动作来看，其仍然在为可灵 AI 的落地寻找更多应用场景。比如，快手试图通过资源和流量扶植的方式，让品牌方、制作机构、媒体等需求方能够与 AIGC创作者进行商务合作，以支持使用可灵 AI 的创作者获得变现机会。这在一定程度上反映了AIGC的变现并不像想象中的那么容易。

在这些挑战之下，视频生成模型领域的一个发展趋势是降本。虽然很多公司依然在积极投入视频生成模型，但尽可能降低训练和推理成本，已经是很多公司都在探索的方向。

在预处理过程统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，则是其他一些公司降本的重点。抖音一位视频架构技术负责人表示，超大规模视频训练数据集导致计算和处理成本激增、视频样本数据参差不齐，以及处理链路环节多、工程复杂等，都让视频生成模型训练和推理成本增加。同时，对 GPU、CPU、ARM 等多种异构算力资源的调度部署也是挑战之一。

据界面新闻了解，豆包视频生成模型自研了多媒体处理框架 BMF来应对模型训练的算力成本挑战，该方案可使用大量潮汐资源，为模型训练提供支撑。

除此之外，通过自研芯片在同等视频压缩效率下实现视频大模型训练和推理成本降低，是部分互联网大厂选择的方向。而一些 AIGC 公司则在探索将低质量视频与高质量图像相结合，在保障视频输出画质的基础上降低训练模型成本的方法。当成本真的降下来，视频生成模型的未来之路也会更加明晰。

文章来源:李彦宏坚称不做视频生成模型，中国版 Sora 到底值不值得做？

正文完

来源：界面新闻

发表至：资讯

2024-10-21

0

转载说明：

1 本网站名称：优杰开发笔记
2 本站永久网址：https://yojack.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站所有内容均可转载及分享, 但请注明出处
6 我们始终尊重原创作者的版权，所有文章在发布时，均尽可能注明出处与作者。
7 站长邮箱：laylwenl@gmail.com

iPhone 权益机更香？ iPhone 版本类型介绍

李彦宏最新内部讲话：不同模型之间的差距只会越来越大

苹果秋季发布会正式开始库克经典开场“Good Morning”

淘宝和微信之间的“墙”快要拆倒了

【已解决】npm ERR! A complete log of this run can be found in: D:environmentnodejsnode_cach