继通用大模型之后，字节跳动又要把多模态大模型的价格打下来

5,576次阅读

没有评论

共计 2220 个字符，预计需要花费 6 分钟才能阅读完成。

界面新闻记者 | 肖芳
界面新闻编辑 | 宋佳楠

掀起通用大模型价格战后，字节跳动又要把多模态大模型的价格打下来。

12月 18 日，在火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，同时公布其售价为千 tokens 输入 0.003 元，比行业平均价格便宜 85%，相当于一元钱就可处理 284 张 720P 的图片。

这意味着，字节跳动在多模态大模型领域再次复制其在通用大模型领域大幅降价的打法。今年 5 月，该公司正式对外发布豆包大模型，并把价格降低了一个数量级，引发了阿里、百度等多家厂商大模型的降价潮。

火山引擎总裁谭待此前表示，降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。

半年过去，豆包通用大模型在市场上的表现一定程度上验证了谭待的判断。字节跳动对外公布的数据显示，截至 12 月中旬，豆包通用模型的日均 tokens 使用量已超过 4 万亿，较七个月前首次发布时增长了 33 倍。

继通用大模型之后，字节跳动又要把多模态大模型的价格打下来

大模型应用正在向各行各业加速渗透。据界面新闻了解，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC 等智能终端，覆盖终端设备约 3 亿台，来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。最近 3 个月，豆包大模型在信息处理场景的调用量增长了 39 倍，客服与销售场景增长 16 倍，硬件终端场景增长 13 倍，AI 工具场景增长 9 倍，学习教育等场景也有大幅增长。

在此次发布会上，谭待再次强调豆包大模型市场份额的爆发，得益于火山引擎“更强模型、更低成本、更易落地”的发展理念。

最新发布的豆包视觉理解模型大幅降价也基于同样的逻辑，而字节跳动在多模态大模型上的野心还不止于此。

字节跳动方面称，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

例如，其可以一眼识别动物的影子，并推断出这是什么动物，也可识别地标建筑、生活中不太熟悉的物品，并给出科普信息，同时还可识别出图片中被全选位置的物体。

豆包战略研究负责人周昊表示，豆包一直试图让用户的输入更快更方便，非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

根据谭待的判断，豆包视觉理解模型在判卷指导、作文批改、儿童陪伴等教育场景，目的地推荐、外文菜单识别、著名建筑识别及讲解等旅游场景，以及拍照找同款、商品搭配建议、广告种草文案等电商营销场景有较大的空间。目前，火山引擎已邀请数百家企业测试该模型。

和豆包视觉理解模型一同发布的，还有豆包 3D 生成模型。该模型与火山引擎数字孪生平台 veOmniverse 结合使用，据称可高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

界面新闻记者在现场体验了用豆包 3D 生成模型生成一张桌子，输入相关参数，模型就可以生成相应的3D图像，还可以根据需求变换桌子的材质。在装修设计、游戏、元宇宙等领域，该模型都可以很好地辅助设计人员进行创作。

这也是字节跳动在多模态大模型领域更大的野心所在。当多模态模型的技术能力更强、价格更便宜，其将会在更多场景以及更多对AIGC有需求的企业中使用。

同时，火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品，帮助企业构建自身的 AI 能力中心，提升开发 AI 应用的效率。其中，火山方舟发布了大模型记忆方案，并推出 prefix cache 和 session cache API，以降低延迟和成本。火山方舟还带来全域 AI 搜索，具备场景化搜索推荐一体化、企业私域信息整合等服务。

新模型发布的同时，豆包此前发布的多款大模型也迎来更新。

其中，豆包通用模型 pro 已全面对齐 GPT-4o，使用价格仅为后者的 1 /8；音乐模型从生成 60 秒的简单结构，升级到生成 3 分钟的完整作品；文生图模型 2.1 版本，首次实现精准生成汉字和一句话 P 图的产品化能力。

明年春季，字节跳动还将发布具备更长视频生成能力的豆包视频生成模型 1.5 版，豆包端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力。

相比于市场同类产品，豆包系列大模型发布的时间并不算早，但一直保持较快速度的更新。豆包系列大模型最新的能力也通过即梦 AI 和豆包 App开放给了普通用户使用。

本月初，豆包网页版和豆包 App 上线了图片理解功能。测试显示，该功能可识别图片中包含的元素和基本特征。同时，用户还可通过该功能询问某景点所处的位置或某个角色出自哪部影视作品。

基于字节自研的豆包文生图模型、豆包视频生成模型，即梦 AI 近期上线了 3 款视频生成模型，并接入了最新的豆包文生图模型。测试显示，用户可输入一句话一键生成海报，海报中文字生成的准确率也大幅提升，让图片创作编辑更加灵活。

即梦 AI 隶属于字节跳动旗下剪映业务，于 2024 年 5 月上线，定位是 AI 内容平台，支持通过自然语言及图片输入，生成高质量的图像及视频。

此前，界面新闻曾独家报道，字节跳动旗下创作工具剪映和 CapCut，在 2024 年实现了超过三位数收入增长，总收入正接近百亿元人民币。同时，剪映和 CapCut 的全球月活用户，也已经超过 8 亿。

目前，字节跳动计划提升即梦的产品优先级，尝试用新的路径打造 AI 时代的“抖音”。这也意味着，字节跳动对大模型在消费端产品落地还有更高的预期。

文章来源:继通用大模型之后，字节跳动又要把多模态大模型的价格打下来

正文完

来源：界面新闻

发表至：资讯

2024-12-19

0

转载说明：

1 本网站名称：优杰开发笔记
2 本站永久网址：https://yojack.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站所有内容均可转载及分享, 但请注明出处
6 我们始终尊重原创作者的版权，所有文章在发布时，均尽可能注明出处与作者。
7 站长邮箱：laylwenl@gmail.com

杨元庆：联想非PC业务营收占比要过半

闲鱼试水“奥莱”模式

滴滴上线海外聚合出行服务，国际化网约车业务已盈利

三星集团市值两个月蒸发近130万亿韩元跌破600万亿

携程梁建章：中国入境游尚有上万亿增量空间