共计 2220 个字符,预计需要花费 6 分钟才能阅读完成。
界面新闻记者 |
界面新闻编辑 | 宋佳楠
掀起通用大模型价格战后,字节跳动又要把多模态大模型的价格打下来。
12月 18 日,在 火山引擎 Force 大会上,字节跳动 正式发布豆包视觉理解模型,同时 公布 其售价 为千 tokens 输入 0.003 元,比行业平均价格便宜 85%,相当于一元钱就可处理 284 张 720P 的图片。
这意味着 , 字节 跳动 在多模态 大模型 领域 再次 复制 其在 通用大模型 领域 大幅 降价 的打法 。 今年 5 月,该公司 正式 对外发布豆包大模型 , 并把 价格 降低 了一个 数量级 , 引发了阿里、百度等多家厂商大模型 的降价潮。
火山引擎总裁谭待 此前 表示,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。
半年 过去 , 豆包 通用大模型 在市场上 的表现 一定程度 上验证 了谭待 的判断 。 字节 跳动 对外 公布 的数据显示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。
大模型应用正在向各行各业加速渗透。据界面新闻了解,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。
在 此次 发布会 上,谭待 再次 强调 豆包大模型市场份额的爆发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念。
最新 发布 的豆包视觉理解模型 大幅 降价 也基于 同样 的逻辑 ,而 字节跳动 在多模态 大模型 上的 野心 还不止于此。
争夺更多有 AIG C 需求的 客户
字节跳动方面称,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。
例如,其可以 一眼识别动物的影子,并推断出这是什么动物,也可 识别地标建筑、生活中不太熟悉的物品,并给出科普信息 ,同时还可识别出 图片 中被全选位置的物体。
豆包战略研究负责人周昊 表示,豆包一直试图让用户的输入更快更方便,非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
根据谭待的判断,豆包视觉理解模型在判卷指导、作文批改、儿童陪伴等教育场景,目的地推荐、外文菜单识别、著名建筑识别及讲解等旅游场景,以及拍照找同款、商品搭配建议、广告种草文案等电商营销场景有较大的空间。目前,火山引擎已邀请数百家企业测试该模型。
和 豆包视觉理解模型 一同 发布 的,还有豆包 3D 生成模型。该模型与火山引擎数字孪生平台 veOmniverse 结合使用,据称可高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
界面 新闻 记者 在现场体验了用豆包 3D 生成模型 生成 一张 桌子 , 输入 相关 参数 , 模型 就可以 生成 相应 的3D图像 , 还可以 根据 需求 变换 桌子 的材质 。 在装修 设计 、 游戏 、 元宇宙 等领域 , 该模型 都可以 很好 地辅助 设计 人员 进行 创作。
这也是 字节 跳动 在多模态 大模型 领域 更大 的野心 所在 。 当多模态 模型 的技术 能力 更强 、 价格 更便宜 , 其将 会在 更多 场景 以及 更多 对AIGC有需求 的企业 中使用。
同时,火山引擎升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建自身的 AI 能力中心,提升开发 AI 应用的效率。其中,火山方舟发布了大模型记忆方案,并推出 prefix cache 和 session cache API,以降低延迟和成本。火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。
批量更新大模型
新模型 发布 的同时 , 豆包 此前 发布 的多款 大模型 也迎来 更新。
其中 , 豆包通用模型 pro 已全面对齐 GPT-4o,使用价格仅为后者的 1 /8;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型 2.1 版本,首次实现精准生成汉字和一句话 P 图的产品化能力。
明年 春季 , 字节跳动 还将 发布 具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。
相比于 市场 同类 产品 , 豆包系列大模型 发布 的时间 并不算早 , 但一直 保持 较快 速度 的更新 。 豆包 系列 大模型 最新 的能力 也通过 即梦 AI 和豆包 App开放 给了 普通 用户 使用。
本月初 , 豆包 网页版 和豆包 App 上线 了图片理解功能 。测试 显示 , 该功能 可识别图片中包含的元素和基本特征。同时,用户还可通过该功能询问某景点所处的位置或某个角色出自哪部影视作品。
基于字节自研的豆包文生图模型、豆包视频生成模型,即梦 AI 近期上线了 3 款视频生成模型,并接入了最新的豆包文生图模型 。 测试 显示 , 用户 可输入 一句话 一键生成 海报 , 海报 中文字生成的准确率 也大幅 提升 , 让图片创作编辑更加灵活。
即梦 AI 隶属于字节跳动旗下剪映业务,于 2024 年 5 月上线,定位是 AI 内容平台,支持通过自然语言及图片输入,生成高质量的图像及视频。
此前 , 界面 新闻 曾独家 报道 , 字节跳动旗下创作工具剪映和 CapCut,在 2024 年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和 CapCut 的全球月活用户,也已经超过 8 亿。
目前 , 字节 跳动 计划提升即梦的产品优先级,尝试用新的路径打造 AI 时代的“抖音”。这也意味着 , 字节跳动 对大模型 在消费 端产品 落地 还有 更高 的预期。
文章来源:继通用大模型之后,字节跳动又要把多模态大模型的价格打下来