OpenAI 发布 GPT-4o：多模态AI模型，实现自然人机交互

23,542次阅读

没有评论

共计 1157 个字符，预计需要花费 3 分钟才能阅读完成。

GPT-4o 可以读懂代码，学会“看脸色行事”，判断出人的情绪

OpenAI 最近推出了一款名为 GPT-4o 的新型多模态人工智能模型，该模型代表了人工智能领域的一个重大进步。GPT-4o（”o” 代表 “omni”）能够实时处理音频、视觉和文本数据，极大地提升了人机交互的自然性。

性能方面，GPT-4o 的处理速度是前代模型的五倍，语音延迟显著降低，平均延迟仅为 320 毫秒，最短可达 232 毫秒，几乎与人类反应时间相当。此外，GPT-4o 还具备了图像理解能力，能够提供翻译、解释和建议等服务。

OpenAI 发布 GPT-4o

OpenAI 发布了 GPT-4o（“o”代表“omni”）的新型多模态人工智能模型，可以实时对音频、视觉和文本进行推理，迈向更自然的人机交互。

OpenAI 首席技术官 Mira Murati 在直播演示中宣布，推出新的 OpenAI 旗舰 AI 模型，名为 GPT-4o，称它面向所有人，包括免费用户。

GPT-4o 同时具备文本、图片、视频、音频多方面的能力，即可以接受任何文本、音频等形式及其组合的输入，并生成同样媒介形式的回答。

GPT-4o 的速度是上一代的 5 倍，语音延迟大幅改善，平均为 320 毫秒，甚至可以短至 232 毫秒，达到了人类的反应级别，它能够理解和讨论用户共享的图像，提供翻译、解释和建议等功能。

GPT-4o 实时翻译现场演示：

OpenAI 计划优化 GPT-4o 以实现更自然、实时的语音对话，并计划通过实时视频与 ChatGPT 进行对话。此外，GPT-4o 的语言功能在质量和速度方面得到了提高，支持 50 多种语言。

OpenAI 还推出了适用于 macOS 的新版 ChatGPT 桌面应用，以及为 ChatGPT 引入了新的外观和感觉，更加友好和具有对话性。

GPT-4o 编码助手和桌面应用程序的现场演示：

这个功能对我们开发人员来说已经迫不及待想上手使用了：

GPT4-o 语音变体的现场演示：

OpenAI 称，GPT-4o 还可以检测人的情绪。

GPT-4o 视觉功能的现场演示，Zoph 将手机举到自己面前正对着脸，要求 ChatGPT 告诉他自己长什么样子：文章来源地址 https://www.toymoban.com/diary/system/770.html

到此这篇关于 OpenAI 发布 GPT-4o：多模态 AI 模型，实现自然人机交互的文章就介绍到这了, 更多相关内容可以在右上角搜索或继续浏览下面的相关文章，希望大家以后多多支持 TOY 模板网！

原文地址:https://www.toymoban.com/diary/system/770.html

如若转载，请注明出处：如若内容造成侵权 / 违法违规 / 事实不符，请联系站长进行投诉反馈，一经查实，立即删除！

正文完

技术探索

发表至：软件资源

1970-01-01

0

转载说明：

1 本网站名称：优杰开发笔记
2 本站永久网址：https://yojack.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站所有内容均可转载及分享, 但请注明出处
6 我们始终尊重原创作者的版权，所有文章在发布时，均尽可能注明出处与作者。
7 站长邮箱：laylwenl@gmail.com

OpenAI 发布 GPT-4o：多模态AI模型，实现自然人机交互

搜索的未来：ChatGPT、语音搜索和图像搜索如何彻底改变数字格局

如何在WordPress中添加meta标签

CentOS7 如何快速安装 php 运行环境?

已是最早的文章