OpenAI 发布 GPT-4o:多模态AI模型,实现自然人机交互

23,542次阅读
没有评论

共计 1157 个字符,预计需要花费 3 分钟才能阅读完成。

GPT-4o 可以读懂代码,学会“看脸色行事”,判断出人的情绪

OpenAI 最近推出了一款名为 GPT-4o 的新型多模态人工智能模型,该模型代表了人工智能领域的一个重大进步。GPT-4o(”o” 代表 “omni”)能够实时处理音频、视觉和文本数据,极大地提升了人机交互的自然性。

性能方面,GPT-4o 的处理速度是前代模型的五倍,语音延迟显著降低,平均延迟仅为 320 毫秒,最短可达 232 毫秒,几乎与人类反应时间相当。此外,GPT-4o 还具备了图像理解能力,能够提供翻译、解释和建议等服务。

OpenAI 发布 GPT-4o

OpenAI 发布了 GPT-4o(“o”代表“omni”)的新型多模态人工智能模型,可以实时对音频、视觉和文本进行推理,迈向更自然的人机交互。

OpenAI 首席技术官 Mira Murati 在直播演示中宣布,推出新的 OpenAI 旗舰 AI 模型,名为 GPT-4o,称它面向所有人,包括免费用户。

GPT-4o 同时具备文本、图片、视频、音频多方面的能力,即可以接受任何文本、音频等形式及其组合的输入,并生成同样媒介形式的回答。

GPT-4o 的速度是上一代的 5 倍,语音延迟大幅改善,平均为 320 毫秒,甚至可以短至 232 毫秒,达到了人类的反应级别,它能够理解和讨论用户共享的图像,提供翻译、解释和建议等功能。

GPT-4o 实时翻译现场演示:

OpenAI 计划优化 GPT-4o 以实现更自然、实时的语音对话,并计划通过实时视频与 ChatGPT 进行对话。此外,GPT-4o 的语言功能在质量和速度方面得到了提高,支持 50 多种语言。

OpenAI 还推出了适用于 macOS 的新版 ChatGPT 桌面应用,以及为 ChatGPT 引入了新的外观和感觉,更加友好和具有对话性。

GPT-4o 编码助手和桌面应用程序的现场演示:

这个功能对我们开发人员来说已经迫不及待想上手使用了:

2.jpg

GPT4-o 语音变体的现场演示:

OpenAI 称,GPT-4o 还可以检测人的情绪。

GPT-4o 视觉功能的现场演示,Zoph 将手机举到自己面前正对着脸,要求 ChatGPT 告诉他自己长什么样子: 文章来源地址 https://www.toymoban.com/diary/system/770.html

到此这篇关于 OpenAI 发布 GPT-4o:多模态 AI 模型,实现自然人机交互的文章就介绍到这了, 更多相关内容可以在右上角搜索或继续浏览下面的相关文章,希望大家以后多多支持 TOY 模板网!

原文地址:https://www.toymoban.com/diary/system/770.html

如若转载,请注明出处:如若内容造成侵权 / 违法违规 / 事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

    正文完
     0
    Yojack
    版权声明:本篇文章由 Yojack 于1970-01-01发表,共计1157字。
    转载说明:
    1 本网站名称:优杰开发笔记
    2 本站永久网址:https://yojack.cn
    3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
    4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
    5 本站所有内容均可转载及分享, 但请注明出处
    6 我们始终尊重原创作者的版权,所有文章在发布时,均尽可能注明出处与作者。
    7 站长邮箱:laylwenl@gmail.com
    评论(没有评论)