OpenAI最近发布了最新的人工智能大语言模型GPT-4o。GPT-4o在GPT-4的基础上进行了改进,增加了多模态交互能力,可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o的主要特点包括:

  • 多模态交互能力,可以理解和生成文本、音频和图像
  • 实时推理和响应,反应时间与人类对话相近
  • 支持50多种语言的自动翻译和对话
  • 具有记忆功能,可以从之前的对话中学习
  • 可以在232毫秒内对音频输入做出反应

OpenAI表示,GPT-4o是迈向更自然人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化。

GPT-4o将向所有用户免费开放,付费用户将拥有5倍于免费用户的容量限制。

OpenAI还将推出具有GPT-4o功能的ChatGPT桌面应用。

GPT-4o的发布将进一步推动多模态AI在各行业的应用,如智能终端Agent、机器人、搜索引擎、影视、音乐、教育、营销等领域。国内外多家机构都发布了相关的研究报告,建议关注相关概念股。

相关参考

GPT-4o直播回放

Hello GPT-4o

GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费

GPT-4o 深夜炸场!AI 实时视频通话,丝滑如人类,OpenAI 免费用户也能使用! | 零度解说

机会|GPT-4o登场 八方向受关注