OpenAI 发布新旗舰模型 GPT-4o,实时处理音频、视觉和文本

原始链接在: OpenAI 发布新旗舰模型 GPT-4o,实时处理音频、视觉和文本 - 小众软件

OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”),它可以同时处理文本、音频、视频,让你与 AI 的交流变得和人一样,你可以和它面对面视频,它会在很短的时间内做出响应。那个电影里的贾维斯,大概就这来了。@Appinn


主要特点

GPT-4o 能接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。

它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应,这类似于对话中的人类响应时间。

在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

以前为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。

而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

它在英语和代码文本上的性能与 GPT-4 Turbo 相当,在非英语语言文本上的性能也有显著提高,同时在应用程序接口(API)上的速度更快,价格便宜 50%。

与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

演示视频

中文字幕:

如何使用

GPT-4o 的文本和图像(无视频)功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制,免费版本可用 GPT-4o

未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员(API 用户)现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。

未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。


原文:https://www.appinn.com/hello-gpt-4o-openai/

另外,目前青小蛙还未看到 GPT-4o 权限 🙈

更新了个实时翻译视频:

虽然有翻译机在先,但翻译机大几千块啊

这玩意20刀定一个月,出门回来也就200块钱…

1 个赞

赶紧出机器人吧,脑力劳动取代完了,该取代体力劳动了!
我想混吃等喂

2 个赞

啊这,我也想

openai付费太难了
国内各种中转倒是能用,不过偶尔还是需要用到openai原生的api

刚刚充值了10刀…是太难了

试试霓虹或者坡县

面向 AI XX 是吧 :joy:


相较于 gpt4 文本分析能力似乎提升不大,还是无法区分 π 和 3.2 大小(试三次对了一次),重点是图片和视频吧,不过回复是真滴快,token 好像也提升到 128k 了

自从说了GPT4出来后人为给3.5降智,以及国内产品起来了,都打算不用他家的了。

国内中转适用场景太少了。

搞个代充服务?

这能赚几个钱…没事找事么

OpenAI又把竞争者甩开了一个世代。

不说多模态什么的,数学能力就有很大的进步。
这个问题我试过很多模型,唯一能得到正确结果的是wolfram alpha,不过它不是一个LLM。
这个题目很简单,就是套公式,但对其他模型来说仍然非常困难。
更麻烦的是,你要判断结果是否正确,唯一的办法就是自己算一遍。

请依次计算表面积为1的球体、正方体、正四面体的体积,结果用小数表示。
GPT-4o:
要计算表面积为1的球体、正方体和正四面体的体积,我们需要首先找到每个几何体的边长或半径。下面是具体的步骤和计算过程。

1. 球体

球体的表面积公式为:
A = 4\pi r^2

已知表面积 ( A = 1 ),所以:
4\pi r^2 = 1
r^2 = \frac{1}{4\pi}
r = \sqrt{\frac{1}{4\pi}} = \frac{1}{\sqrt{4\pi}} = \frac{1}{2\sqrt{\pi}}

球体的体积公式为:
V = \frac{4}{3}\pi r^3

将 ( r ) 代入:
V = \frac{4}{3}\pi \left(\frac{1}{2\sqrt{\pi}}\right)^3
V = \frac{4}{3}\pi \cdot \frac{1}{8(\sqrt{\pi})^3}
V = \frac{4}{3} \cdot \frac{1}{8\pi^{3/2}}
V = \frac{1}{6\pi^{1/2}}

用小数表示:
V \approx \frac{1}{6\sqrt{\pi}} \approx \frac{1}{6 \times 1.772} \approx \frac{1}{10.632} \approx 0.094

所以,表面积为1的球体的体积约为0.094。

2. 正方体

正方体的表面积公式为:
A = 6a^2

已知表面积 ( A = 1 ),所以:
6a^2 = 1
a^2 = \frac{1}{6}
a = \sqrt{\frac{1}{6}} = \frac{1}{\sqrt{6}}

正方体的体积公式为:
V = a^3

将 ( a ) 代入:
V = \left(\frac{1}{\sqrt{6}}\right)^3 = \frac{1}{6\sqrt{6}}

用小数表示:
V \approx \frac{1}{6 \times 2.449} \approx \frac{1}{14.694} \approx 0.068

所以,表面积为1的正方体的体积约为0.068。

3. 正四面体

正四面体的表面积公式为:
A = \sqrt{3}a^2

已知表面积 ( A = 1 ),所以:
\sqrt{3}a^2 = 1
a^2 = \frac{1}{\sqrt{3}}
a = \sqrt{\frac{1}{\sqrt{3}}} = \left(\frac{1}{\sqrt{3}}\right)^{1/2} = \frac{1}{\sqrt[4]{3}}

正四面体的体积公式为:
V = \frac{\sqrt{2}}{12}a^3

将 ( a ) 代入:
V = \frac{\sqrt{2}}{12} \left(\frac{1}{\sqrt[4]{3}}\right)^3 = \frac{\sqrt{2}}{12} \cdot \frac{1}{(\sqrt[4]{3})^3} = \frac{\sqrt{2}}{12} \cdot \frac{1}{3^{3/4}}

用小数表示:
V \approx \frac{1.414}{12 \times 2.279} \approx \frac{1.414}{27.348} \approx 0.052

所以,表面积为1的正四面体的体积约为0.052。

总结如下:

  • 表面积为1的球体的体积约为0.094。
  • 表面积为1的正方体的体积约为0.068。
  • 表面积为1的正四面体的体积约为0.052。
1 个赞

你把引用去掉应该能渲染数学公式

好像还是不行。
[ A = 4\pi r^2 ]

用 $ 包裹 $空格A = 4\pi r^2空格$

A = 4\pi r^2

2 个赞

搞定

想去试一下翻译,然后就告诉我设备不兼容。卒。

设备不兼容…你这条应该比支付不兼容更难解决一些 :joy:

用网页版,有的报道说app还没更新。

是真的降智了吧?我还以为是我梯子和定位没搞好,被针对了。
copilot和chatgpt3.5,都是各种回答丑陋和动不动就重连,完全没办法用

关于回答,开放性的问题还能参考下,确定性答案的还不如自己搜。
关于连接,确实比较麻烦,即使走的不是直连,也要看节点行不行。
我希望 @Qingwa 搞个服务,是因为我看着充钱头疼。 :joy: