摘要: Openai推出了其新的旗舰模型GPT-4O,该模型无缝整合文本,音频,视觉输入和输出,有望增强机器相互作用的自然性。
OpenAI发布了新的旗舰模型GPT-4o
OpenAI推出了新的旗舰模型GPT-4o,它无缝地整合了文本、音频和视觉输入和输出,承诺增强机器交互的自然性。
GPT-4o是一个全新设计,其中的“o”代表“全能”,旨在满足更广泛的输入和输出模式。OpenAI宣布:“它可以接受任何文本、音频和图像的组合作为输入,并生成任何文本、音频和图像的组合作为输出。”
用户可以期待快速的响应时间,最快可达232毫秒,与人类对话速度相当,平均响应时间为320毫秒。
创新能力
GPT-4o的推出标志着从其前身迈出了一大步,通过单一神经网络处理所有输入和输出。这种方法使模型能够保留先前在较早版本中使用的分开模型管道中丢失的关键信息和上下文。
在GPT-4o之前,“语音模式”可以处理音频交互,GPT-3.5的延迟为2.8秒,GPT-4的延迟为5.4秒。先前的设置涉及三个不同的模型:一个用于将音频转录为文本,另一个用于文本响应,第三个用于将文本转换回音频。这种分割导致了一些细微之处的丢失,比如语调、多个说话者和背景噪音。
作为一个集成解决方案,GPT-4o在视觉和音频理解方面有了显著改进。它可以执行更复杂的任务,如和声歌曲、提供实时翻译,甚至生成带有笑声和歌唱等表现元素的输出。其广泛的能力示例包括为面试做准备、实时翻译语言和生成客户服务响应。
性能和安全性
GPT-4o在英文文本和编码任务中与GPT-4 Turbo的性能水平相匹敌,但在非英文语言方面明显优于后者,使其成为一个更具包容性和多功能性的模型。在推理方面,它在0-shot COT MMLU(一般知识问题)上获得了88.7%的高分,5-shot no-CoT MMLU上获得了87.2%的高分。
该模型在音频和翻译基准测试中表现出色,超越了以前的最先进模型,如Whisper-v3。在多语言和视觉评估中,它展示了卓越的性能,增强了OpenAI的多语言、音频和视觉能力。
OpenAI通过设计将强大的安全措施纳入了GPT-4o中,包括通过后期训练的方法来过滤训练数据并通过后期保障来完善行为。该模型已经通过了一项准备框架的评估,并符合OpenAI的自愿承诺。在领域中进行了广泛的外部红队测试,涉及社会心理学、偏见、公平性和错误信息等70多位专家。这种全面的审查旨在减少GPT-4o新模式引入的风险。
可用性和未来整合
从今天开始,GPT-4o的文本和图像功能可在CHAT GPT中使用,包括免费版和增强功能版。新的由GPT-4o驱动的语音模式将在未来几周内进入CHAT GPT Plus的alpha测试阶段。
开发人员可以通过API访问GPT-4o进行文本和视觉任务,享受其与GPT-4 Turbo相比加倍的速度、减半的价格和增强的速率限制。
OpenAI计划通过API向一组受信任的合作伙伴扩展GPT-4o的音频和视频功能,预计在不久的将来进行更广泛的推出。这种分阶段的发布策略旨在确保在将全部功能公开之前进行彻底的安全性和可用性测试。
OpenAI邀请社区反馈,不断完善GPT-4o,强调用户输入在识别和弥补GPT-4 Turbo仍可能胜过的领域中的重要性。
(图片来源:OpenAI)
暂无评论内容