ChatGPT 发布重大进化!能看、能听、还会说,多模态GPT-4V能力细节同时公布

号优优网uiuihao
预计阅读时长 7 分钟
位置: 首页 AI文本模型 正文

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

OpenAI连发两则重量级消息,首先ChatGPT可以看、听、说了。 

新版ChatGPT开启一种更直观的对话模式,可以向AI展示正在谈论的内容。 

像是拍一张照片,询问如何调整自行车座椅高度。

gpt 11455.png

官方还给出另一个实用场景:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并产生完整菜单。 

更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和Android都支持。 

与此同时,多模态版GPT-4V模型更多细节也一并放出。 

其中最令人惊讶的是,多模态版早在2022年3月就训练完了……

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

看到这里,有网友言外之意的问:有多少创业公司在刚刚5分钟之内死掉了?

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

看听说皆备,全新对话模式

更新后的ChatGPT行动APP里,可以直接拍照上传,并针对照片中的内容提出问题。 

像是「如何调整自行车座椅高度」,ChatGPT会给出详细步骤。 

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT「说的是这个吗?」。 

就像在现实世界中用手指东西给别人看一样。 

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

不知道用什么工具,甚至可以把工具箱打开拍给ChatGPT,它不光能指出需要的工具在左边,连标签上的文字也能看懂。 

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

先前得到使用资格的使用者也分享了一些测试结果。 

可以分析自动化工作流程图。

gpt0927112337.png

但是没有认出一张剧照具体出自哪部电影。

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

 

语音部分的展示还是上周DALL‧E 3演示的联动彩蛋。 

让ChatGPT把5岁小朋友幻想中的「超级向日葵刺猬」讲成一个完整的睡前故事。 

DALL‧E3展示

ChatGPT这次讲的故事文字摘录如下:

ChatGPT App重大进化! 能看、能听、还会说,多模态GPT-4V能力细节同时公布

多模态GPT-4V能力大揭秘

结合所有公布的影片展示与GPT-4V System Card中的内容,手快的网友已经总结出GPT-4V的视觉能力大揭秘。

gpt 7111626.png

物体检测: GPT-4V可以检测和辨识图像中的常见物体,如汽车、动物、家居用品等。其物体辨识能力在标准图像资料集上进行了评估。

文字辨识:该模型具有光学字元辨识(OCR) 功能,可以检测图像中的列印或手写文字并将其转录为机器可读文字。这在文件、标志、标题等图像中进行了测试。

人脸辨识: GPT-4V可以定位并辨识图像中的人脸。它具有一定的能力,可以根据脸部特征辨识性别、年龄和种族属性。其脸部分析能力是在FairFace 和LFW 等资料集上进行测量的。

验证码处理:在解决基于文字和图像的验证码时,GPT-4V显示出了视觉推理能力。这表明该模型具有进阶解谜能力。

地理定位: GPT-4V 具有辨识风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但也代表有泄露隐私的风险。

复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文字元件的图像。它错过了上下文细节。

同时也总结了GPT-4V目前的限制。 

空间关系:模型可能很难理解图像中物件的精确空间布局和位置。它可能无法正确传达物件之间的相对位置。

物件重叠:当图像中的物件严重重叠时,GPT-4V 有时无法区分一个物件的结束位置和下一个物件的开始位置。它可以将不同的物件混合在一起。

背景/前景:模型并不总是准确地感知图像的前景和背景中的物件。它可能会错误地描述物件关系。

遮挡:当图像中某些物件被其他物件部分遮挡或遮挡时,GPT-4V 可能无法辨识被遮挡的物件或错过它们与周围物件的关系。

细节:模型经常会错过或误解非常小的物体、文字或图像中的复杂细节,进而导致错误的关系描述。

上下文推理: GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述物件之间的隐式关系。

置信度:模型可能会错误地描述物件关系,与图像内容不符。

同时System Card中也重点声明了「目前在科学研究和医疗用途中性能不可靠」。 

另外后续还要继续研究,是否应该让模型辨识公众人物,是否应该允许模型从人物图像中推断性别、种族或情感等问题。 

有网友已经想好,等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。 

那么,你第一件事要问什么? 

资料来源:

ChatGPT can now see, hear, and speak

GPT-4V(ision) system card


声明:本文内容及配图来自互利网收集整理撰写或者入驻合作网站授权转载。文章及其配图仅供学习之用,如有内容图片侵权或者其他问题,请联系本站侵删。
-- 展开阅读全文 --
头像
部分ChatGPT Plus订阅用户可邀请他人免费试用4.0,但仅有一次机会
« 上一篇 2023-09-27
ChatGPT plus有什么功能?国内用户如何支付开通GPT4
下一篇 » 2023-10-11

相关文章

取消
微信二维码
微信二维码
支付宝二维码

发表评论

暂无评论,960人围观

作者信息

似水流年

今日已经过去小时
这周已经过去
本月已经过去
今年已经过去个月

热门文章

系统获取,无需修改

标签列表

目录[+]