ChatGPT终于接上视觉能力!

ChatGPT终于接上视觉能力!

9月末得时候,OpenAI终于宣布要在ChatGPT上接入视觉功能了。跳票了大半年的图像功能终于是要上了。
本来在今年的3月末的时候,OpenAI就演示了GPT4在多模态上的非凡能力。它能够根据你输入的图片进行有效的回答。
在现场演示的时候,我们见识到了 GPT-4 对文本和图像的处理能力,但一直以来,这种功能普通用户都无法使用。因此多模态一直是ChatGPT缺乏的一种能力。这时候上的视觉功能,终于让普通用户体验一把完整版GPT-4模型的效果。
新的模型接入被称为GPT-4V,且其具备“看见、听见、和说话”的能力。因此有网友称只要套上机器皮肤,就是一个完整的强人工智能了。
从官方放出的例子来看,它能够利用语音就行有效对话。也就是和正常人一样的语音交流:
可以直接向 ChatGPT 上传一张或多张图像。比如它可以帮你排查烧烤炉无法启动的原因,根据冰箱中的物品来做对应的菜谱,或分析复杂的图表以获取与工作相关的数据。
比如下面例子:询问如何降低单车的座椅。
拍照发给ChatGPT之后,它会告诉你怎么做,并给出具体的步骤:
更多有趣的用法。。。。

评论