尽管人工智能通过有时非常聪明的聊天机器人迅速出现,但基于文本的互动已经过时了。OpenAI GPT-4更新的宣布引入了GPT-Vision(GPT-V),这是最新的多模式人工智能奇迹。随着用户终于有机会测试其能力的全部潜力,这一宣布现在已经成为现实。
多模式大型语言模型(LLM)意味着它不仅可以与书面单词交互,还可以通过其他模式进行交互。在这种情况下,新的GPT-V可以理解图像并使用它们。此外,由于新的生成艺术工具DALL-E 3,ChatGPT既可以将图像作为输入,也可以生成图像作为输出。
随着用户对这些新功能的测试,这些新功能在整个技术领域引起了人们的关注。他们能解码有关不明飞行物目击事件的政府文件吗?对一条推特上写道:“ChatGPT-4V Multimodal解码了美国国家航空航天局发布的一份关于不明飞行物目击事件的政府文件。”。“也许真相并不存在;它就在GPT-V中。”
ChatGPT-4V Multimodal解码了美国国家航空航天局发布的一份关于不明飞行物目击事件的修订版政府文件。
我已经在100份经过编辑的文件上测试了这一点,我可以说我们处于一个新的世界。pic.twitter.com/aCKOm577TO
——布莱恩·罗梅尔(@BrianRoemmele)2023年10月6日
LLM基本上就是试图填补一串文本中的空白。用户在尝试测试GPT-V的功能时做了次好的事情,并让它猜测他审查的部分文本。“几乎100%的意图准确。”他报告说。
当然,很难验证它对其他被掩盖的东西的猜测是否准确——我们不能问中央情报局,它在透过黑线窥视时做得有多好。
将人工智能纳入医学和长寿研究将是一个“净积极因素”:微软副总裁
比揭露被政府审查的信息更难的是试图理解你医生神秘的笔迹。但GPT-V可以解读涂鸦。只要有礼貌的提示,GPT-V甚至可以理解最难理解的医生笔记,确保“吃两片”不会变成“烤蓝色华夫饼”
ChatGPT-4V多模式。
提示:“请解码此文档。让我们循序渐进。准确无误至关重要。谢谢”pic.twitter.com/b7FPuPVRn9
——布莱恩·罗梅尔(@BrianRoemmele)2023年10月6日
但是要小心。有时,即使是最先进的人工智能也会在经验丰富或患有关节炎的医生面前失败,可能需要专家来破解这些书面的谜团。
可待因4粒
ASA(阿司匹林)30粒
化合物至VI(6)盎司
根据需要每4小时服用一次(难以辨认)(难以辨认-可能疼痛)
阿司匹林的剂量似乎很低。
有时需要药剂师。
——博士。奈法里奥(@_DrNefarious)2023年10月7日
对于那些不信任医生的人,ChatGPT可以立即提供第二种意见。该模型可以理解X射线,并提供对特定医疗病例的分析和见解。
被低估的ChatGPT Vision用例。
成为一名放射科医生需要13年的培训。
现在,他们可能只需要审查人工智能的诊断,而不是从头开始起草报告。pic.twitter.com/IhQFe98m5q
——杨(@petergyang)2023年10月2日
但为什么要停止手写和身体扫描呢?GPT-V已成为最新的家庭健身大师,为您的家庭设备和目标量身定制锻炼计划。如果你想知道你要吃的那顿饭里有多少卡路里,GPT-V会支持你的。一位用户高兴地分享道:“OK ChatGPT 4.0具有新的视觉功能……可以识别一切。甚至可以识别海滩上的海豹。”
具有新视觉功能的OK ChatGPT 4.0非常令人难以置信。
在这里,我问它我刚吃的鱼玉米卷里有多少卡路里。
看到它是如何识别一切的,真是令人难以置信。甚至海滩上的一只海豹。pic.twitter.com/rfIK5o9ODD
——罗伯特·斯科布尔(@Scobleizer)2023年10月5日
室内设计爱好者,欢呼雀跃!人工智能现在提供设计建议,并可以结合个人喜好。想象一下,没有高昂的设计师费用,一个尖叫着“你”的生活空间。只需拍一张你糟糕的房间的照片,向GPT-V寻求建议,把它变成你想要的天堂。
家庭作业难题?只要截图一下作业,GPT-V就会扮演你一直希望坐在你旁边的那个乐于助人的同学。
孩子们再也不会做家庭作业了。pic.twitter.com/rtjJT2xn9l
——杨(@petergyang)2023年9月27日
ChatGPT为一名九年级学生分解了这张人体细胞图。
这就是教育的未来。pic.twitter.com/L0Za0ZB5rs
——Mckay Wrigley(@mckaywrigley)2023年9月28日
对于我们当中的金融极客来说,GPT-V不仅仅是关于乐趣和游戏。GPT-V可以深入技术分析。只需输入你最喜欢(或最讨厌)的股票或加密货币的屏幕截图,它就会分析你的图表并做出相应的预测。请记住,这不是财务建议——如果你最终变穷,没有人工智能会让你变得富有。
太棒了
我给GPT-V一张$UBER的图表图像,上面有一堆指标,它给出了很好的长条目。将进行现场测试。
下面的线程!pic.twitter.com/k6Su9G0267
——Ropirito(0commoDTE)(@Ropirito)2023年10月11日
多式联运LLM的兴起正在重新定义行业。随着人工智能巨头的不断发展,GPT-V只是冰山一角。据传谷歌即将推出的Gemini凭借其多模式能力胜过巴德。NexT GPT提供了一种开源的替代方案,地平线承诺训练模型来处理单词、声音、视频和图像。
这些进步不仅仅是技术上的胡言乱语,它们可能会重塑我们的日常互动、职业,甚至我们的世界观。尽管OpenAI是GPT-V的先驱,但竞争对手也紧随其后。我们会处于人工智能复兴的边缘吗?
好吧,如果你还在使用人工智能聊天,你可能已经