OpenAI 在本周四宣布,其为 ChatGPT 开发的类人对话功能”高级语音模式”已实现视觉化。订阅 ChatGPT Plus、Team 或 Pro 的用户现在可以通过手机摄像头对准物体,ChatGPT 将近乎实时地做出响应。

这一带有视觉功能的高级语音模式还具备屏幕共享能力,可以分析设备屏幕上的内容。例如,它能够解释各种设置菜单,并对数学问题提供建议。

​OpenAI 终于发布了近七个月前演示的 ChatGPT 实时视频功能

使用方法非常简单:在 ChatGPT 聊天栏旁点击语音图标,然后点击左下角的视频图标即可开始视频。如需共享屏幕,则可点击三点菜单并选择”共享屏幕”。

关于功能推广,OpenAI 表示带视觉的高级语音模式将于本周四开始推出,并于下周结束。需要注意的是,并非所有用户都能立即使用。ChatGPT Enterprise 和 Edu 用户需要等到明年1月,而欧盟、瑞士、冰岛、挪威和列支敦士登的用户尚未公布具体时间表。

在最近的 CNN”60分钟”节目中,OpenAI 总裁 Greg Brockman 向 Anderson Cooper 展示了高级语音模式的视觉分析能力。当 Cooper 在黑板上绘制人体部位时,ChatGPT 能够理解并评论其绘画。例如,它指出大脑位置准确,并建议大脑形状更接近椭圆。

在演示过程中,这一高级语音模式在几何问题上也暴露出了一些不准确性,显示出可能产生”幻觉”的潜在风险。

 

值得一提的是,这个带视觉功能的高级语音模式已经多次推迟。今年4月,OpenAI 曾承诺将在”几周内”推出,但后来又表示需要更多时间。直到今年秋初,该功能才向部分 ChatGPT 用户开放,且当时尚未具备视觉分析功能。

在人工智能竞争日益激烈的背景下,谷歌和 Meta 等竞争对手也在开发类似功能。本周,谷歌已经向部分 Android 测试人员开放了其实时视频分析对话式人工智能项目 Project Astra。

除了视觉功能,OpenAI 还在本周四推出了节日”圣诞老人模式”,用户可以通过 ChatGPT 应用中提示栏旁的雪花图标启用圣诞老人语音。