OpenAI 终于发布了近七个月前演示的 ChatGPT 实时视频功能

OpenAI 在本周四宣布，其为 ChatGPT 开发的类人对话功能”高级语音模式”已实现视觉化。订阅 ChatGPT Plus、Team 或 Pro 的用户现在可以通过手机摄像头对准物体，ChatGPT 将近乎实时地做出响应。

这一带有视觉功能的高级语音模式还具备屏幕共享能力，可以分析设备屏幕上的内容。例如，它能够解释各种设置菜单，并对数学问题提供建议。

使用方法非常简单:在 ChatGPT 聊天栏旁点击语音图标，然后点击左下角的视频图标即可开始视频。如需共享屏幕，则可点击三点菜单并选择”共享屏幕”。

关于功能推广，OpenAI 表示带视觉的高级语音模式将于本周四开始推出，并于下周结束。需要注意的是，并非所有用户都能立即使用。ChatGPT Enterprise 和 Edu 用户需要等到明年1月，而欧盟、瑞士、冰岛、挪威和列支敦士登的用户尚未公布具体时间表。

在最近的 CNN”60分钟”节目中，OpenAI 总裁 Greg Brockman 向 Anderson Cooper 展示了高级语音模式的视觉分析能力。当 Cooper 在黑板上绘制人体部位时，ChatGPT 能够理解并评论其绘画。例如，它指出大脑位置准确，并建议大脑形状更接近椭圆。

在演示过程中，这一高级语音模式在几何问题上也暴露出了一些不准确性，显示出可能产生”幻觉”的潜在风险。

值得一提的是，这个带视觉功能的高级语音模式已经多次推迟。今年4月，OpenAI 曾承诺将在”几周内”推出，但后来又表示需要更多时间。直到今年秋初，该功能才向部分 ChatGPT 用户开放，且当时尚未具备视觉分析功能。

在人工智能竞争日益激烈的背景下，谷歌和 Meta 等竞争对手也在开发类似功能。本周，谷歌已经向部分 Android 测试人员开放了其实时视频分析对话式人工智能项目 Project Astra。

除了视觉功能，OpenAI 还在本周四推出了节日”圣诞老人模式”，用户可以通过 ChatGPT 应用中提示栏旁的雪花图标启用圣诞老人语音。

声明：本站资源来自会员发布以及互联网公开收集，不代表本站立场，仅限学习交流使用，请遵循相关法律法规，请在下载后24小时内删除。如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗！