NVIDIA 推出的 AI Blueprint , 这是一套用于构建视觉AI代理的框架,帮助开发者构建视频理解和摘要功能的解决方案。

AI Blueprint利用生成式AI、视觉语言模型(VLM)和大语言模型(LLM)实现对长视频的搜索、问答和实时事件检测等功能。

通过这个 Blueprint,用户可以轻松构建视频搜索和摘要智能体,利用 AI 技术生成对超长视频内容的概述、回答问题以及检测实时事件。

如何实现视频摘要:

  1. 视频分段:Blueprint 将长视频自动分成小片段,确保每个片段都能准确捕捉到关键内容。
  2. 片段分析:每个片段会由视觉语言模型进行分析,生成详细的文字描述或标签,记录视频中的事件、物体和动作。
  3. 内容汇总:这些片段描述随后会通过大语言模型汇总,去除重复信息,生成一个全面而简洁的摘要。

适用场景:

比如,你有几个小时的监控视频或会议录像,Blueprint 可以帮助快速总结其中的主要事件、关键对话和重要时刻,而不需要你逐帧观看。

这使得 Blueprint 特别适合用于需要监控和回顾长时间视频的场景,如安全监控、教育视频回顾和客户服务记录等。

官方介绍:https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint

在线体验:https://build.nvidia.com/nvidia/video-search-and-summarization

 

主要功能介绍

  1. 视频摘要生成
    • 上传视频后,系统自动生成内容摘要。用户可以使用自定义的提示语,告诉系统需要关注哪些对象、事件或动作,从而生成更加精确的摘要。
    • 配置选项包括:
      • 片段长度(chunk duration):视频分割的每段长度。片段越小,描述越精细,但处理时间会增加。
      • 片段重叠(chunk overlap):增加片段之间的重叠区域,以确保视频中的重要事件不会被遗漏。
  2. 互动式问答
    • 系统会构建一个知识图谱,可以支持用户在视频分析完成后进行自然语言问答。例如,用户可以询问“某物体什么时候出现在画面中?”系统会基于知识图谱提供答案。
    • 这个功能使得用户无需逐帧浏览视频,便可快速找到关键信息。
  3. 实时流媒体监控与警报
    • 在处理实时视频流时,系统允许用户设置警报规则。例如,可以设置摄像头监控森林区域,并在检测到动物或火灾时发出警报。
    • 用户可以用自然语言定义警报条件,系统实时监控视频流,一旦满足条件便会发送通知。

NVIDIA AI Blueprint 的核心组件

NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答

  1. 视频流处理器(Stream Handler)
    • 将长视频或实时视频分割为较小的片段,每个片段的长度可配置。
    • 使用 NVIDIA 的 VLM(视觉语言模型)分析每个视频片段并生成高密度的描述。这一过程通过 GPU 加速,提升了处理效率。
  2. 视觉语言模型(VLM)与 CA-RAG 模块
    • VLM 管道:VLM 用于处理视频片段,生成关于每个片段的详细描述。这个过程包含对视频帧的采样、解码和描述生成。
    • CA-RAG(上下文感知检索增强生成):将所有片段描述聚合成一个完整的摘要。CA-RAG 帮助提升摘要的准确性,使整个视频的内容更加连贯和完整。
  3. 知识图谱与 Graph-RAG 模块
    • 知识图谱会将视频内容中的信息转化为“节点”和“边”的形式,存储在图数据库中。
    • 通过 Graph-RAG 技术,智能体可以理解视频中复杂的事件关系,使问答和实时检测更加准确。例如,系统可以追踪视频中的某一物体或事件的完整发展过程。

NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答

工作流程概览

简单来说,Blueprint 将长视频分成多个小片段,通过视觉语言模型(VLM)逐一分析片段内容,再由大语言模型(LLM)将这些片段的描述汇总成简明扼要的总结。

  1. 视频处理与分析
    • 系统首先将视频文件或实时视频流分成多个小片段,每个片段会独立处理,生成密集描述(例如,场景中的物体、人物或事件等)。
    • 对于长视频,系统采用滑动窗口的方式,确保每个片段都覆盖到关键内容。
  2. 数据聚合与摘要生成
    • 在片段分析完成后,CA-RAG 模块将所有片段的描述整合生成一个总结,确保视频摘要连贯准确。
    • 用户可以选择合适的摘要长度和细节级别,根据需求调整摘要的精细程度。
  3. 知识图谱构建
    • 系统将视频描述信息以节点和边的形式存储在图数据库中,建立知识图谱。这种结构化信息可以帮助系统进行复杂问答和关系追踪。
    • Graph-RAG 模块允许系统在用户提出问题时查询知识图谱,为互动式问答提供准确答案。

应用场景和优势

  1. 工业监控:在工厂、仓库等场景中,NVIDIA AI Blueprint 可帮助监控设备状态,检测潜在风险。
  2. 交通监控:在交通枢纽或交叉路口,系统可以检测异常事件,帮助管理交通流量。
  3. 安全监控:在安保场景下,系统可以监测实时视频流,及时发出安全警报,提升安防能力。

开发者支持与集成方式

NVIDIA AI Blueprint 提供 REST API,可以轻松集成到现有应用中。API 支持摘要、问答、实时警报等功能,用户可以根据需求进行配置。参考 UI 也提供快速实验环境,便于开发者调整各项配置。

总体而言,NVIDIA AI Blueprint 通过整合 VLM、LLM 和知识图谱技术,帮助企业用户高效提取视频中的关键信息,在多个行业中实现更智能的视频分析和自动化监控。