Mistral AI 发布了全新的 Pixtral Large 模型,这是一款具备多模态能力的开源模型,基于 Mistral Large 2 构建,参数量达到 1240 亿,并进一步扩展了图像与文本理解能力。

技术报告:https://arxiv.org/abs/2410.07073

API:https://docs.mistral.ai/api/

下载:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411

在线体验:https://chat.mistral.ai/

Mistral AI 发布了全新的 Pixtral Large 开源模型 超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

  • 多模态能力:配备 123B 参数解码器 和 1B 参数视觉编码器,在文本处理能力基础上显著提升了视觉处理性能。
  • 超大上下文窗口:支持 128K Token,可同时处理多达 30 张高分辨率图像或复杂长文档。
  • 文档解析、图像理解、图表分析。
  • 能够处理 OCR(光学字符识别)、表格、公式和图形等多种输入格式。

主要性能表现

  1. MathVista(数学推理任务)
    • 该模型在视觉数据的数学推理方面取得 69.4% 准确率,领先于目前市面上所有同类模型。
  2. 文档与图表问答能力(DocVQA 和 ChartQA)
    • 在复杂文档和图表推理中,Pixtral Large 凭借强大的视觉理解能力超越 GPT-4o 和 Gemini-1.5 Pro。
  3. MM-MT-Bench(多模态综合评估)
    • 这是一个开放源代码的评估框架,模拟真实世界应用场景,Pixtral Large 在其中全面领先 Claude-3.5 Sonnet、GPT-4o 等最新模型。
  • 在图表、文档和图像处理能力上超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet。
  • 更大的上下文窗口(128K Token)和强大的视觉编码器,使其能够处理更复杂的多模态任务。

综合能力

  • 文本处理与视觉处理能力均达行业顶级。
  • 适合复杂场景的语义推理、多模态问答和自动化任务。

使用方式

  • 模型以 Pixtral-large-latest 的形式在 API 中提供,支持即时调用。
  • 也可通过 Mistral AI 官网下载,依据 Mistral 研究许可证(MRL)或商业许可证用于研究或商业用途。

同时 Mistral AI推出了更新版的 Le Chat

支持在聊天中进行搜索、上传 PDF、编程、图像生成等

图像生成功能采用了黑森林实验室的 FLUX1.1 pro 模型,可以免费生成图像。

同时推出类似ChatGPT的 Canvas 画布功能

支持用户在画布中与AI协作,创建文档、代码、设计、演示文稿等内容。

允许实时修改内容,预览版本并导出。