Mistral AI 发布了全新的 Pixtral Large 模型,这是一款具备多模态能力的开源模型,基于 Mistral Large 2 构建,参数量达到 1240 亿,并进一步扩展了图像与文本理解能力。
技术报告:https://arxiv.org/abs/2410.07073
API:https://docs.mistral.ai/api/
下载:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411
- 多模态能力:配备 123B 参数解码器 和 1B 参数视觉编码器,在文本处理能力基础上显著提升了视觉处理性能。
- 超大上下文窗口:支持 128K Token,可同时处理多达 30 张高分辨率图像或复杂长文档。
- 文档解析、图像理解、图表分析。
- 能够处理 OCR(光学字符识别)、表格、公式和图形等多种输入格式。
主要性能表现
- MathVista(数学推理任务):
- 该模型在视觉数据的数学推理方面取得 69.4% 准确率,领先于目前市面上所有同类模型。
- 文档与图表问答能力(DocVQA 和 ChartQA):
- 在复杂文档和图表推理中,Pixtral Large 凭借强大的视觉理解能力超越 GPT-4o 和 Gemini-1.5 Pro。
- MM-MT-Bench(多模态综合评估):
- 这是一个开放源代码的评估框架,模拟真实世界应用场景,Pixtral Large 在其中全面领先 Claude-3.5 Sonnet、GPT-4o 等最新模型。
- 在图表、文档和图像处理能力上超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet。
- 更大的上下文窗口(128K Token)和强大的视觉编码器,使其能够处理更复杂的多模态任务。
综合能力
- 文本处理与视觉处理能力均达行业顶级。
- 适合复杂场景的语义推理、多模态问答和自动化任务。
使用方式:
- 模型以 Pixtral-large-latest 的形式在 API 中提供,支持即时调用。
- 也可通过 Mistral AI 官网下载,依据 Mistral 研究许可证(MRL)或商业许可证用于研究或商业用途。
同时 Mistral AI推出了更新版的 Le Chat
支持在聊天中进行搜索、上传 PDF、编程、图像生成等
图像生成功能采用了黑森林实验室的 FLUX1.1 pro 模型,可以免费生成图像。
同时推出类似ChatGPT的 Canvas 画布功能
支持用户在画布中与AI协作,创建文档、代码、设计、演示文稿等内容。
允许实时修改内容,预览版本并导出。
声明:本站资源来自会员发布以及互联网公开收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除。 如有侵权争议、不妥之处请联系本站删除处理! 请用户仔细辨认内容的真实性,避免上当受骗!