阿里巴巴发布通义千问系列最新旗舰模型

摘要

Qwen团队提出了全新的Thinker-Talker架构，支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。该模型还引入了新的位置编码技术TMRoPE（Time-aligned Multimodal RoPE），实现视频与音频输入的精准同步。

实时音视频交互：支持完全实时交互，分块输入和即时输出。自然流畅的语音生成：在语音生成的自然性和稳定性方面表现优异，超越许多现有方案。卓越的端到端语音指令跟随能力：在语音指令跟随方面表现出与文本输入处理相媲美的效果，在多项基准测试中表现优异。

在多模态任务OmniBench中达到SOTA（State-of-the-Art）水平。

在单模态任务中表现优异，涵盖语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。性能优于类似大小的单模态模型和封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
Qwen2.5-Omni模型已在Hugging Face、ModelScope、DashScope和GitHub上开源开放，供开发者和研究人员使用。

北京时间周四凌晨，阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计，能够处理文本、图像、音频和视频等多种输入，同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍，这款模型的主要特点如下：

全能创新架构：Qwen团队提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

官方演示视频： Qwen2.5-Omni：看，听，说，写，样样精通！

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。
自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。
卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型性能方面，Qwen2.5-Omni在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench，Qwen2.5-Omni达到了SOTA的表现。此外，在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

阿里巴巴发布通义千问系列最新旗舰模型

热门文章

相关推荐

站点推荐

热门标签