安恒审计服务

热点资讯

联系我们

你的位置：安恒审计服务 > 联系我们 > AI能听懂东说念主的“弦外之音”了，阶跃星辰发布可进行音频推理的语音大模子

AI能听懂东说念主的“弦外之音”了，阶跃星辰发布可进行音频推理的语音大模子

发布日期：2025-09-06 05:20 点击次数：168

今天（1日），阶跃星辰崇拜发布最强开源端到端语音大模子 Step-Audio 2 mini，该模子在多个海外基准测试集上获得 SOTA（State-of-The-Art，即面前最好水平）得益。在技艺层面，Step-Audio 2 mini 取舍了真确的端到端多模态架构，并将语音一语气、音频推理与生成息争建模，不仅时延更低、输出更快，还能愈加精确地一语气副讲话信息、非东说念主声信号等语音身分，权贵升迁了语音东说念主机交互的成果和智能上限。当今，Step-Audio 2 mini 一经可在 GitHub、Hugging Face 等平台下载并体验。

笔据测评，这款模子在音频一语气、语音识别、跨语种翻译、情谊与副讲话贯通、等任务中推崇杰出，详尽性能罕见 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模子，并在大部分任务上罕见 GPT-4o-audio。

跟着语音交互成为东说念主机主要交互形状，智能终局成立对语音模子的身手及情商水平提议了更高条件。Step-Audio 2 mini 开创了音频推理才气，能对脸色、语调、音乐等副讲话和非语讯息号进行缜密一语气、推理并当然回复，由此让AI听懂东说念主类的“弦外之音”；同期，该模子早先维持语音原生的 Tool Calling 才气，可完结联网搜索等操作，有用处理模子幻觉问题，并让语音模子像文本模子相通具有更巨大的常识储备和推理才气。

在此之前，闲隙发布了搭载阶跃星辰端到端语音大模子的闲隙星河 M9，这是行业内端到端语音大模子初次完结量产上车。据阶跃星辰关系东说念主士先容，自昨年发布国内首个千亿参数端到端语音大模子 Step-1o Audio 以来，该公司捏续迭代模子性能，并跟闲隙、鲸鱼机器东说念主、TCL、Cyan 青情意创等头部终局厂商达成深度相助，让语音大模子在活命场景中为消耗者提供愈加智能、浅薄的互动体验。

本年以来，阶跃星辰一经开源了 8 款性能越过的多模态模子，笼罩语音、视频生成、图像裁剪、3D、多模态推理等多个类别，为公共开源社区孝顺多模态力量。

上一篇：直辖市政协秘书长，任上落马！本年1月就职

下一篇：没有了