AI能听懂东说念主的“弦外之音”了,阶跃星辰发布可进行音频推理的语音大模子
今天(1日),阶跃星辰崇拜发布最强开源端到端语音大模子 Step-Audio 2 mini,该模子在多个海外基准测试集上获得 SOTA(State-of-The-Art,即面前最好水平)得益。在技艺层面,Step-Audio 2 mini 取舍了真确的端到端多模态架构,并将语音一语气、音频推理与生成息争建模,不仅时延更低、输出更快,还能愈加精确地一语气副讲话信息、非东说念主声信号等语音身分,权贵升迁了语音东说念主机交互的成果和智能上限。当今,Step-Audio 2 mini 一经可在 GitHub、Hugging Face 等平台下载并体验。
笔据测评,这款模子在音频一语气、语音识别、跨语种翻译、情谊与副讲话贯通、等任务中推崇杰出,详尽性能罕见 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模子,并在大部分任务上罕见 GPT-4o-audio。
跟着语音交互成为东说念主机主要交互形状,智能终局成立对语音模子的身手及情商水平提议了更高条件。Step-Audio 2 mini 开创了音频推理才气,能对脸色、语调、音乐等副讲话和非语讯息号进行缜密一语气、推理并当然回复,由此让AI听懂东说念主类的“弦外之音”;同期,该模子早先维持语音原生的 Tool Calling 才气,可完结联网搜索等操作,有用处理模子幻觉问题,并让语音模子像文本模子相通具有更巨大的常识储备和推理才气。
在此之前,闲隙发布了搭载阶跃星辰端到端语音大模子的闲隙星河 M9,这是行业内端到端语音大模子初次完结量产上车。据阶跃星辰关系东说念主士先容,自昨年发布国内首个千亿参数端到端语音大模子 Step-1o Audio 以来,该公司捏续迭代模子性能,并跟闲隙、鲸鱼机器东说念主、TCL、Cyan 青情意创等头部终局厂商达成深度相助,让语音大模子在活命场景中为消耗者提供愈加智能、浅薄的互动体验。
本年以来,阶跃星辰一经开源了 8 款性能越过的多模态模子,笼罩语音、视频生成、图像裁剪、3D、多模态推理等多个类别,为公共开源社区孝顺多模态力量。
下一篇:没有了