(网经社讯)6月23日,网易有道推出 “子曰 4.0” 大模型体系下的新一代语音合成引擎 Confucius4-TTS。该模型是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源 TTS 模型,在零样本语音克隆、跨语种自然表达、情感韵律迁移及本地化部署等核心维度达到国际前沿水平,目前已面向全球开发者全量开源,为多语种内容生产、数字人、跨境教育及全球化传播提供低门槛国产化技术底座。

长期以来,语音合成领域普遍存在克隆依赖大量样本、跨语种合成自带口音、情感表达生硬刻板三大技术瓶颈,Confucius4-TTS 通过底层技术革新实现针对性突破。
其一,实现真正的零样本极速克隆。模型无需参考文本、无需提前训练,仅需提供 3 秒长度的参考音频,即可完成音色复刻。实测数据显示,其克隆任务准确度达 97%,合成音色与原声相似度超过 85%,大幅降低了语音克隆的素材门槛。
其二,14 语种跨语种无口音合成。模型全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语共 14 种语言的自然表达,核心解决跨语种口音痛点 —— 用户上传任意语言的音频素材,AI 即可用同款音色流利输出其他语种内容,发音地道自然,彻底消除传统跨语种合成中常见的母语口音违和感。
其三,情感韵律实现同步迁移。Confucius4-TTS 支持音频 Prompt 情感克隆,系统可自动提取参考音频中的情感标签,精准复刻其语调、语速与韵律特征。同一段音色可在不同语种下保留一致的情绪表达,适配日常对话、新闻播报、企业宣传、情感叙事等多元场景,展现出极强的场景稳健性。
据网经社教育台(EDU.100EC.CN)获悉,Confucius4-TTS 的能力升级并非简单增加语言包,而是语音生成底层范式的革新。其架构从传统的 “声码器 + 固定音色查表” 模式,升级为语音编码器、大语言模型与流匹配生成框架结合的端到端语音生成系统。
下一代 TTS 的评价标准不再局限于音色相似度,而是转向 “身份、语言、情绪、韵律” 的统一建模。Confucius4-TTS 将音色克隆、跨语种表达与情感韵律迁移纳入同一套系统完成,实现了多维度能力的协同优化,而非单一功能的叠加。
本次发布的 Confucius4-TTS 采用 1.3B 参数规模的高性能语音模型,遵循宽松友好的 Apache 开源协议,面向全球开发者全量开放完整模型权重以及配套工具链。开发者可下载总计 54G 的完整资源包,实现本地离线部署运行,配套开源龙虾智能体工具链,且商业使用无限制。
目前该模型已在 GitHub 平台正式开源,企业与开发者可直接基于模型进行二次开发,无需依赖云端 API,兼顾数据安全与定制化需求。


































.png)



