SoulX-Podcast:开源的播客语音合成模型在音色、语调上更自然!
SoulX - Podcast 是由 Soul App 的 Soul AI Lab 联合西北工业大学、上海交通大学共同开源的播客语音合成模型。它专为播客风格的多人、多轮对话语音生成打造,同时在传统独白 TTS 任务中也有着出色表现。

该模型发布后迅速登顶 Hugging Face 的 TTS 模型趋势榜,还能稳定输出超 60 分钟、角色切换准确的多轮语音对话,有效解决了传统模型在长篇对话中音色漂移、衔接不自然等问题。其不仅支持普通话和英语,还涵盖四川话、河南话、粤语等中文方言,搭配丰富的副语言控制功能,让语音合成更具个性化与真实感。
技术原理
SoulX - Podcast 核心采用 LLM + Flow Matching 的创新语音生成范式,通过两大模块的协同配合保障生成效果与效率:
LLM 语义建模:以 Qwen3 - 1.7B 作为基座模型并完成初始化,充分继承该模型强大的语言理解能力,精准对语义 token 进行建模,能根据输入文本理解语境、情感倾向和角色关系,进而灵活调节语音的韵律与节奏。
Flow Matching 声学建模:该模块负责进一步优化声学特征,将 LLM 处理后的语义信息转化为更贴合真人发声特点的声学信号。这一组合既保证了语音内容与文本语义的高度匹配,又让生成的语音在音色、语调上更自然,有效避免传统 TTS 的机械感。
项目地址
Github 仓库:https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace 模型库:https://huggingface.co/collections/Soul-AILab/soulx-podcast
Demo 页面:https://soul-ailab.github.io/soulx-podcast
使用场景
内容创作者
自媒体人、播客主可以用它一键将文章变成高质量播客,还能为不同角色分配不同音色,制作成本大幅降低。
教育文化工作者
可以用它制作方言教学音频、地方文化讲解内容,为濒危方言的传承提供了新可能。
游戏和社交应用开发者
让游戏NPC用方言对话,让虚拟社交更有真实感。事实上,它已经支撑过某平台的虚拟人活动,创下了互动热度新纪录。
企业和商家
可以用来制作带地方特色的广告,或者生成更自然的培训音频。
当然,也有不同的声音:一些专业播音员认为,AI生成的语音虽然自然,但暂时还缺乏顶尖人类主播那种独特的“灵魂”和“温度”。
智能交互场景:可集成到智能客服、游戏 NPC、智能家居语音助手中。比如让游戏 NPC 用方言对话增强沉浸感,让智能客服的回复加入自然的副语言元素,提升用户交互体验。
版权声明:本站文章内容由用户自发贡献,该文观点仅代表作者本人除特别声明外均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!

