常见问题 - 魔音工坊官网

魔音工坊是什么？

魔音工坊（Moyin）是一款由出门问问推出的AI语音合成工具，支持在线将文字转换为自然流畅的语音。它提供超过百种高品质音色，涵盖中英文及多种方言，并允许用户通过声音克隆、情感调节、语速控制等功能定制专属语音。平台同时提供API接口，适用于有声书、短视频、播客、智能硬件等场景。

魔音工坊的核心功能有哪些？

核心功能包括：文字转语音（TTS）、声音克隆（上传短音频即可复刻个人声音）、多情感音色（支持高兴、悲伤、愤怒等情绪表达）、多语种合成（中文、英文、日语、韩语等）、背景音乐添加、SSML标签优化、批量文件处理，以及针对有声书、广告配音等场景的专项优化模板。

如何开始使用魔音工坊？

访问官网（moyin.com）注册账号，登录后进入“创作”页面。在文本框中输入或粘贴文字，选择音色、情感、语速等参数，点击“生成”即可试听。免费用户每日有基础免费额度，付费用户可解锁更多高清音色、商用授权及批量合成功能。

魔音工坊支持哪些语言和方言？

支持中文普通话、粤语、四川话、台湾腔中文、英文（美式/英式）、日语、韩语、法语、德语、西班牙语等。每种语言下都有多个适合该语言口音的特色音色，例如中文下的“双语主播”“温柔女声”“磁性男声”等。

声音克隆功能如何使用？需要多久才能克隆？

在“声音克隆”模块上传一段2-10分钟的干净人声（无背景噪音，单声道），系统会自动训练生成专属声音模型。克隆过程通常在几分钟到一小时内完成，具体取决于音频质量和服务器负载。克隆后的声音可用于合成任意文本，且能保持原声的语调习惯。

魔音工坊生成的语音可以商用吗？

可以。魔音工坊提供商用授权服务，付费用户生成的语音（包括普通合成与声音克隆）可在商业项目中直接使用，无需额外取得著作权人授权。免费用户的语音仅限于个人非商业用途。

魔音工坊的音色数量大概是多少？如何分类？

平台目前提供超过500种预设音色，分为标准、精品、超高清（HD）等级别。分类包括：主播音（新闻/朗读类）、角色音（动漫/游戏类）、方言音、童声、外语母语者音色等。每种音色都标注了适用场景，比如“睡前故事”“课程讲解”“促销广告”。

是否支持SSML（语音合成标记语言）？

支持。用户可以在文本中插入SSML标签，精确控制停顿、重音、语速变化、数字读法、日期格式等细节。对于需要精细调节的有声书、教育课程等长文本非常实用。

魔音工坊的付费方案有哪些？价格如何？

分为基础版、专业版、企业版。基础版每月几十元，包含数小时超高清时长；专业版增加克隆次数和商用授权；企业版提供API调用、私有化部署及专属客服。具体价格以官网实时展示为准，通常按年付有折扣。

能否将生成语音导出为不同格式？

可以。支持导出为MP3、WAV、AAC、OGG等常见音频格式，比特率可从32kbps到320kbps调节。单次导出最长支持1小时（文本量约1万字），长文本可分段合成后合并。

声音克隆后能否与他人分享或售卖？

克隆声音仅限本人账号使用。魔音工坊禁止用户将克隆声音模型以任何形式交易、转授或公开发布为可下载资源。但您使用该克隆声音合成的成品（如播客、视频）可以正常分发。

魔音工坊的语音效果与真人录音相比如何？

在超高清模式下，合成语音的自然度、连读、轻重音处理已接近真人播音员水平，尤其对长句的抑扬顿挫表现较好。但对于极其细腻的即兴语气（如叹气、耳语、口误）仍与真人录音有可见差距，适合标准朗读、解说类场景，不适合需要高度即兴表演的戏剧配音。

是否支持在手机App上使用？

魔音工坊提供iOS和Android移动端App，功能与网页版基本一致，支持文字输入、音色试听、克隆管理、文件导出。部分高级编辑功能（如SSML可视化编辑）建议在网页端操作。

语音合成速度有多快？一次能合成多长的文字？

合成速度取决于音质等级和当前服务器状态。标准音色下，1000字文本大约10-15秒完成。单次合成上限为10000个字符（约5000-8000汉字），超出需分批处理。批量合成功能允许上传CSV文件，一键处理多个文本段。

魔音工坊与同类产品（如微软Azure TTS、讯飞配音）相比有什么优势？

主要优势在于声音克隆门槛低（仅需2分钟音频即可克隆，且支持手机录音），中文场景下情感表现力丰富（尤其粤语、方言特色音色较多），价格相对亲民，且提供免费试用额度。此外，魔音工坊的“有声书生成器”内置了章节自动分段、角色音分配等工具，适合内容创作者。

使用声音克隆时需要注意哪些版权问题？

您只能克隆自己本人录制的声音，或已获得明确授权的声音。克隆他人的声音（如明星、名人、未授权的朋友声音）用于商业用途可能构成侵权。魔音工坊会在上传音频时要求用户确认版权归属。

生成的语音可以添加背景音乐吗？

可以。在合成界面选择“背景音乐”选项，内置了多首免版税乐曲，也支持用户上传自己的MP3背景音乐。支持调节背景音量与语音音量的比例，并设置淡入淡出效果。

长文本需要分段合成吗？如何保持音色一致性？

超过单次上限的文本需手动分段。魔音工坊提供“音频拼接”功能，将多段合成结果自动合并为完整文件，并确保同一音色在不同段落之间的音高、语速、情感保持连续。建议用户对每段使用相同的音色参数和情感标签。

是否支持实时语音合成（如直播场景）？

API接口支持流式合成，延迟可控制在500毫秒以内，适合直播间解说、实时字幕配音等场景。但网页端和App端目前仅支持文本输入后合成，不支持边打字边发声的实时模式。

账号注销后，克隆的声音数据是否会被删除？

用户主动注销账号，系统将在30天内彻底清除账号下的所有克隆声音模型、合成记录和账户信息。在此期间如需恢复数据可联系客服，30天后不可恢复。