常见问题

魔音工坊是什么?

魔音工坊(Moyin)是一款由出门问问推出的AI语音合成工具,支持在线将文字转换为自然流畅的语音。它提供超过百种高品质音色,涵盖中英文及多种方言,并允许用户通过声音克隆、情感调节、语速控制等功能定制专属语音。平台同时提供API接口,适用于有声书、短视频、播客、智能硬件等场景。

魔音工坊的核心功能有哪些?

核心功能包括:文字转语音(TTS)、声音克隆(上传短音频即可复刻个人声音)、多情感音色(支持高兴、悲伤、愤怒等情绪表达)、多语种合成(中文、英文、日语、韩语等)、背景音乐添加、SSML标签优化、批量文件处理,以及针对有声书、广告配音等场景的专项优化模板。

如何开始使用魔音工坊?

访问官网(moyin.com)注册账号,登录后进入“创作”页面。在文本框中输入或粘贴文字,选择音色、情感、语速等参数,点击“生成”即可试听。免费用户每日有基础免费额度,付费用户可解锁更多高清音色、商用授权及批量合成功能。

魔音工坊支持哪些语言和方言?

支持中文普通话、粤语、四川话、台湾腔中文、英文(美式/英式)、日语、韩语、法语、德语、西班牙语等。每种语言下都有多个适合该语言口音的特色音色,例如中文下的“双语主播”“温柔女声”“磁性男声”等。

声音克隆功能如何使用?需要多久才能克隆?

在“声音克隆”模块上传一段2-10分钟的干净人声(无背景噪音,单声道),系统会自动训练生成专属声音模型。克隆过程通常在几分钟到一小时内完成,具体取决于音频质量和服务器负载。克隆后的声音可用于合成任意文本,且能保持原声的语调习惯。

魔音工坊生成的语音可以商用吗?

可以。魔音工坊提供商用授权服务,付费用户生成的语音(包括普通合成与声音克隆)可在商业项目中直接使用,无需额外取得著作权人授权。免费用户的语音仅限于个人非商业用途。

魔音工坊的音色数量大概是多少?如何分类?

平台目前提供超过500种预设音色,分为标准、精品、超高清(HD)等级别。分类包括:主播音(新闻/朗读类)、角色音(动漫/游戏类)、方言音、童声、外语母语者音色等。每种音色都标注了适用场景,比如“睡前故事”“课程讲解”“促销广告”。

是否支持SSML(语音合成标记语言)?

支持。用户可以在文本中插入SSML标签,精确控制停顿、重音、语速变化、数字读法、日期格式等细节。对于需要精细调节的有声书、教育课程等长文本非常实用。

魔音工坊的付费方案有哪些?价格如何?

分为基础版、专业版、企业版。基础版每月几十元,包含数小时超高清时长;专业版增加克隆次数和商用授权;企业版提供API调用、私有化部署及专属客服。具体价格以官网实时展示为准,通常按年付有折扣。

能否将生成语音导出为不同格式?

可以。支持导出为MP3、WAV、AAC、OGG等常见音频格式,比特率可从32kbps到320kbps调节。单次导出最长支持1小时(文本量约1万字),长文本可分段合成后合并。

声音克隆后能否与他人分享或售卖?

克隆声音仅限本人账号使用。魔音工坊禁止用户将克隆声音模型以任何形式交易、转授或公开发布为可下载资源。但您使用该克隆声音合成的成品(如播客、视频)可以正常分发。

魔音工坊的语音效果与真人录音相比如何?

在超高清模式下,合成语音的自然度、连读、轻重音处理已接近真人播音员水平,尤其对长句的抑扬顿挫表现较好。但对于极其细腻的即兴语气(如叹气、耳语、口误)仍与真人录音有可见差距,适合标准朗读、解说类场景,不适合需要高度即兴表演的戏剧配音。

是否支持在手机App上使用?

魔音工坊提供iOS和Android移动端App,功能与网页版基本一致,支持文字输入、音色试听、克隆管理、文件导出。部分高级编辑功能(如SSML可视化编辑)建议在网页端操作。

语音合成速度有多快?一次能合成多长的文字?

合成速度取决于音质等级和当前服务器状态。标准音色下,1000字文本大约10-15秒完成。单次合成上限为10000个字符(约5000-8000汉字),超出需分批处理。批量合成功能允许上传CSV文件,一键处理多个文本段。

魔音工坊与同类产品(如微软Azure TTS、讯飞配音)相比有什么优势?

主要优势在于声音克隆门槛低(仅需2分钟音频即可克隆,且支持手机录音),中文场景下情感表现力丰富(尤其粤语、方言特色音色较多),价格相对亲民,且提供免费试用额度。此外,魔音工坊的“有声书生成器”内置了章节自动分段、角色音分配等工具,适合内容创作者。

使用声音克隆时需要注意哪些版权问题?

您只能克隆自己本人录制的声音,或已获得明确授权的声音。克隆他人的声音(如明星、名人、未授权的朋友声音)用于商业用途可能构成侵权。魔音工坊会在上传音频时要求用户确认版权归属。

生成的语音可以添加背景音乐吗?

可以。在合成界面选择“背景音乐”选项,内置了多首免版税乐曲,也支持用户上传自己的MP3背景音乐。支持调节背景音量与语音音量的比例,并设置淡入淡出效果。

长文本需要分段合成吗?如何保持音色一致性?

超过单次上限的文本需手动分段。魔音工坊提供“音频拼接”功能,将多段合成结果自动合并为完整文件,并确保同一音色在不同段落之间的音高、语速、情感保持连续。建议用户对每段使用相同的音色参数和情感标签。

是否支持实时语音合成(如直播场景)?

API接口支持流式合成,延迟可控制在500毫秒以内,适合直播间解说、实时字幕配音等场景。但网页端和App端目前仅支持文本输入后合成,不支持边打字边发声的实时模式。

账号注销后,克隆的声音数据是否会被删除?

用户主动注销账号,系统将在30天内彻底清除账号下的所有克隆声音模型、合成记录和账户信息。在此期间如需恢复数据可联系客服,30天后不可恢复。