MyShell发布OpenVoice语音克隆人工智能-FebHost

一种名为 OpenVoice 的新型开源人工智能能以前所未有的速度和准确度克隆语音。

OpenVoice 由麻省理工学院、清华大学和加拿大初创公司 MyShell 的研究人员共同开发，只需几秒钟的音频就能克隆出声音，并能对语气、情感、口音、节奏等进行细粒度控制。

MyShell 在本周发布的一篇文章中公布了 OpenVoice，并链接到一篇解释该技术的预审研究论文以及 MyShell 和 HuggingFace 上的演示网站，用户可以在这些网站上试用该技术。

OpenVoice 由两个人工智能模型组成，共同用于文本到语音的转换和语音语调克隆。

第一个模型处理语言风格、口音、情感和其他语音模式。它是在 30,000 个来自英语、汉语和日语使用者的不同情感的音频样本上训练出来的。第二个 "音调转换器 "模型是从包含 20,000 种声音的 300,000 多个样本中学习的。

通过将通用语音模型与用户提供的语音样本相结合，OpenVoice 可以用很少的数据克隆语音。与 Meta 的 Voicebox 等替代产品相比，OpenVoice 生成克隆语音的速度要快得多。

OpenVoice 来自于 2023 年成立的加州初创公司 MyShell。MyShell 获得了 560 万美元的早期融资，用户已超过 40 万，自称是一个创建和发现人工智能应用程序的去中心化平台。

除了率先推出即时语音克隆外，MyShell 还提供基于文本的原创聊天机器人个性、备忘录生成器、用户自创文本 RPG 等。有些内容需要付费订阅。该公司还向机器人创建者收取在其平台上推广机器人的费用。

MyShell通过HuggingFace开源其语音克隆功能，同时将其更广泛的应用生态系统货币化，这样既能增加用户，又能推进人工智能开发的开放模式。

文章相关标签： MyShell OpenVoice 人工智能