资讯公告
MyShell发布OpenVoice语音克隆人工智能
发布时间:2024-01-08 发布者:FebHost



一种名为 OpenVoice 的新型开源人工智能能以前所未有的速度和准确度克隆语音。


OpenVoice 由麻省理工学院、清华大学和加拿大初创公司 MyShell 的研究人员共同开发,只需几秒钟的音频就能克隆出声音,并能对语气、情感、口音、节奏等进行细粒度控制。 


MyShell 在本周发布的一篇文章中公布了 OpenVoice,并链接到一篇解释该技术的预审研究论文以及 MyShell 和 HuggingFace 上的演示网站,用户可以在这些网站上试用该技术。


双人工智能模型实现即时语音克隆  


OpenVoice 由两个人工智能模型组成,共同用于文本到语音的转换和语音语调克隆。


第一个模型处理语言风格、口音、情感和其他语音模式。它是在 30,000 个来自英语、汉语和日语使用者的不同情感的音频样本上训练出来的。第二个 "音调转换器 "模型是从包含 20,000 种声音的 300,000 多个样本中学习的。


通过将通用语音模型与用户提供的语音样本相结合,OpenVoice 可以用很少的数据克隆语音。与 Meta 的 Voicebox 等替代产品相比,OpenVoice 生成克隆语音的速度要快得多。


加州初创公司 


OpenVoice 来自于 2023 年成立的加州初创公司 MyShell。MyShell 获得了 560 万美元的早期融资,用户已超过 40 万,自称是一个创建和发现人工智能应用程序的去中心化平台。 


除了率先推出即时语音克隆外,MyShell 还提供基于文本的原创聊天机器人个性、备忘录生成器、用户自创文本 RPG 等。有些内容需要付费订阅。该公司还向机器人创建者收取在其平台上推广机器人的费用。


MyShell通过HuggingFace开源其语音克隆功能,同时将其更广泛的应用生态系统货币化,这样既能增加用户,又能推进人工智能开发的开放模式。

文章相关标签: MyShell OpenVoice 人工智能
购物车