成立不足两年,融资8000 万美元,晋升独角兽行列,这款 AI 语音克隆应用到底有多强?
文章来源:硅星GenAI
又一个只有很少的员工,创造出 10 亿美元独角兽企业的故事诞生了。
这两天,ElevenLabs 紧随着自己融资 8000 万的新闻,在 X 上接连发了一则招聘启事和一条宣传片,以将自己的团队规模,从 40 人扩大到 100 人。
产品本身不是什么新出的产品,ElevenLabs成立于 2022 年,像是文字转语音和语音克隆功能也是 2023 年出的。这次伴随融资新闻和宣传片的传播,让这家公司彻底被大众所熟知。
产品页面目前看起来简洁且清晰,全都集中在左上角:
开头的视频号我们就是直接用视频多语言翻译(Dubbing)这个功能做的。
具体步骤比把大象装冰箱都要简单:
1、粘贴你想翻译的视频的链接(甚至都不用下载);
2、选择源语言和目标语言,并点击 Create。
然后……等待大概 3 分钟左右,Done。
这时候生成的视频,就已经可以使用了,但也可以进一步编辑。
在编辑页面可以重新选择说话人的声音,通过多条音轨,每句话是由谁说的都可以自己设定。
能通过设置三个选项对声音进行微调:
1、Stability 代表稳定性,这个参数的高低,会影响语音语调的变化。过高会有些死板,过低会不够稳定。
2、Similarity 代表着相似程度,越高就越像源声音,但过高也会出现一些莫名其妙、并不存在的声音。
3、Style 代表语音的风格,与上传的音频相比,数值越高风格越夸张。设置成 0 会提高生成速度。
在这个产品里,只有这三个参数是通过数据调节。
目前体验下来,这款产品在中文上的表现,基本上跟现实里外国人说中文的感觉一模一样,这种差异在赛博世界也难以避免。
而且还会有一些非常诡异的 BUG,比如说驴(lv)会读成路(lu)。
不过,刚才我们使用的语音克隆,都是即时语音克隆模式,当付费到Creator级别(每月 22 美元)以后,可以解锁专业声音克隆模式(Professional Voice Cloning)。
在这种模式下,光看这些需求,一股名为“专业”的感觉就扑面而来:
1、 提交声音后需要等待 4 周才能使用克隆的声音
2、尽量使用专业录音设备进行录制;
3、录音时建议使用防喷罩;
4、在经过声学处理的房间里进行录制;
5、需要录制至少 30 分钟,最好 3 个小时的声音素材等。
Google 网页翻译
我提交了 30 分钟的我自己的声音素材,当然也并没有他说的哪些专业设备,就是想看看 4 周以后看看会有什么更厉害的效果。到时候再给大家汇报。
目前ElevenLabs支持 29 种语言,除了中文都还可以。国内目前也已经有了一些类似的产品,但还没听说有哪一款特别爆火。如果有哪些很好用,也希望各位推荐安利一波。