声音克隆技术引领未来,用户期待正式问世
3月7日消息,去年三月底,OpenAI宣布了一项名为VoiceEngine(声音引擎)的人工智能服务的“小规模预览”,声称该技术能够在仅需15秒语音的情况下克隆一个人的声音。然而,近一年过去,这项工具仍未正式推出,OpenAI也未透露其是否会全面上线,以及何时上线。 截至2025年3月7日的消息,去年三月底,OpenAI曾宣布了一项名为VoiceEngine(声音引擎)的人工智能服务的“小范围试用”,表示这项技术只需15秒录音即可复制一个人的声音。然而,至今已接近一年时间,该工具仍未正式发布,OpenAI也没有公布是否会全面上线及其具体时间表。
OpenAI对于VoiceEngine的谨慎态度,可能源于对技术被滥用的担忧,也可能是为了避免引发监管审查。该公司此前曾被指责过于注重“亮眼产品”,而忽视了安全性,并且急于赶在竞争对手之前发布产品。 这种谨慎态度反映了当前科技公司在追求技术创新与确保安全合规之间的艰难平衡。一方面,快速推出新产品可以为公司带来竞争优势,另一方面,一旦技术失控或被恶意利用,其后果不堪设想。因此,OpenAI的做法其实是在提醒整个行业,技术创新的同时必须重视伦理和安全考量,以避免潜在的社会风险。
OpenAI的代表在与TechCrunch的访谈中透露,公司目前正与少数“可信赖的合作伙伴”共同测试VoiceEngine。该代表表示:“我们正通过合作伙伴对技术的应用来获取经验,以增强模型的实际应用价值和安全性。我们非常期待它能够在各种领域发挥作用,如语音治疗、语言教育、客户服务、游戏角色及AI虚拟人等。”
据了解,VoiceEngine是OpenAI开发的文本转语音技术,能够生成高度自然且与原说话者极为相似的语音。该工具可以将书面文字转化为语音输出,但在内容方面设有一定的限制。然而,自推出以来,VoiceEngine的发布时间一直面临延迟和多次调整。
根据OpenAI在2024年6月的一篇博客文章,VoiceEngine模型通过学习预测说话者在给定的文本转录中可能会发出的声音,综合考虑各种声音、口音和说话风格,从而生成文本的语音版本,并能够反映不同类型的说话者朗读文本时的“语音表达”。
最初,OpenAI 计划在 2024 年 3 月 7 日将 Voice Engine(当时名为 Custom Voices)引入其 API,并计划让最多 100 名“可信开发者”提前使用,优先考虑那些开发具有“社会价值”或展示“创新和负责任”技术应用的应用程序的开发者。OpenAI 还为该服务设定了价格:“标准”语音每百万字符收费 15 美元,“高清”语音每百万字符收费 30 美元。然而,在最后一刻,公司推迟了发布。几周后,OpenAI 在没有提供注册选项的情况下发布了 Voice Engine,仅允许 2023 年底开始合作的约 10 名开发者使用。
2024 年 3 月,OpenAI 在 Voice Engine 的发布博客中表示:“我们希望就合成语音的负责任部署以及社会如何适应这些新能力展开对话。基于这些对话和小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决策。”
据OpenAI介绍,VoiceEngine自2022年起开始研发。该公司声称在2023年夏天向全球最高层级的政策制定者展示了该工具的潜力和风险。目前,包括Livox在内的几家合作伙伴已经可以使用VoiceEngine。Livox是一家致力于为残疾人开发更自然沟通设备的初创公司。其首席执行官卡洛斯・佩雷拉(Carlos Pereira)告诉TechCrunch,尽管由于VoiceEngine的网络要求(许多Livox的客户没有互联网接入),他们暂时无法将该技术整合到产品中,但他认为这项技术“令人印象深刻”。 从这一报道可以看出,VoiceEngine的潜力无疑是巨大的,尤其是在改善残疾人的生活质量方面。然而,技术的实际应用仍然面临诸多挑战,比如网络基础设施的限制。这也提醒我们,技术的进步需要与社会的发展相匹配,否则即便技术再先进,也无法惠及所有需要的人群。因此,在推动技术创新的同时,也需要关注基础设施建设和社会包容性的问题。
佩雷拉通过电子邮件告诉TechCrunch:“语音质量以及能够用多种语言说话的能力是独一无二的,尤其对我们客户——残疾人来说。这是我见过的最令人印象深刻且易于使用的语音生成工具。我们希望OpenAI能尽快推出离线版本。”他还提到,他还没有收到OpenAI关于VoiceEngine发布计划的任何指引,也没有发现该公司有开始收费的迹象。目前,Livox的使用还未产生任何费用。
在2024年6月的博客文章中,OpenAI暗示由于担心该技术可能在2024年美国选举周期中被滥用,因此决定推迟VoiceEngine的发布时间。根据与各方的讨论,VoiceEngine引入了多种安全措施,其中包括在生成的音频中添加水印以追踪其源头。
根据OpenAI的声明,开发者在使用VoiceEngine前必须获取原始说话者的“明确同意”,并且需要向受众“明确披露”语音是由人工智能生成的。不过,该公司尚未公布如何实施这些政策。即便对于拥有OpenAI资源的公司而言,全面执行这些政策也可能会面临巨大挑战。
在博客文章中,OpenAI透露了他们希望开发一种“语音认证体验”来验证说话者身份,并计划建立一个“禁止清单”,防止创建与知名人士声音过于相似的语音。这两项计划在技术上都极具挑战性,若实施不力,可能会对一家经常因忽视安全措施而受到批评的公司产生不利影响。
随着AI语音克隆技术的迅猛发展,有效的过滤和身份验证已经成为负责任地推广这项技术的重要前提。据报道,AI语音克隆技术在2024年成为了增长最快的诈骗手段之一,这不仅加剧了欺诈行为,还使得银行的安全检查机制受到威胁。与此同时,现有的隐私和版权法律似乎无法及时跟上技术的步伐。不法分子利用这一技术制造名人和政治人物的深度伪造视频,并通过社交媒体迅速扩散。 这种现象引发了对网络安全和信息真实性的深刻担忧。AI语音克隆技术虽然为许多领域带来了便利和创新,但其潜在的风险也不容忽视。尤其是在当前的社会环境中,虚假信息的传播可能带来严重的后果。因此,加强技术监管和法律保护显得尤为紧迫。同时,公众也需要提高警惕,学会辨别真假信息,以防止自身权益受损。只有这样,才能更好地平衡技术进步与社会安全之间的关系。
OpenAI可能在下周推出VoiceEngine,也可能永远不会推出。该公司多次表示,正在考虑将服务保持在较小范围内。但有一点是明确的:无论是出于形象考虑还是安全原因,VoiceEngine的有限预览已经成为OpenAI历史上最久的一次。 从目前的情况来看,OpenAI对于VoiceEngine的谨慎态度似乎表明了其对新技术推出的深思熟虑。这种谨慎不仅体现在技术层面的安全考量上,也反映了公司在塑造公众形象方面的细致规划。尽管如此,长期的有限预览可能会引发用户的好奇心和期待,同时也可能引起部分用户的不满。无论如何,这一过程展示了OpenAI在技术创新与风险管理之间寻求平衡的努力。