ai动嘴搞笑 只用嘴唇动一动,AI就能合成语音,效果自然流畅看不出破绽
只用嘴唇动一动,AI就能合成语音,效果自然流畅看不出破绽
梅宁航 发自 凹非寺 量子位 报道 | 公众号 QbitAI
光动嘴不用出声,AI自动给你合成语音 。
这就是来自印度信息技术研究所(IIIT)的黑科技——一个名为Lip2Wav 的AI程序。
Lip2Wav 可以学习个体的说话方式,并且实现准确的唇语合成。
△ 示例
值得注意的是,Lip2Wav 和B站那些机械风格的鬼畜调音不一样。
这个AI效果炸裂,你几乎感觉不到是机器配音,就像人类在发言一样。
真实效果可以参见他们发布在油管的视频。
毕竟涉及到语音效果,光看文字是感觉不完整的。
另外,不要用来做坏事哟。
这是怎么实现的?
目前工业界普遍使用的唇语到语音/文本的数据集有两种。
一种是小规模的、受约束的词汇数据集,如GRID 和TCD-TIMIT 数据集,还有一种是无约束、开源的多人词汇数据集,如LRS2 、LRW 和LRS3 数据集。
这些数据集前者存在数量不足,不足以模拟真实环境 的问题,后者问题在于适用对象过于宽泛,个性化特征不够鲜明。
基于上述问题,作者提出新的思路,步骤如下:
1、准备数据。
准备针对个人的语音、视频大量数据,这是Lip2Wav 的第一个显著特点,增加数据量来增强模型的拟合效果。
△ 5个演讲者
作者为Lip2Wav 准备的数据集包含了5位演讲者的演说视频,这些视频包括国际象棋分析、化学课程、深度学习课程等类型。
每个演讲者都有大约20个小时的YouTube视频内容,作者使用了5个人、共计100+小时 的数据,跨越5000+ 的丰富词汇量,基本涵盖日常英语词汇。
2、面部识别中得到唇部动作编码。
在整理好数据后,作者的思路是学习精确的个体说话风格,换言之追求对个体风格的极致模拟,而非普遍适用的通用模型。
△ 训练流程
这个示例针对的是国际象棋分析,训练AI去分析演讲者的面部表情动作,并进行特征编码。
当然,作者没有重复造轮子,而是利用face_alignment模型 上二次开发,修改为一次分批提取人脸。
face_alignment模型 对3D人脸识别效果良好,在GitHub有3.9k Star。
△ face_alignment模型对人脸进行3D建模
3、使用LSTM根据唇部动作进行文字生成。
在得到人脸特征后,研究者要做的是把唇部动作和语音文字结合起来。
△ 训练示例
在数轮3D卷积神经网络训练后,研究者使用LSTM进行文字生成,以期匹配先前的唇语动作。
4、评估结果。
在得到训练结果后,研究者使用另外两份数据集进行验证,检测Lip2Wav 模型的泛化能力。
他们使用了GRID 和TCD-TIMIT 数据集,其中的WER 列为错误率❌的衡量参数。
根据比较结果,和现有模型相比,Lip2Wav 模型得分最低,效果最好。
而更有创意的是,研究者为弥补他们数据集过于针对个人风格的特点,还设计了人类评估的步骤。
让人类志愿者进行客观 评估。
他们要求志愿者手动识别并报告A ,错误发音的百分比,B ,单词跳字的百分比(单词跳读是指由于噪声或语调不清而完全无法理解的单词数量。),以及C ,同音字的百分比。
△ 人类客观评估平均数
上图是从Lip2Wav数据集中的每个演讲者的未读测试分词中选取10个预测的结果。
个人风格过强的问题
作者发布之后,引起Reddit的热议。
但吃瓜群众的疑问在于,他们的模型是否能够针对普通人进行语音合成。
没想到模型作者现身说法,明确表示暂时还不行,只有针对训练的特定个人才能有效拟合数据。
而作者还在评论区回应,他们未来会增加视频字幕生成的能力,类似于YouTube的字幕生成功能,期待项目的进一步发展。
要不要动手试试~
参考链接:
https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be
https://arxiv.org/pdf/2005.08209.pdfhttp://cvit.iiit.ac.in/research/projects/cvit-projects/speaking-by-observing-lip-movements#
https://github.com/Rudrabha/Lip2Wav
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
语音党狂喜!实现动嘴不动手记录自由
在这个信息爆炸的时代,无论是职场人士记录会议要点、学生整理课堂笔记,还是创作者捕捉灵感瞬间,高效记录都是一项刚需技能。然而,传统的手动记录方式不仅耗时耗力,还常常让人在忙碌中错失重要信息。对于像我这样的 “懒癌晚期患者” 来说,长时间敲字记录简直是一种折磨。直到遇见话袋APP,才真正实现了动嘴不动手的记录自由,彻底改变了我的信息管理和知识积累方式。
话袋 APP 最让我惊艳的,当属它强大的语音转文字功能。以往脑海中突然闪现的灵感,还没来得及掏出手机记录就消失不见;会议上领导讲话节奏快,手写根本跟不上,关键内容频频遗漏。但有了话袋APP,这些问题都迎刃而解。只需要打开APP,对着手机说出想法,它就能迅速且准确地将语音转化为规整的文字。无论是日常灵光乍现的创意构思,还是严肃正式的会议发言,都能轻松捕捉,真正做到 “想到什么直接说”。而且,它的语音识别准确率极高,哪怕带着轻微口音,也能精准识别,完全不用担心因语音转文字出错而导致信息偏差。
除了语音转文字,话袋 APP 在内容呈现和信息管理上也十分出色。在记录过程中,我们常常需要插入图片来辅助说明,以往在其他记录软件中,插
入图片的操作繁琐又不流畅。而话袋APP 支持图片随意插入,无论是会议现场的 PPT 截图,还是灵感记录时需要引用的素材图片,都能轻松添加,瞬间形成图文并茂的笔记。这样一来,记录的内容不仅更加丰富直观,后续查看时也能快速回忆起当时的场景和重点,大大提升了信息管理的效率。
更令人惊喜的是,话袋APP自带的 AI 功能堪称 “效率神器”。在完成语音转文字和图片插入后,AI会自动对内容进行排版,将杂乱的文字梳理得井井有条,同时还能提炼出重点内容。对于忙碌的职场人来说,这意味着即使在会议结束后,也无需花费大量时间整理会议纪要,只需稍作检查,就能快速生成一份逻辑清晰、重点突出的会议文档。对于学生群体,课堂笔记的整理也变得轻松许多,AI 提炼的重点可以帮助他们快速抓住学习核心,提高复习效率。
在知识积累方面,话袋APP也展现出了强大的优势。我们每天都会接触到大量碎片化信息,以往这些信息散落在不同的平台和文档中,查找和整理十分困难。而话袋APP的剪藏功能,就像是一个智能的信息收纳箱。无论是网页上看到的优质文章,还是社交媒体上有趣的观点,都可以通过话袋APP 一键剪藏,自动保存到相应的笔记中。同时,结合语音转文字和 AI 整理功能,能够快速将剪藏的内容转化为便于理解和记忆的知识卡片,方便随时复习回顾。随着时间的推移,这些零散的知识逐渐形成体系,构建起属于自己的知识宝库。
而且,话袋APP无广告的清爽界面,也为用户带来了极致的记录体验。在使用过程中,不会被突如其来的广告弹窗打断思路,能够全身心投入到记录和创作中。无论是在嘈杂的地铁上记录灵感,还是在安静的会议室整理会议内容,都能享受到流畅、专注的记录过程。
自从使用了话袋APP,我的生活和工作效率得到了显著提升。以前写一篇会议纪要可能需要花费一两个小时,现在借助话袋APP,十分钟左右就能完成初稿;日常的灵感记录和知识积累也变得更加轻松,不再需要担心错过任何有价值的信息。它就像是一个贴心的智能助手,默默帮助我处理各种记录和信息管理的难题。
相关问答
创维电视好不好?小维AI又是啥?-ZOL问答
小维AI是创维电视搭载的人工智能助手系统。它基于语音识别、自然语言处理和机器学习等技术,实现了与用户之间通过声音进行对话交互。小维AI可以帮助用户控制电...
拥有萨博基因的绅宝智行,最大的看点是AI技术吗?你怎么看?
从绅宝智行的命名方式就可以看出,北汽未来将把智能AI技术与萨博基因作为其主打卖点。作为2.0时代的开山之作,智行的预售价在8.29—12.29万元区间,定价还算合...
2020款AX7的WindLink3.2智能车机系统究竟有哪些功能比较好?
在AI(人工智能)发现如此迅速的时代,任何车企都不愿意错过这张“王牌”很显然AX7搭载的WindLink系统就是其中颇有市场竞争力的一份子,东风风神AX7就标配了WindL...
海信电视带AI摄像头的电视有哪些?功能强大吗?-ZOL问答
作为一位熟悉数码产品的专家,值得关注的是海信电视U7GPRO中所采用的AI摄像头技术。这款电视对于AI摄像头进行了分体设计,并且可以±90°调节,以保护家人隐私。...
小度在家智能屏可以控制其他智能设备吗?谁操作过吗?-ZOL问答
动动嘴就能轻松实现快进、暂停、音量调节等指令。小度在家智能屏1s怎么投屏电视?接下来小编给大家分享一下投屏的具体操作:第1步打开你想看的爱奇艺视频可...
如果未来人类将人工智能研发到巅峰,那么是福还是祸呢?
谢邀人工智能是未来社会的大趋势,虽然可能有一些潜在的风险,但是在短期内人工智能带来的利远大于弊,它将会极大的改善人类的生存质量。关于人工智能的重要性...
能否关闭小爱的报警功能-ZOL问答
只要轻轻动嘴就能搞定一切。7条回答:【推荐答案】小爱同学是小米推出的一款智能音箱产品,它内置了丰富的功能,可以通过语音交互来完成各种操作。但是小爱同学也...
智能投影到底智能在什么地方?
百度给的智能投影的介绍是这样的,“新增了无线wifi上网功能并搭载了智能操作系统的投影机”。但是这样看似乎并没有什么特别之处,就是给投影加了操作系统,并没...
对于一个普通人,做什么职业算是朝阳行业?
老于观点:本篇回答阅读时长:3分钟推荐指数:重要大面看行业、小面看个人,需要因人分析,具体观点如下(一)首先要清楚现在的职场社会体制,现如今职场社会...职业...
哪有学唱歌的地方?可不可以告诉我!!
[回答]零基础当然可以学了,我就是这样,唱歌并不难学的,多动嘴多练习之外,更重要的是要有套完整的教程才可以,这样学起来也系统。我是大概学那么两三天了,...
发表评论