玩AI这么久，生成AI美女的技术你是越来越熟练了，但是它也不会动呀！这时候，你是不是经常会想，如果它能开口说话就好了？
好的，那今天我们就让你的AI老婆开口说话！

在AI技术中，有一项技术，也许你听过，那就是数字人。甚至你可能见过，但你不知道那是数字人！是不是细思极恐？

什么是数字人
数字人，也被称作虚拟形象或虚拟角色，是一种通过计算机生成的、具有人类特征的三维模型。它们可以用于娱乐、教育、广告、社交媒体等多种场景，并且能够进行交互和模拟人类行为。数字人可以是完全虚构的，也可以是基于真实人物的数字化复制。
数字人现在广泛应用于口播、短视频、虚拟主播、虚拟偶像、直播带货等，并且未来也有很多的应用前景。

–我们先来看一个案例–

怎么创造一个数字人

现在市面上常见的数字人工具其实有很多，以下是几款比较常见的，也是应用比较多的数字人工具

1.heygen

https://www.heygen.com/
这是目前使用效果最好的数字人创作工具，现在看到很多效果很好的数字人，基本都是用heygen生成的，它的使用范围非常广，且效果逼真，主要用于克隆自己的数字人。很多时候如果不告诉你，你可能都很难发现这是数字人。
不过这个价格嘛，em~，土豪不用犹豫，请直接购买！

以下是Heygen的数字人效果

2.腾讯智影

https://zenvideo.qq.com/

腾讯智影，算是腾讯出的比较早的数字人工具了，效果也还算不错

不过这个价格，也是不便宜的

以下是腾讯智影的数字人效果

3.剪映

剪映作为国内最流行的短视频剪辑软件，也添加了数字人功能，不过暂时还不支持用户克隆自己的数字人，且很多是vip数字人

以下是剪映的数字人效果

4.阿里EMO

https://github.com/HumanAIGC/EMO

阿里EMO是前段时间推出的，能通过一张图片，就能让人物说话唱歌，并动起来，效果非常好，可惜github上只有一份README，只能看到效果，并未开源（我猜测未来开源的可能性也不大，毕竟阿里是要赚钱的）。

好消息是，现在通过通义千问APP，输入“emo”，已经可以体验EMO的效果了

以下是EMO的数字人效果

5.腾讯AniPortrait

https://github.com/Zejun-Yang/AniPortrait

腾讯开源数字人工具，EMO的竞品，同样是一张照片转数字人视频。总体来看，效果上不如EMO，但是也非常棒，胜在开源，比如阿里EMO的一份README强多了

AniPortrait还有针对ComfyUI的插件可下载，感兴趣的同学可以自行尝试，本文不详细介绍
插件地址：https://github.com/frankchieng/ComfyUI_Aniportrait
并且他还有在线体验地址：https://huggingface.co/spaces/ZJYang/AniPortrait_official

AniPortrait虽然开源免费，且可以本地部署，但实际体验下来，对本地配置还有一定要求，才能达到最佳效果

以下是AniPortrait数字人效果

我不知道你们看完什么感受，有些数字人我第一眼竟然看不出它是数字人！

SadTalker

介绍这么多工具，都各有优缺点，有的对本地配置要求高，有的使用有限制，有的不能定制化克隆，有的什么都好，就是贵（当然了，贵可能不是它的缺点，是我的缺点）

那怎么办呢，没钱就不能体验数字人了吗？当然不是！那就到今天要聊的重点了，我为大家介绍一个开源免费，本地部署，且配置要求没有那么高的数字人工具——SadTalker！

SadTalker是比较早的数字人工具，最近一次更新也是7个月前了，但是目前来看，效果依然很不错，未来也很有前景，期待作者的持续更新！

今天我就从安装部署，到简单使用，到高级使用，到很少有人讲到的，经过我个人调试的最优参数，到最终成片效果，来给大家介绍SadTalker！
希望大家看完后，都能制作自己的数字人视频！

1. 安装

SadTalker有两种界面运行方式，一种是独立安装，单独启动；一种是作为Stable Diffusion WebUI的插件运行

首先确认我们安装了python环境，推荐版本3.8-3.10，https://www.python.org/downloads/release/
并且推荐在SadTalker目录下创建python虚拟目录
python -m venv venv

独立安装

下载代码仓库：https://github.com/OpenTalker/SadTalker.git

我们可以通过git clone https://github.com/OpenTalker/SadTalker.git命令来下载代码仓库，或直接通过下载地址https://github.com/OpenTalker/SadTalker/archive/refs/heads/main.zip 来下载并解压得到代码仓库

SD插件安装

通过Stable Diffusion的插件安装有两种方式，分别是通过插件商店安装

图片[5]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

或直接输入代码仓库地址安装：https://github.com/OpenTalker/SadTalker.git

图片[6]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

安装完成之后，重启Stable Diffusion就可以看到SadTalker页签啦

启动WebUI

通过SD插件安装的方式，重新启动即可通过SadTalker页签进入，单独安装则需要启动webui.bat

看到控制台输出地址后，既可以通过网页访问了

图片[7]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

图片[8]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

我猜到你肯定安装过程中会遇到不少问题，包括环境部署，依赖包安装，爱折腾的小伙伴建议自行折腾，因为这个过程会让你学到不少东西。
实在不想折腾的小伙伴，我也为大家打包好了所有环境的装好的压缩包，解压直接运行即可！文末获取下载地址！

1. 图片源

SadTalker需要上传一张图片作为源图片，当然这个图片无论是真实照片，还是AI生成图片，都是可以的。不过对于SadTalker来说，照片尽量选择大头照为宜。以下是我用Stable Diffusion创建的Taylor的照片

图片[9]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

1. 音频源

同样的，音频源可以是自己录制的声音，也可以是由AI生成的声音推荐使用ElevenLabs(https://elevenlabs.io)，或用剪映生成

当然，也可以参考我之前介绍过的GPT-SoVITS的克隆声音来制作声音
你的声音，现在是我的了！- 手把手教你用GPT-SoVITS克隆声音！

总之，最终我们需要一段人声说话的音频，比如这样的

暂时无法在飞书文档外展示此内容

1. 调整参数

对于WebUI界面来说，可调参数不是很多，因此上手也算比较容易

- • pose style：选择姿势有0-45可选，一般默认0即可

- • face model resolution：选择脸部渲染时使用256或512尺寸

- • preprocess：预处理方式crop（裁剪到只剩头部）/resize（对图片重新设置尺寸）/full（全尺寸）/extcrop（额外裁剪）/extfull（全尺寸）

- • Still Mode：是否让头部更少运动，只在使用full预处理时生效

- • batch size in generation：批量处理数量，GPU越好可以拉的越高，处理速度越快

- • GFPGAN as Face enhancer：是否进行脸部增强，优化脸部处理

1. 合成视频

一切准备就绪后，我们就可以开始合成数字人视频了，点击“Generate”，然后等待即可，时间长短根据音频长度，以及配置有关，一般来说在几分钟就能完成。

1. 使用命令行

到这里为止，我们已经可以使用SadTalker来生成数字人视频了，大部分网上能搜到的教程也就到此为止了。

但是在这里，我将为大家带来SadTalker更多的参数调整方式，来达到更好的效果！

但是如果你仔细看过SadTalker在github的README，你可以知道，它其实很多很多可调参数，调整不同的参数，能生成的视频效果更好。

对于程序员朋友来说，直接调用python代码，并传入更多参数，这个过程一定不陌生，为了照顾大家，我大概说在怎么通过命令行来直接调用SadTalker

首先打开命令行，通过win+r输入cmd或开始菜单中打开命令行黑窗口界面

图片[10]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

图片[11]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

然后通过cd命令进入到SadTalker所在目录（目录地址以你的为准）

图片[12]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

然后使用python命令调用inference.py文件，不过需要注意的时候，这里用的Python需要和你在webui.bat中用的python一致，也就是说，如果你创建了venv的虚拟环境，则需要使用虚拟环境下的python，比如我这样：

venv\Scripts\python.exe inference.py

这样，我们就可以直接通过调用inference.py来生成数字人视频了

这样做，有什么好处呢？

我们可以看到之前的界面上，可调参数并不是很多，很容易上手，但是如果我们需要实现更好的效果，还需要加一些关键的参数。

关于SadTalker提供给我们的可调参数，我都列这里了

图片[13]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

举个例子，github的README中提供了这样的一个效果

图片[14]-保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！-我创创业-副业网-网络创业-资源分享-网课资源-学习教程-学知识-自媒体-抖音-视频号-小红书-网络项目,赚钱软件,副业,兼职,学生赚,挂机赚-我创创业-副业网-5ccy.cn

那这个效果呢，其实是在使用SadTalker时，加入眨眼参考视频，我们很多时候生成的视频看起来有点假主要还是眼睛不怎么眨导致，那这个眨眼参考的模式能让生成的数字人更加自然和逼真。

而这个配置眨眼参考视频的参数，在WebUI的界面中是无法配置的，只能通过命令行的方式配置到这个参数（ref_eyeblink）

还有很多这样的参数，在WebUI无法配置，但是却是提升数字人视频质量的关键参数。这里的几个参数，是我经过多次尝试后认为比较重要的：

- driven_audio：这个就不用多说了，驱动音频一定是必不可少的

- source_image：同理，源图片也一定是必不可少的

- ref_eyeblink：添加眨眼的参考视频，可以让数字人的表情更逼真

- ref_pose：添加姿态参考视频，数字人的头部姿态会更加自然

- enhancer：脸部增强，这个选项一般都会勾选上，来增强人物脸部渲染

- size：脸部渲染尺寸，WebUI界面只提供了256和512两个选项，事实上部分情况也确实够用，如果你的显卡足够强，那么这个size可以更高

- preprocess：预处理方式决定了视频的景别是全身还是大头，不过有时候全身的衔接不自然也可以通过裁切为大头来解决

- expression_scale：脸部表情的丰富程度，这个需看情况多尝试了，表情的丰富程度需要在一个适度的值，默认值1效果就很不错了。

- still：如果是全身的预处理模式，配合still参数，可以更好的控制头部更少的运动，显得更加自然

- batch_size：默认2对于大部分显卡都适用，如果你的显卡稍弱就减小，你的显卡足够强就加大

以上的这些参数是能直接影响到生成视频的质量的，比如我通过以下的一行命令，引用Taylor的一段采访视频，再配合我用SD生成的Taylor的AI图，生成了Taylor的数字人AI视频

venv\Scripts\python.exe inference.py --enhancer gfpgan --expression_scale 2 --preprocess resize --ref_pose "F:\movie\taylorref\taylorref.mp4" --driven_audio "F:\movie\taylorref\taylorref.MP3" --source_image "C:\Users\Administrator\Desktop\taylor_20240501003940.png"

总的来说，SadTalker还是更适合与人物说话时头部和表情都只有微弱变化的应用场景，大开大合的动作在目前看来效果会非常不自然（期待作者的更新）

当然了，说到这，我还有点理解“SadTalker”的字面意思了：悲伤的谈话，因为情绪低落，所以表情起伏不大？

1. 视频剪辑

最后，我们做出来了数字人视频，只要稍加剪辑，就可以做成一个短视频了。现在很火的一些语录口播、情感口播、AI复活等，其实都可以使用SadTalker做出数字人视频，再配合一些短视频的创作思路来创作。

关于SadTalker的使用讲解，到这里就差不多了，实话实说，SadTalker和一些目前顶级的数字人工具还是有些差距，不过免费的本地部署，和逼真的实现效果，总得选一个吧！并且SadTalker作为开源项目，我相信它的未来还有很大的发展空间！
工具本身只能是工具，如何使用，还需要大家发挥自己的想象。文中提到了AniPortrait，但没细讲，这也是新出的非常不用的开源数字人生成工具，关于这个，以后有机会我会再单独讲解，欢迎关注我！我会持续输出优质内容！

好了，既然你都看到这里了，那么就去尝试一下吧！用SadTalker做出你的第一个数字人视频！期待你们的成果！

特别声明： 每当遇到这样的AI技术产生的时候，我其实都会感到一些恐慌，网络上的内容越来越AI化了，我们普通人要如何判断和鉴别，如果本身对我们人身安全无害，那也无所谓，但如果有人有歪心思，想用AI侵犯了我们的人身财产安全，那我们就要提高警惕了。原先是短信可能是诈骗，后来是电话也能诈骗，现在视频都可能是诈骗了！
作为普通人，我们在AI技术爆发的今天，也要提高自己的人身安全警惕意识；作为AI内容创作者，我们更应该把AI技术用于正面方向，让社会向着积极的方向发展！

SadTalker整合包

链接：https://pan.quark.cn/s/21178f44bce3

提取码：EB5S

版权声明 1、本网站名称：我创创业·副业网
2、本站永久网址：http://5ccy.cn
3、本站资源收集整理自网络，版权归原作者所有。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站仅作学习交流使用，不可用于任何商业途径
6、如非免费资源，请在试用之后24小时内立即删除，如果喜欢该资源请购买正版，谢谢合作！
7、如不慎该资源侵犯了您的权利，请麻烦通知及时删除，联系客服微信：QQ944322981

THE END

教程

保姆级教程，免费打造逼真个性化数字人！小白也能轻松上手！

怎么创造一个数字人

SadTalker

近期文章

近期评论

分类

归档

归档

分类