HunyuanVideo-Foley腾讯开源视频音效配音文本配音

bug反馈可以入科哥专属群交流！

使用教程

1、实例创建完成，等待2分钟加载完毕模型后，在控制台打开【webui】即可进入使用界面；

WebUI界面示例

2、卡顿时候，在控制台，实例【..】那里，点击【重启】，释放资源，等待完成启动，再次打开【webui】即可进入使用界面；

3、更多高级指令，可以进入jupyterlab，自行操作，例如：

查看进程：

ps -ef |grep python

终止进程：

kill -9 pid

官方更新源码在这里：
https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

虚拟环境激活命令：

conda activate py310

运行这个重启程序：

cd /root && bash run.sh

有bug请微信科哥： 312088415

关于HunyuanVideo-Foley

是腾讯混元开源的端到端视频音效模型，核心技术聚焦高保真与多模态协同。其构建大规模文本 - 视频 - 音频数据集，经严格过滤保障质量；采用混合架构，含多模态 Transformer 块同步处理视听流、单模态块优化音频；借 Synchformer 实现帧级时序对齐，搭配 REPA 损失函数对齐音频表征；自研增强音频 VAE 提升重建能力，最终输出 48kHz 高保真音效，在多项评测中达 SOTA，适用于短视频、影视等多场景。