使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

    腾讯混元(HunYuanVideo)视频模型发布以来,视频效果有口皆碑,但由于推理门槛比较高,消费级显卡用户望而却步,最近大神Kijai发布了FP8量化版本模型,使得甜品卡用户也有了一餐秀色的可能。

    本次我们利用HunYuanVideo量化版模型来生成绅士视频。

    本地部署ComfyUI

    首先需要本地部署ComfyUI框架,克隆官方项目:

git clone https://github.com/comfyanonymous/ComfyUI.git

    随后进入项目目录,安装torch

cd ComfyUI
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu124

    这里推荐使用 nightly 版本的 torch,以此来获得更高的性能。

    随后安装依赖:

pip3 install -r requirements.txt

    至此,ComfyUI框架就部署好了。

    本地部署ComfyUI-HunyuanVideoWrapper

    随后,本地部署 ComfyUI-HunyuanVideoWrapper项目节点,这个节点用来生成视频

cd custom_nodes
git clone https://github.com/kijai/ComfyUI-HunyuanVideoWrapper.git

    除了直接克隆节点项目以外,也可以通过著名的ComfyUI-Manager项目来安装:

cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

    接着修改 config.ini 配置文件:

[default]
preview_method = none
badge_mode = none
git_exe =
channel_url = https://raw.githubusercontent.com/ltdrdata/ComfyUI-Manager/main
share_option = all
bypass_ssl = False
file_logging = True
default_ui = none
component_policy = workflow
double_click_policy = copy-all
windows_selector_event_loop_policy = False
model_download_by_agent = False
downgrade_blacklist =
security_level = weak

    这里把默认的安全等级(security_level):normal改成weak,否则无法在线安装节点。

    随后直接在webui界面中安装ComfyUI-HunyuanVideoWrapper节点即可:

    下载HunyuanVideo相关的模型

    首先下载视频模型的fp8量化版本:

https://huggingface.co/Kijai/HunyuanVideo_comfy/tree/main

    这里模型包括fp8本体和vae模型,注意都下载体积小的那个。

    模型名称分别是:hunyuan_video_720_cfgdistill_fp8_e4m3fn.safetensors 和 hunyuan_video_vae_bf16.safetensors。

    下载成功后,分别放入 models/diffusion_models 目录 和 models/vae 目录即可。

    接着下载文本编码模型:

https://huggingface.co/Kijai/llava-llama-3-8b-text-encoder-tokenizer

    这个模型基于 llama3-8b

    把这个模型放入 models/LLM 目录,目录结构如下:

E:\work\ComfyUI_windows_0.3\ComfyUI\models\LLM>treee
LLM
└── llava-llama-3-8b-text-encoder-tokenizer
├── config.json
├── generation_config.json
├── model-00001-of-00004.safetensors
├── model-00002-of-00004.safetensors
├── model-00003-of-00004.safetensors
├── model-00004-of-00004.safetensors
├── model.safetensors.index.json
├── special_tokens_map.json
├── tokenizer.json
└── tokenizer_config.json

E:\work\ComfyUI_windows_0.3\ComfyUI\models\LLM>

    最后,下载 clip 模型:

https://huggingface.co/openai/clip-vit-large-patch14

    注意,只下载model.safetensors模型和其他配置文件即可,其他格式的模型没有必要下载,随后放到models/clip目录,结构如下:

E:\work\ComfyUI_windows_0.3\ComfyUI\models\clip>treee
clip
└── clip-vit-large-patch14
├── config.json
├── merges.txt
├── model.safetensors
├── preprocessor_config.json
├── special_tokens_map.json
├── tokenizer.json
├── tokenizer_config.json
└── vocab.json

    至此,模型就下载好了,注意模型总体积加上环境大概30G左右,硬盘空间告急的朋友请三思。

    启动项目:

python3 main.py

    导入ComfyUI-HunyuanVideoWrapper目录里面examples的hyvideo_lowvram_blockswap_test.json工作流。

    笔者的设备是4060-laptop,显存只有8G,注意精度选择fp16用以节约显存,设备选择offload模式可以节约显存,但是大部分计算让cpu承担,速度会超级慢,2秒的视频需要半个小时才能生成,选择main_device模式速度会快不少,但是有概率爆显存:

    单以毛片的角度来评价,这个量化模型的性能还是有保证的。

    最后奉上一键整合包:

HunYuanVideo fp8 一键包 https://pan.quark.cn/s/ab875c722947
HunYuanVideo fp8 workflow https://pan.quark.cn/s/1ee93f104a66