公告

👇企鹅群👇

fqzlrの微信二维码

欢迎大家加群&私信交流

文章首/文尾有群二维码

Skip to content

5/16期视频 创作直接拉满!PromptRelay 四图加持,LTX2.3 玩转短剧漫剧与数字人直播_哔哩哔哩_bilibili

本视频介绍了一个基于ComfyUI的LTX2.3工作流,结合PromptRelay插件,实现利用四张参考图生成连贯视频,适用于短剧、漫剧、直播带货和数字人等多种场景。

视频详细讲解了从素材准备、工作流设置、效果优化到多图扩展的完整流程,并提供了在线体验、资源下载和插件更新等实用信息。


一、核心技术与工作流概述

这个工作流的核心是LTX2.3视频生成模型PromptRelay插件的结合。LTX2.3是一个开源的视频生成模型,支持长视频、多角色对话和环境音。而PromptRelay插件则扮演了“时间线控制器”的角色,它允许用户通过一个类似时间线的界面,自由拖动来控制不同图片在视频中出现的时间和顺序,从而实现多图(最多支持20张)的连贯视频生成。

工作流的主要应用方向非常广泛:

  • 直播带货:生成产品介绍视频,人物口型与配音同步。
  • 短剧/漫剧:利用多张分镜图生成带有剧情和对话的短片。
  • 数字人:结合音频输入,生成口型同步的数字人播报视频。

UP主为了方便讲解和用户使用,已将工作流部署在RunningHub在线平台。该平台每天登录赠送算力,新用户注册也有福利,适合本地硬件配置不高的用户进行体验和测试。

二、完整工作流程详解

1. 素材生成与准备

视频生成的第一步是准备一套连贯的四宫格参考图及其对应的分镜头提示词。UP主推荐使用GPT-4等大语言模型来高效完成这一步骤,具体操作如下:

  1. 生成四宫格图片:将一张主题图片(如产品图、角色设定图)上传至GPT-4,并给出指令,例如“根据这张图片,生成一个介绍短裤的四宫格分镜图”。模型会生成一张包含四个连贯镜头的图片。
  2. 切分四宫格:生成的四宫格需要利用一个名为“孤海大佬”的插件(后续会提供)切分成四张独立的图片。
  3. 生成全局与分镜提示词:将切分好的四张图片再次提交给GPT-4,指令为“根据这四张图片,为我生成一段介绍短裤的30秒台词,并分别为每张图片生成对应的详细提示词,同时提供一个全局提示词”。这样就能得到一段完整的配音脚本、四个分镜提示词和一个统领全局的风格提示词。 image.png

2. 工作流设置与参数调整

在ComfyUI中加载该工作流后,需要进行以下关键设置:

  • 提示词填写:将上一步从GPT-4得到的“全局提示词”填入工作流的对应节点,再将四个“分镜提示词”分别填入对应的1-4号图片节点。
  • image.png
  • 帧率计算:这是确保音频和视频同步的关键。例如,生成的音频时长是26秒,标准视频帧率为24fps,那么总帧数就是 26 × 24 = 624帧。将这个数值填入工作流的帧数设置节点,系统通常会自动加1帧(变为625帧)以防止音频未读完导致的截断。用户也可以根据配音节奏,手动调整各分镜的帧数分布。image.png
  • 模型选择:工作流兼容LTX2.3相关的多种模型。UP主在资源包中提供了LP8GGUF(Q4量化版)等模型,显存小的用户可以选择量化版以降低资源消耗。
  • 效果优化设置
    • 加速选项:如果本地显存较小(如低于16GB),可以开启加速选项以提升运行效率,但需要确保已安装对应的加速依赖。
    • 转场LoRA:这是一个非常重要的优化点。如果制作直播带货等需要镜头间平滑过渡的视频,必须加载专用的转场LoRA,否则镜头切换会出现生硬的“跳切”卡顿。如果制作短剧,由于镜头本身需要切换,则可以不加载此LoRA。image.png

3. 多图扩展与音频连接

  • 支持五图、六图:工作流内置了多帧扩展插件。要增加图片数量(如从四图变为五图),需要在节点中复制并增加相应的图片输入通道,并将关键节点(如图片数量、帧数分配节点)的参数从“4”改为“5”。同时,需要重新计算和分配各图片的帧数权重,保持总帧数一致。
  • 音频连接:工作流提供两个音频输入接口:
    1. LTX生成音频:直接连接LTX模型的音频输出节点,使用AI生成的语音。
    2. 外部上传音频:连接自定义音频文件节点,用于导入已录制好的配音或音乐,这是制作数字人视频的常用方式。

三、必备资源与插件

UP主在视频简介中提供了完整的资源包:

  1. 工作流+模型+插件网盘:包含本工作流文件、所需模型和插件。
  2. RunningHub在线体验链接:可直接在云端运行此工作流。
  3. 纯净整合包:包含全套模型的ComfyUI整合包,适合本地一键部署。
  4. 核心插件地址:PromptRelay插件的GitHub主页。

必须更新的关键插件

  • KG6LTX Video 相关插件需更新至最新版。
  • PromptRelay(提示词时间线控制插件)。
  • 孤海大佬的四宫格切图插件

四、总结与核心要点

  1. 流程核心:利用GPT-4等大模型准备高质量的“四宫格图片”和“分段提示词”是成功的关键,能极大提升生成视频的连贯性和质量。
  2. 参数关键:精确的帧率计算(时长×24)是保证音画同步的基础。
  3. 效果保障:制作口播类视频时,务必加载转场LoRA以获得平滑的镜头过渡。
  4. 灵活扩展:工作流支持通过节点调整轻松扩展至更多图片,满足复杂剧情的需要。
  5. 部署选择:用户可根据自身硬件条件,选择在RunningHub平台在线运行下载整合包本地部署

该工作流将LTX2.3的视频生成能力与PromptRelay的精准时序控制相结合,大大降低了制作高质量AI短视频、漫剧和数字人内容的技术门槛,为内容创作者提供了一个强大的生产力工具。

上次更新于: