AI Toolkit LTX2 LoRA训练新手教程

Jan 14, 2026

下面给你一份AI Toolkit https://www.lvruan.com/app/569293 训练 LTX2 人物一致性 LoRA 的“能照抄”的教程(小白版),关键点都融进去了:数据集一一对应、batch、步数别省、保存频率、batch≥2 关 sampler、以及“怎么选最好的 checkpoint”。
ai-toolkit

1) 目标与结果

你训练出来的是一个 LoRA(.safetensors),用在 LTX2 的工作流里,让视频/图里的人物脸型、发型、气质更稳定(人物一致性)。


2) 数据集准备(成败关键)

2.1 你需要多少图?

  • 入门:30–60 张
  • 你字幕示例是 ~40 组左右,属于“能跑起来”的数量。

2.2 图片怎么选(别贪多,贪“覆盖面”)

尽量包含:

  • 正面、45°、侧面
  • 半身、全身
  • 不同表情、不同光线
    避免:
  • 严重磨皮滤镜、脸遮挡太多、糊、同角度重复

2.3 目录结构(必须一图一文,同名)

每张图片都要有一个同名 txt:

dataset/
  0001.jpg
  0001.txt
  0002.jpg
  0002.txt
  ...

图片文件名 = 文本文件名(只差后缀)。不一致会直接导致训练效果很差或等于白训。

2.4 文本(caption)怎么写(小白可用模板)

每个 txt 写 1 句,尽量描述“身份 + 关键外观 + 视角/场景”,例如:

  • a woman, long black hair, smiling, front view, indoor light
  • a woman, side view, standing, full body, outdoor

触发词(trigger word):字幕里作者说“可有可无”。小白建议:先别纠结 trigger,先把描述写清楚。


3) 在 AI Toolkit 创建训练 Job

  1. 打开 AI Toolkit(云端训练器)
  2. Create new job
  3. 选择与 LoRA / LTX2 对应的训练任务/模板
  4. 上传你的 dataset/ 数据集目录

云端训练的好处:省显存、省折腾;本地 24G 可能会紧张。


4) 参数怎么填(直接抄这套)

4.1 Batch(批次)

  • 推荐:Batch = 2
  • 资源很强可以到 4,但没必要一开始就冲。

4.2 训练步数 Steps(别省!)

字幕里作者强调:不要被“2000/3000 就够”带偏。

  • 起步能看到变化:2500–4000

    • 2500:脸型/发型开始明显
    • 3500:开始“像”
    • 4000:更像但可能还不够稳(尤其全身、转身)
  • 更稳的区间:6000–11000

    • 作者更满意的感觉在 1万左右(大致这个量级)

小白推荐:先设 8000 steps

4.3 保存间隔 Save every(一定要多存)

目的:你不确定哪一步最好,后面要“挑最像的 checkpoint”。

  • 推荐:每 250 或 500 steps 保存一次
  • 至少:每 1000 保存一次

4.4 Sampler/训练中采样:建议关!

字幕重点:batch ≥ 2 时,建议把 sampler 关掉
原因:训练中采样很容易吃显存、拖慢,甚至爆显存。

做法:训练时只训练,不采样;每隔一段步数把 checkpoint 拿出来,在 ComfyUI 或你熟悉的工作流里测试。

4.5 low VRAM 选项

字幕里作者提到 low vram 这种选项“默认会勾,但可以不勾/可去掉”。
小白建议:你不确定就先按默认;如果你发现速度太慢或资源足够,再尝试关掉。


5) 训练期间怎么验收(避免练歪)

5.1 固定测试条件(不然你看不出进步)

每次测试都尽量固定:

  • 同一段 prompt
  • 同一 seed(如果你工作流支持)
  • 同一分辨率

5.2 多久测一次?

字幕里作者建议:每 1000 steps 测一次(或者你 save 很频繁时,挑关键点测)。

5.3 测试分辨率

作者示例倾向直接用 1920×1080测,别靠放大“骗自己”。


6) 训练结束后怎么拿结果

  1. 到输出目录找到 LoRA 文件(.safetensors)

  2. 下载到本地

  3. 放进 ComfyUI 的 LoRA 目录(常见路径类似):

    • ComfyUI/models/loras/
  4. 在 LTX2 工作流中加载 LoRA,开始正式生成/对比


7) 常见问题排查(最实用)

A. “怎么都不像 / 训练没效果”

  • 90% 是:图片和 txt 没同名txt 没配齐
  • 其次是:数据太少、角度太单一(只会正脸像)

B. “正脸像,但全身/侧面崩”

  • 步数不够:把 steps 拉到 8000–11000
  • 数据缺角度:补侧面/全身/不同光线

C. “训练爆显存 / 很卡”

  • 关 sampler(尤其 batch≥2)
  • batch 降到 1 或 2
  • 必要时开启 low vram

D. “不知道选哪个 checkpoint”

  • 你 save 间隔设得足够密后:

    • 用同一测试条件对比 2500 / 3500 / 4000 / 6000 / 8000 / 10000
    • 选“在多个角度都稳定”的那一个,不要只看正脸。

给你一份“抄作业参数模板”

  • Batch:2
  • Steps:8000(不稳就 11000)
  • Save every:500(想更细就 250)
  • Sampler:Off
  • 测试频率:每 1000 steps 拿一个 checkpoint 测

clc