LTX-2一致性：t2v + LoRA更强，但场景依然是问题

在 LTX-2 的实际使用中，一个比较稳定的结论是：t2v（文生视频）搭配角色 LoRA 生成的视频，人物一致性通常比 i2v（图生视频）更强。即使 i2v 有参考图，人物在连续帧里的脸型、五官比例、发型细节、服装纹理等也更容易漂移；而 t2v + LoRA 往往能把角色特征“锁得更牢”。

不过这里也有个现实问题：t2v 很难保证场景的一致性。同样的 prompt，镜头里的房间布局、背景物件位置、墙面细节、灯具造型，甚至整体空间结构，都可能在不同生成里发生变化。于是就会出现一个很典型的矛盾：

问题：用“场景 LoRA”能否解决 t2v 场景一致性？

答案是：能改善，但很难做到“完全锁死”，而且要看你对“一致性”的定义。

场景 LoRA 更擅长稳定的是这类东西：

简单说：它更像是把模型引导到一个“场景分布”，让每次生成更像同一个地方。

如果你要的是下面这种“硬一致”：

那场景 LoRA 通常不够。因为 LoRA 本质是偏好/风格/特征注入，并不是一个精确的“3D 场景锁定器”。t2v 生成时仍会在细节上随机采样，导致“像同一种房间，但不是同一个房间”。

✅ 场景 LoRA 非常值得用
它能把“每次生成的场景”拉到同一类视觉世界里，显著降低随机漂移。

更可靠的路线一般是组合拳：

换句话说：
t2v + 角色 LoRA 解决“人”，
i2v/参考图 解决“景”。

能“部分代替”，但很难完全代替。原因很简单：

不过，如果你的目标不是“完全同一场景复用”，而是“看起来像同一个场景”，t2v 是可以把 i2v 的很多工作吃掉的。

你要的是下面这种一致性，t2v 够用甚至更省事：

做到这一点，t2v 的关键是：把“场景”写成一个可重复的模板，并尽量压缩自由度。

固定镜头语言（最重要）
- “static tripod, medium shot, same framing, no camera movement, no zoom, centered composition”
用“场景锚点”写死关键元素（3–6 个就够，多了反而乱）
- 例如：a beige sofa on the left, a floor lamp on the right, a large window behind, white wall, wooden floor
场景 LoRA/风格 LoRA（提升“像同一个地方”的概率）
- 但我得直说：它更像“统一装修风格”，不是“锁死房间几何”。

只要你需要下面这种“硬一致”，i2v 仍然更靠谱：

t2v 在这些地方会因为随机采样导致“差一点点但很致命”的漂移：墙上的画变了、灯位置变了、窗户形状变了——观众一眼就觉得不是同一个地方。