对模型输入输出的疑问

作者您好，您的这篇工作输入的时候需要参考视频，提取2D skeletons，经过多个模块最后生成同样动作的视频，那已经有参考视频了为什么还需要生成对应的视频呢？还是说动作相同但是背景不同，增加数据多样性？