作者您好,您的这篇工作输入的时候需要参考视频,提取2D skeletons,经过多个模块最后生成同样动作的视频,那已经有参考视频了为什么还需要生成对应的视频呢?还是说动作相同但是背景不同,增加数据多样性?