详细信息

基于姿势控制的文本到视频生成技术综述

文献类型：会议论文

中文题名：基于姿势控制的文本到视频生成技术综述

作者：张德亮;代松银;曾庆含;徐成

第一作者：张德亮

机构：[1]北京联合大学北京市信息服务工程重点实验室;[2]北京联合大学机器人学院脑与认知智能北京实验室;[3]中国人民解放军32178部队科技创新中心

第一机构：北京联合大学北京市信息服务工程重点实验室

会议论文集：中国计算机用户协会网络应用分会2024年第二十八届网络新技术与应用年会论文集

会议日期：20241121

会议地点：中国山东威海

语种：中文

中文关键词：文本到视频生成;姿势控制;扩散模型;条件图像合成;视频合成

摘要：生成可文本编辑和姿势可控的角色视频在创建各种数字人类方面,如虚拟主播、游戏角色和电影特效等,有着迫切的需求。然而,这项任务一直受到缺乏包含配对视频-姿势标题的综合数据集以及视频生成先验模型的限制。为了应对这些挑战,近年来涌现出许多新的方法和技术,主要集中在如何有效地利用预训练的文本到图像(T2I)模型和公开的数据集(例如图像-姿势对和无姿势视频)来实现高质量的姿势可控视频生成。文中全面概述了基于姿势控制的文本到视频生成技术的研究进展,包括其面临的挑战、主要方法、关键技术以及未来发展方向,并对相关文献进行了梳理和总结,以期为该领域的研究者提供参考。深入探讨不同方法的优缺点,并分析现有方法的技术路线,讨论时间一致性、细节保留和生成质量等问题,以激发更多创新性的研究,最终推动更逼真、更具表现力的数字角色创建。

参考文献：

正在载入数据...

北京联合大学机构知识库

详细信息

基于姿势控制的文本到视频生成技术综述

参考文献：