登录    注册    忘记密码

详细信息

基于姿势控制的文本到视频生成技术综述    

文献类型:会议论文

中文题名:基于姿势控制的文本到视频生成技术综述

作者:张德亮;代松银;曾庆含;徐成

第一作者:张德亮

机构:[1]北京联合大学北京市信息服务工程重点实验室;[2]北京联合大学机器人学院脑与认知智能北京实验室;[3]中国人民解放军32178部队科技创新中心

第一机构:北京联合大学北京市信息服务工程重点实验室

会议论文集:中国计算机用户协会网络应用分会2024年第二十八届网络新技术与应用年会论文集

会议日期:20241121

会议地点:中国山东威海

语种:中文

中文关键词:文本到视频生成;姿势控制;扩散模型;条件图像合成;视频合成

摘要:生成可文本编辑和姿势可控的角色视频在创建各种数字人类方面,如虚拟主播、游戏角色和电影特效等,有着迫切的需求。然而,这项任务一直受到缺乏包含配对视频-姿势标题的综合数据集以及视频生成先验模型的限制。为了应对这些挑战,近年来涌现出许多新的方法和技术,主要集中在如何有效地利用预训练的文本到图像(T2I)模型和公开的数据集(例如图像-姿势对和无姿势视频)来实现高质量的姿势可控视频生成。文中全面概述了基于姿势控制的文本到视频生成技术的研究进展,包括其面临的挑战、主要方法、关键技术以及未来发展方向,并对相关文献进行了梳理和总结,以期为该领域的研究者提供参考。深入探讨不同方法的优缺点,并分析现有方法的技术路线,讨论时间一致性、细节保留和生成质量等问题,以激发更多创新性的研究,最终推动更逼真、更具表现力的数字角色创建。

参考文献:

正在载入数据...

版权所有©北京联合大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心