AI提示词收藏
经典论文解读
开源仓库推荐
🗿RapVerse:从文本歌词直接同步生成歌声和3D全身动作
type
status
slug
summary
tags
category
icon
password
Date
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
介绍网站:https://vis-www.cs.umass.edu/RapVerse/论文地址:https://arxiv.org/abs/2405.20336
RapVerse 是一个创新的多模态数据集和生成框架,旨在从文本歌词直接同步生成3D全身动作和歌声。
RapVerse 由大规模的数据集构成,包含高质量的同步说唱歌声、对应的歌词以及详细的3D全身人体网格。这一框架的特点是能够通过自回归多模态变换器,跨越语言、音频和动作三个模态,增强生成内容的一致性和现实感。
该框架虽然目前专注于说唱音乐的生成,但它提供了一个通用的方法论,可以适应不同的音乐风格和应用场景。RapVerse的数据集和生成系统为研究者提供了一个强大的工具,以探索和推动多模态内容生成的边界,特别是在虚拟表演、交互式游戏和提升虚拟化身真实感方面。
技术解读
RapVerse使用向量量化变分自编码器(VQ-VAE)将全身动作序列编码为离散的动作标记,并利用声音单元模型来获取保留内容、韵律信息和歌手身份的量化音频标记。
RapVerse 框架的核心优势在于其能够实现歌声和人体动作的无缝融合,生成真实感强且连贯的虚拟表演。这种联合生成的方法不仅提高了表现力和沟通的细腻度,还为虚拟角色的情感和意图传达提供了更为丰富和自然的方式。
RapVerse 的处理和生成过程包括以下几个关键步骤:
- 数据收集与预处理(Data Crawling and Preprocessing):
- 从互联网上收集大量的说唱歌曲及其对应的歌词。
- 使用Spotdl和Spotipy工具获取歌曲、歌词和元数据。
- 通过Spleeter工具分离歌曲中的歌声和背景音乐,确保数据集中的歌声清晰无伴奏。
- 声音和动作的分离与处理(Vocal and Motion Separation and Processing):
- 对收集到的歌声进行进一步的处理,包括响度标准化和时间对齐。
- 对于动作数据,使用YouTube上的工作室表演视频,通过半自动流程筛选出高质量的视频片段,并使用RAFT和YOLO等工具进行运动幅度评估和人体检测。
- 动作标记化(Motion Tokenization):
- 利用三个独立的向量量化变分自编码器(VQ-VAE)分别对头部、身体和手部的动作进行编码,生成离散的动作标记。
- 声音标记化(Vocal Tokenization):
- 使用预训练的Hubert编码器提取音频的语义信息,并将其量化为离散的单元。
- 通过YAAPT算法提取基频(F0),并使用VQ-VAE框架将其离散化。
- 采用歌手编码器提取与歌手相关的特征。
- 自回归建模(Auto-regressive Modeling):
- 采用T5-Tokenizer将歌词文本转换为标记,与声音和动作标记一起在统一的标记空间中进行建模。
- 使用基于解码器的Transformer架构的大规模文本-动作-音频基础模型,根据文本特征进行下一个标记预测任务。
- 多模态标记组织(Multimodality Tokens Organization):
- 将不同模态的标记以交错的方式组织,确保每个部分的时间步长对齐。
- 推理与解耦(Inference and Decoupling):
- 在推理阶段,使用不同的开始标记指定要生成的模态。
- 采用top-k算法控制生成内容的多样性。
- 预测后的标记通过解耦算法处理,确保不同模态的标记分离并时间对齐。
- 生成(Generation):
- 将离散的标记解码为与文本对齐的歌声和动作。
整个过程是一个高度集成的系统,它不仅涉及到数据的收集和处理,还包括了复杂的模型训练和生成步骤,最终实现了从文本到歌声和全身动作的同步生成。这一过程的关键在于多模态数据的有效整合和自回归模型的精确预测,使得生成的表演既自然又与输入的文本紧密相关。
论文解读
本文提出了一个名为RapVerse的框架,它能够从文本歌词直接生成连贯的歌声和全身动作。
以下是论文内容要点:
摘要(Abstract):
- 论文介绍了一个挑战性任务:同时生成3D全身动作和歌声,超越了通常分别处理这两种模态的方法。
- 首先收集了RapVerse数据集,包含同步的说唱歌声、歌词和高质量的3D全身网格。
- 使用RapVerse数据集,研究了扩展自回归多模态变换器在语言、音频和动作上的规模,以增强歌声和全身人体动作的一致性和现实感。
- 通过联合变换器建模,确保了歌声和人体动作的无缝和现实融合。
- 实验表明,该统一生成框架不仅从文本输入直接生成了连贯和现实的歌声和人体动作,而且与专门的单模态生成系统相媲美,为联合声音-动作生成设立了新的基准。
引言(Introduction):
- 在多模态内容生成领域,尽管在各个模态上取得了显著进展,但现有工作大多独立处理每个模态。
- 论文提出了一个统一的系统,可以更有效地联合生成声音和动作,以实现更富有表现力和细腻的沟通。
相关工作(Related Work):
- 论文回顾了文本到声音(Text-to-Vocal)、文本到动作(Text-to-Motion)和音频到动作(Audio-to-Motion)的现有研究和数据集。
RapVerse数据集(RapVerse Dataset):
- 介绍了RapVerse数据集的构成,包括Rap-Vocal子集和Rap-Motion子集,以及数据收集和处理的流程。
方法(Method):
- 论文提出了一个新颖的框架,将文本、声音和动作统一表示为标记形式,并在一个统一的模型中进行建模。
- 描述了运动VQ-VAE标记器和声音单元音频标记器的设计和训练过程。
- 介绍了通用自回归模型的架构和训练方法。
实验(Experiments):
- 论文评估了所提出的模型在联合声音和全身动作生成任务上的性能,并与现有的文本到声音和文本到动作的方法进行了比较。
结论(Conclusion):
- 论文总结了RapVerse框架的贡献,并指出了其在rap音乐生成上的局限性,同时提出了未来可能的研究方向。
限制和未来工作(Limitations and Future Works):
- 讨论了RapVerse数据集的局限性,以及如何将该方法应用于其他音乐风格和多表演者场景的可能性。
附录(Appendix):
- 提供了补充材料,包括网站演示、网络架构的附加细节、评估指标、额外的消融研究、附加的定性结果和对社会影响的讨论。
整体来看,这篇论文的主要贡献在于提出了一个能够从文本歌词生成歌声和全身动作的统一框架,并通过RapVerse数据集验证了该框架的有效性。