目录

浪潮信息开源全球首个双重运动耦合视频数据集DropletVideo-10M 破解时空一致性难题

jyhpc 行业新闻625阅读模式

浪潮信息正式开源全球首个面向时空一致性视频生成的大规模训练数据集DropletVideo-10M,其包含1000万条精选视频片段(总时长20,400小时),并配套发布基于该数据集训练的高性能视频生成模型。该成果标志着AI视频生成在"动态物体+运动镜头"的双重耦合训练领域实现从0到1的突破,相关资源已通过Huggingface平台全面开放(开源项目地址:https://dropletx.github.io/)。

直击行业痛点:时空一致性难题

时空一致性是制约AI视频生成质量的核心瓶颈。传统模型在生成长视频时,常因帧间误差累积导致画面失真——例如飞驰的汽车光影与扬尘轨迹违反物理规律,最终生成内容不可用。现有解决方案多局限于单一维度(时间或空间),而DropletVideo-10M通过独创的"四阶段构建流程"(收集-分割-筛选-摘要),首次实现"物体运动+相机运动"双重动态数据的系统性整合。

三大技术革新定义行业新标准

1.双重运动耦合架构

数据集全部采用含复杂相机运动的视频片段,通过专业运镜标注(推拉/平移/变焦等)与物体运动轨迹的同步记录,为模型提供真实世界运动规律的多维映射。相较OpenVid-1M等静态镜头数据集,其时空一致性训练效率提升300%。

2.206词精细化语义摘要

突破传统数据集摘要不足20词的局限,DropletVideo-10M每条视频均标注平均206个单词的细节描述,明确包含:物体运动轨迹与速度变化、相机运动方向/速率及其引发的画面形变、镜头移动与场景元素的动态关联。

3.影视级数据品质控制

通过"美学评分(>3.5)+画质评分(>4.0)"双重筛选,95%视频达专业影像标准,78%片段具备影视级画质,显著降低低质数据导致的画面抖动与形变风险。

实测性能超越主流模型

基于该数据集训练的生成模型在持续时空一致性方面表现突出:

1.支持生成85帧896x896分辨率视频

2.运动强度控制模块属行业首创

3.在I2VGen-XL、Animate-any等模型对比测试中,长视频稳定性提升40%

典型案例如文本提示生成案例中,厨师切菜场景的镜头平移与红苹果入画过程实现像素级平滑过渡,边缘清晰度较同类模型提升60%。

开源生态赋能多行业应用

作为目前唯一完全公开自采集数据的大规模视频数据集,DropletVideo-10M已为影视特效、3D建模、动态场景生成等领域提供底层支持。浪潮信息AI算法研发负责人表示:"时空一致性的彻底解决仍需长期探索,但我们希望通过开源加速行业协同创新。"

技术白皮书:《DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation》已同步发布,开发者可通过Huggingface社区获取最新进展。

HTML5+CSS3 响应式设计,博客、杂志、图片、公司企业多种布局可选,集成SEO自定义功能,丰富的主题选项,众多实用小工具。