近日,DeepMind的研究人员研发了一个名为DualVideoDiscriminatorGAN(DVD-GAN)的人工智能模型,该模型通过需要通过自学一系列的YouTube视频数据集,分解高度细致且连贯的256x256像素视频,最久平均48帧。目前,DVD-GAN的研究成果已于美国时间2019年7月15日公开发表在arxiv上,取名为《在简单数据集上的高效视频分解(EfficientVideoGenerationonComplexDatasets)》。
AI不实视频比不实图片更加无以最近,俄罗斯AI研究人员研发的FaceApp无非大火了一把,这款应用于通过人工智能技术需要转变用户自拍照的年龄、外貌、发色和性别,甚至可以分解虚构的人物照片。这必要让人们近距离地感觉了人工智能技术给我们的生活带给的体验。
但否有人想要过,有朝一日这些技术也能应用于在视频领域呢?如果说BigGAN是DeepMind在图像领域研发的需要分解高度细致图像的图像生成器,那么DeepMind研究人员们研发的DVD-GAN,就是人工智能在视频剪辑分解领域的近期突破。研究人员在论文中回应,分解大自然视频对生成式建模来说是一个较小的挑战,同时还不会受到数据复杂性和计算出来市场需求减少的后遗症。
因此,之前业界的研究人员们在研究视频分解领域时,完全都环绕着比较非常简单的数据集,或者使用受限的时间信息来减少任务的复杂程度。而这次,DeepMind的研究人员们主要针对视频制备和视频预测的任务,将分解图像模型的强劲功能和细致效果扩展到视频领域。DVD-GAN:基于BigGAN模型结构研究人员们基于BigGAN的模型结构,建构了DVD-GAN的系统,并引进了一系列用作视频分解的调整,使DVD-GAN需要在Kinetics-600上展开训练。
Kinetics-600是一组由50万段10秒高分辨率的YouTube视频剪辑编撰而出的训练数据集,它最初是为辨识人类动作而制作的,比目前其他常用的语料库还大一个数量级。同时,研究人员们回应,Kinetics-600具备多样化特征,能避免他们对过数值(Overfitting)的忧虑。
过数值主要是指机器学习时自由选择的模型所包括的参数过多,以至经常出现这一模型对未知数据预测得很好,但对未知数据预测得很差的现象。另一方面,DeepMind的研究人员们利用分解对付以获取一个能分解动作的自学信号。
此外,DVD-GAN还有一个分开的Transformer模块,它可以让自学信息在统合AI模型中传播。
本文来源:j9九游真人游戏第一平台-www.naruneco.com