智东西8月6日报导,好消息,智谱AI的视频生成模型CogVideoX-2B,昨夜正式开源了。
CogVideoX系列开源模型与智谱AI的商业版视频生成模型“清影”同源。2B版别首发后,功用更强、参数量更大的开源模型将在后续上架。
依据论文,CogVideoX在雷达图中比其他几个视频生成模型更大,特点值趋近六边形。
为了评价文生视频的质量,智谱AI运用了VBench中的多个目标,如人类动作、场景、动态程度等;还运用了两个额定的视频评价东西:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些东西专心于视频的动态特性。从下表可见,CogVideoX在多个目标的得分抢先。
CogVideoX选用3D VAE和专家Transformer架构来生成连接长视频,经过自研视频了解模型构建了一个具有文本描绘的相对高质量的视频片段调集。
视频数据因包含空间和时刻信息,其数据量和核算担负远超图画数据。智谱AI提出了根据3D变分自编码器(3D VAE)的视频紧缩办法,经过三维卷积一起紧缩视频的空间和时刻维度,完成了更高的紧缩率和更好的重建质量。
模型结构包含编码器、解码器、潜在空间正则化器,经过四个阶段的下采样和上采样完成紧缩。时刻因果卷积保证了信息的因果性,减少了通讯开支,上下文并行技能能更好习惯大规模视频处理。
试验中,智谱AI发现大分辨率编码易于泛化,添加帧数则应战较大,因而模型练习分两个阶段:先在较低帧率和小批量上练习,后经过上下文并行在更高帧率上微调。练习丢失函数结合了L2丢失、LPIPS感知丢失和3D判别器的GAN丢失。
智谱AI运用VAE的编码器将视频紧缩至潜在空间,然后将潜在空间切割成块并打开生长的序列嵌入z_vision,一起运用T5,将文本输入编码为文本嵌入z_text,再将z_text和z_vision沿序列维度拼接,拼接后的嵌入被送入专家Transformer块仓库中处理,终究反向拼接嵌入来康复原始潜在空间形状,并运用VAE进行解码以重建视频。
练习数据方面,智谱AI开发了负面标签来辨认和扫除低质量视频,经过video-llama练习的过滤器标示并挑选了20000个视频数据样本;一起,核算光流和美学分数,动态调整阈值,保证生成视频的质量。
针对缺少视频字幕数据的问题,智谱AI提出了一种从图画字幕生成视频字幕的管道,并微调端到端的视频字幕模型以取得更密布的字幕。这种办法经过Panda70M模型生成简略字幕,用CogView3模型生成密布图画字幕,然后用GPT-4模型总结生成终究的短视频。
该团队还微调了一个根据CogVLM2-Video和Llama 3的CogVLM2-Caption模型,运用密布字幕数据来进行练习,以加快视频字幕生成进程。
智谱AI团队仍在尽力完善CogVideoX捕捉杂乱动态的才能,探求新式模型架构、更高效地紧缩视频信息、更充分地交融文本和视频内容,以继续探究视频生成模型的scaling law,旨在练习出更大更强的模型,来生成更长、更高质量的视频。
现在视频生成模型及使用正渐渐的变多,技能也逐步老练,但此前还没有一个开源的视频生成模型可以很好的满意商业级使用的要求。咱们等待更多视频生成模型走向开源,推进更多开发者及公司参加开发视频生成模型及使用,并为环绕视频生成的各种技能优化和功用开发做奉献。