Google发表两款文字转影片工具Imagen Video与Phenaki
不让Meta的Make-A-Video专美於前,Google也在本周发表两款文字转影片工具,分别是强调影片品质的Imagen Video,以及主打影片长度的Phenaki。
其中,Imagen Video奠基於Google的Imagen文字生成图像人工智慧系统上,采用串连扩散模型(Cascaded Diffusion Models,CDM)来产生高解析度的影片。先透过自然语言处理预训练模型T5嵌入使用者所输入的文字後,由一个基本的影片扩散模型以每秒3帧的速度产生一个解度析为24×48的16帧影像,之後再利用多个Temporal Super-Resolution(TSR)与Spatial Super-Resolution (SSR)模型,最终产生每秒24帧,总长128帧且解析度高达1280×768的5.3秒影片。
Google是以公开的LAION-400M图像/文字资料集,以及6,000万笔图像与文字的配对,再加上1,400万笔影像与文字的配对来训练Imagen Video,并宣称Imagen Video可用来创造类似梵谷(Van Gogh)水彩画风的影片。
至於Phenaki则可用来建立总长多达数分钟的影片,只是影像品质不若Imagen Video。Phenaki可将一段具备一定长度的提示文字变成任意长度的影片,或许只是一段一直骑着摩托车的影像,或者是有一头狮子奔驰在长型的办公桌上,最後却穿上了西装办公。令人惊喜的是,Phenaki所呈现的影片非常贴近文字描述,而且Google认为它不仅可用来产生描述单个概念的影片,还能可根据一系列的文字,产生有连贯性的多个影片。
图片来源/Google
由於图像资料集的数量远大於影片,使得不管是Imagen Video或Phenaki都同时利用影片与图像进行训练,并发现它的确对产出的品质与多样性都有所助益。
有监於用来训练Imagen Video的资料中可能含有许多不适当的内容,因此Google目前并不打算释出或开源该模型。