Phenaki 是一种 AI 模型,可直接从文本生成长达数分钟的视频。您还可以从静止图像和提示生成视频。所提出的视频编码器-解码器在时空质量和每个视频的标记数量方面优于目前文献中使用的所有每帧基线。为了从文本生成视频令牌,他们使用以预先计算的文本令牌为条件的双向屏蔽转换器。生成的视频令牌随后被去标记化以创建实际视频。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
Phenaki 是一种 AI 模型,可直接从文本生成长达数分钟的视频。您还可以从静止图像和提示生成视频。所提出的视频编码器-解码器在时空质量和每个视频的标记数量方面优于目前文献中使用的所有每帧基线。为了从文本生成视频令牌,他们使用以预先计算的文本令牌为条件的双向屏蔽转换器。生成的视频令牌随后被去标记化以创建实际视频。
暂无评论内容