Imagen | AIWindVane

これまでにない程度のフォトリアリズムと深いレベルの言語理解を備えたテキストから画像への拡散モデルである Imagen を紹介します。
Imagen は、テキストを理解する上で大規模なトランスフォーマー言語モデルの力に基づいて構築され、忠実度の高い画像生成における拡散モデルの強みに依存します。
私たちの重要な発見は、テキストのみのコーパスで事前トレーニングされた一般的な大規模言語モデル (T5 など) が、画像合成用のテキストのエンコードに驚くほど効果的であることです。Imagen で言語モデルのサイズを大きくすると、サンプルの忠実度と画像とテキストの配置の両方が大幅に向上します。画像拡散モデルのサイズを大きくするだけではありません。
Imagen は、COCO のトレーニングをまったく行わなくても、COCO データセットで 7.27 という新しい最先端の FID スコアを達成し、人間の評価者は Imagen サンプルが画像とテキストの配置において COCO データ自体と同等であることを発見しました。
テキストから画像へのモデルをより深く評価するために、テキストから画像へのモデルの包括的で挑戦的なベンチマークである DrawBench を紹介します。
DrawBench を使用して、Imagen を VQ-GAN+CLIP、Latent Diffusion Models、DALL-E 2 などの最近の方法と比較し、人間の評価者が他のモデルよりも Imagen を好むことがわかりました。および画像とテキストの配置。