
GoogleがImagen、DeepMindがGatoと、立て続けに凄いのでてきた。
技術的には何かのブレイクスルーを超えたのかも知れない。
この手のマルチモーダルAIでは、
大規模言語モデルに拡散画像モデルを組み合わせるのが現在のトレンド。
しかし、大規模言語モデルも拡散画像モデルも、
めちゃくちゃコストのかかるモデルなのだよ・・・。
TPUの一般利用時間で換算して、
ざっと学習だけで数1000万円はかかっているだろう、という規模のモデル。
もちろん自社リソースを使っているんだろうけど。
自分なんかはモデルが公開されたら、
画像拡散モデルの部分だけ取り出して別のことに使ってやろうとか不埒な事を考えてるんだけど、
そういった事が可能なだけに、モデルそのものは当分公開されないだろうなー。