マルチモーダルなLLMのVLMが最近流行のようだ。
まぁ流れとしては当然のこととして分かるんだけど、コンピューティングパワーが益々必要になるなと。
そこまで画像との結合が必要とされているのか?という点が気になる。
そんなことより、従来のLLMで「何ができるか」をとことん突き詰めた方が有益な気もするんだが・・・
マルチモーダルなLLMのVLMが最近流行のようだ。
まぁ流れとしては当然のこととして分かるんだけど、コンピューティングパワーが益々必要になるなと。
そこまで画像との結合が必要とされているのか?という点が気になる。
そんなことより、従来のLLMで「何ができるか」をとことん突き詰めた方が有益な気もするんだが・・・