
GPT-o1登場。
新しいモデルというよりもプロンプトエンジニアリングのテクニックやマルチエージェントを駆使して推論の性能を向上させたものに見える。
従来の4oにプロンプトエンジニアリングマシマシでやったのとの比較や既存プロンプトエンジニアリングの技術をさらにo1上で使えるのかなど興味がある。
新しいLLM性能測定データセット登場。
ここのところの流れが「GPT-4o超えを主張するモデル登場→新しい性能測定データセット登場→やっぱりGPT-4oが最高だったとなる」だったので、新LLMの性能を見るにはLLMのリリースよりデータセットの方を追いかけていた方が良い。
それを追いかけるとやっぱりOpenAIがさすがだなぁとなる。