この間新しいテストが出る度にOpenAIがやっぱり最強に戻るって書いたが、今度はOpenAIがテストデータを出してきた。
サイズは小さく範囲も限定的だが、論文を見るとやっぱり他のテストよりもかなり深く考えられているように見える。
LLMの評価はこうやってやるんだぞ、というわけか。
この間新しいテストが出る度にOpenAIがやっぱり最強に戻るって書いたが、今度はOpenAIがテストデータを出してきた。
サイズは小さく範囲も限定的だが、論文を見るとやっぱり他のテストよりもかなり深く考えられているように見える。
LLMの評価はこうやってやるんだぞ、というわけか。