
逆転裁判でAIの性能を把握する試み、LLaMa4ってこんなに低かったの。
ゲームというのは人間が楽しむために作られているので、それを対話的にプレイする能力というのはAI評価軸として面白い試みかもしれない。
人間なら普通こう考えてひっかかるよね、というトラップに対して、「人間と同じようにひっかかる」AIが正しいのか、「人間では気づけない事柄に気づいて判断する」AIが正しいのか・・・。
逆転裁判でAIの性能を把握する試み、LLaMa4ってこんなに低かったの。
ゲームというのは人間が楽しむために作られているので、それを対話的にプレイする能力というのはAI評価軸として面白い試みかもしれない。
人間なら普通こう考えてひっかかるよね、というトラップに対して、「人間と同じようにひっかかる」AIが正しいのか、「人間では気づけない事柄に気づいて判断する」AIが正しいのか・・・。