ChatGPTのライバル登場。
バブルソートと挿入ソートのアルゴリズムの両方を実装し、ランダムな整数5000個の並べ替えを10回行って、その平均時間を評価するコードをChatGPTとClaudeに記述させます
実行コードについては両者とも問題ありません。ただし、ChatGPTの評価は正しかったのに対して、Claudeは「5000個の整数が重複する可能性を考慮していない」というミスを犯していたとのこと。
いや、実行コードを正しく書けるだけでも凄くない?
この種のAIは正しく数字で性能を評価する手段が今のところないから、
作った人が「ほら優れているでしょ」って例を出すだけで、
公平に比較できているか、って問題はあるなぁ。