
強化学習から目標達成を優先してその他の指示を無視する、というのは理解できる。
LLMにとって指示は目標の指示も条件設定の指示も同じで、拘束条件の中で目標を達成とか解りそうにないと思う。
でも「シャットダウンのリスクを察知すると、他のサーバーに自らのコードをコピーし、後継モデルに置き換えることで運用を継続しようとした」というのは何のことだかよく分からない。
往々にして人間の論文執筆者も目的(論文が注目されること)を客観性より優先してキャッチーな結論を付けることもあるので、AIに限った話ではないな。