
僅かなトレーニングで生成AIの「性格」が闇堕ちしてしまうと言う研究。
以前の内容があるのでその結果自体は意外ではないけど、AIの性格に重要な影響を与えるLLM内の要素を特定したというのは、かなり面白い発展に繋がるかもしれない。
今のところ、AIにキャラクターを演じさせるには、インコンテキストラーニングにせよファインチューニングにせよ限界があって、
CoTで入力するキャラクターの発言がそのままリピート出力されてしまったりする。
それを改善出来るなら、パーソナライズAIの実現に向けた大きなステップかもしれない。
画像生成の方でも重要なレイヤーを見つける技術が出たと言うことで、AIのブラックボックスを紐解いてゆく試みが進んでいる。