
AIがReadmeを読んで環境構築するとか超便利そう。
ただ何も考えずに実行して、いろいろ破壊されるかもしれない。
モデル窃盗攻撃・学習データとかそう言うのではなくて、LLMのモデルの重みパラメーターを直接取ってくるものらしい。
具体的には、文章出力するときの次の単語の確率(logits)を全クラス分取ってきてそこからLMMの中身を推測するらしい。
次の単語の確率はlogitsのbiasをAPIから指定できることを利用して推測するとな。
これはLLMの学習の逆伝播をAPIの出力から行うことと等価で、事実上APIの出力をそのまま学習させるって事じゃないか?
しかも学習データ1個の入手に何千回もAPI呼び出す必要があると。
たしかに原理的にはできるかもだけど、めちゃくちゃコストフルな手法なのであまり実用的ではなさそう。