
DeepSeek-R1の検閲部分だけ再学習させてきちんと答えるモデルを作ったと。
まぁ元々知識として知っているAIに言っちゃいけないことを覚えさせたモデルのようだったからそれも可能なのだろう。
教師データの段階から検閲しているわけではなさげだしね。
そしてSakana AIよ・・・なんとも叩かれてるなぁ。
DeepSeek-R1の検閲部分だけ再学習させてきちんと答えるモデルを作ったと。
まぁ元々知識として知っているAIに言っちゃいけないことを覚えさせたモデルのようだったからそれも可能なのだろう。
教師データの段階から検閲しているわけではなさげだしね。
そしてSakana AIよ・・・なんとも叩かれてるなぁ。