
溜まってたので少し古いのも含む。
巨大LLMがたった1つのパラメータで崩壊するというの、逆に言うと同レイヤーはその1つ以外パラメータにその他の情報が分散されているってことだな。
CNNの画像認識では、チャンネル内に重複するパラメータが多くあり、その重複が重要という論文があったはず。
それと対照的で面白い。
LLMのスケーリング則に限界が来たという話は機械学習モデル全般で見ると、学習させればさせただけスケールしてきたTransformerモデルが例外的だっただけかなと。
以降はCNNのように、パラメータ効率だとか同一計算量での性能だとか、そうなって行くのかも。