Skip to main content
 

TECH BLOGTECH BLOG を配信します

今週の気になったAIニュース vol. 165

溜まってたので少し古いのも含む。

巨大LLMがたった1つのパラメータで崩壊するというの、逆に言うと同レイヤーはその1つ以外パラメータにその他の情報が分散されているってことだな。

CNNの画像認識では、チャンネル内に重複するパラメータが多くあり、その重複が重要という論文があったはず。

それと対照的で面白い。

LLMのスケーリング則に限界が来たという話は機械学習モデル全般で見ると、学習させればさせただけスケールしてきたTransformerモデルが例外的だっただけかなと。

以降はCNNのように、パラメータ効率だとか同一計算量での性能だとか、そうなって行くのかも。