TECH BLOGTECH BLOG を配信します

今週の気になったAIニュース vol. 165

2024年12月09日

テクノエッジ TechnoEdge

数十億パラメータの巨大AI、“たった1つのパラメータ”を削除するだけで完全崩壊。Ap...

https://www.techno-edge.net/article/2024/12/02/3882.html

大規模言語モデル（LLM）の数十億のパラメータの中でたった1つのパラメータを削除するだけで、モデルのテキスト生成能力が完全に崩壊することを発見した論文「The Super Weight in Large Language Models」について解説します。

AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上が...

https://gigazine.net/news/20241126-ai-scaling-law/

AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなっている」と指摘する記事を公開しています。

AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、...

https://gigazine.net/news/20241128-alibaba-qwen-qwq-32b-preview/

Alibabaの大規模言語モデル「Qwen」の研究チームが、推論機能の向上に焦点を当てた実験的な研究モデル「QwQ-32B-Preview」を発表しました。研究チームは、QwQ-32B-Previewの推論能力はOpenAI o1に匹敵すると主張しています。

溜まってたので少し古いのも含む。

巨大LLMがたった1つのパラメータで崩壊するというの、逆に言うと同レイヤーはその1つ以外パラメータにその他の情報が分散されているってことだな。

CNNの画像認識では、チャンネル内に重複するパラメータが多くあり、その重複が重要という論文があったはず。

それと対照的で面白い。

LLMのスケーリング則に限界が来たという話は機械学習モデル全般で見ると、学習させればさせただけスケールしてきたTransformerモデルが例外的だっただけかなと。

以降はCNNのように、パラメータ効率だとか同一計算量での性能だとか、そうなって行くのかも。