CPUを使ってGPUより7倍高速な学習が可能とな。
今週は↑の論文を読んでみた。
最初は半信半疑だったものの、読んでみると思ったよりしっかりとした話らしい。
最近の研究における、超大規模モデルにおいてはニューロンの一部のみが活性化しているという報告と、最新IntelCPUの疎な確率論的ハッシュマップを使ったスパースベクトル演算命令を組み合わせて、ごく一部のニューロンのみに対して勾配降下法を適用させる、と。
Adamアルゴリズムが適応出来るというので、ホントなら怪しい話じゃ無く、実応用がすぐ近くにある技術。
NN内のパラメーター全部じゃなくて、活性化している一部のみ学習させる、というアイデアはすごく良さそうに見えるが詳細は追えていない。
これは、しばらく時間かけて追いかけてみよう。