
Transformerが5倍高速になったというニュースが出た。
実はTransformerの計算量はO(N^2)なのだが、これをO(N)にしたという技術としてTransformers are RNNs(https://arxiv.org/abs/2006.16236)というのが既にある。
ニュース記事を書いた人の理解度の問題なんだろうけど、言語・音声・ゲノム解析などで使えるとあっても、文章生成に使えるとは書いてないので、ChatGPTを引き合いに出すのはミスリードの可能性あり。
実はベイズ最適化の改善が一番大きなニュースかも。
様々なニューラルネットワークの学習において、ハイパーパラメーターの最適化によく使われるのがベイズ最適化なので、ここが良くなるのはかなり大きいはず。
optunaに実装されるのはまだかなー