【A】6/6登場分（1報） - glassarxiv’s blog

arxiv記事の内容についてあれこれ書いている中でたまに他の論文を引用していることがあるのですが，そのリンク先が間違ってしまっていることが度々あるとご指摘いただきました．

それによって意味がわからないことになってしまっていましたらごめんなさい．

気づいたものは適宜修正しています．

深層学習を行う際には何らかのアーキテクチャを持つニューラルネットワークを用意して，トレーニングデータに対して適当な損失関数を最小化する形で学習を行う．

得られた学習済みネットワークがトレーニングデータとは異なるテストデータについても低い損失関数の値を実現するか，というのが汎化性能が高いか低いかという問題になる．

この論文ではこうした深層学習時に確率的勾配降下法を用いて損失関数の最小化を行った際の振る舞いについて調べている．

ネットワークのパラメータの数がデータの数に対して過剰に多いときは（おそらくこういう状況を扱うことが現実的には多いはず）損失関数の値を同程度にするパラメータの組というものが多数存在することになる．

経験的にはloss landscape（パラメータ空間を"横軸"にしてlossの値をplotしたような概念的なdiagram）の局所解周りの曲率がflatなほど汎化性能が高い傾向があることが知られていたらしい．

また，確率的勾配降下法はこうしたflatな解を効率よく探せる手法になっているらしい（？）

この論文では簡単な理論模型を作ってこうした振る舞いを説明している．

確率的勾配降下法は損失関数にeffective termを増やす効果を持ち，その項が解がflatになるほど小さくなるためflatな解に近づきやすい傾向を持つことが示せたらしい．

また，確率的勾配降下法ノイズの大きさが強いほどflatな解への収束時間が小さくなるがノイズを大きくし過ぎると収束しなくなる上限値が存在することも示せたらしい．

これは経験則にも整合している．

確率的勾配降下法で粒子配置を最適化してみたらmarginally-stableな相を見つけやすいということか？？

そうなると熱ゆらぎと確率的勾配降下法のノイズの性質の違いとは？という話になるが過去の論文で確率的勾配降下法のノイズとHessianの関係についての議論もあるらしいのでなにかヒントが得られるかもしれない．