損失を最小にする — 最適化という共通言語
ウォームアップ — 第1章の振り返り
問1 / 1
傾き w を動かして、原点を通る直線 ŷ = w x の損失(残差二乗和)を最小にしてください。
損失(残差二乗和) = 55.620
前のレッスンでは傾き を手で動かして損失を下げました。ここでは視点を変えます。損失そのものをパラメータの関数として描くと、機械学習の全体像が1枚の地形図になります。
パラメータ空間と損失の対応
損失を と書きます。横軸に 、縦軸に損失 を取ると、1本の谷型の曲線が現れます。データへの当てはめ問題が、この谷の底を探す問題に置き換わりました。
損失 L(w) = 108.500
橙の点をドラッグして、谷底に落としてみてください。谷底の が、前のレッスンで「自動最適化」が返したのと同じ最適パラメータです。
種明かし — 最適化がコース全体を貫く
このコースで出てくる手法は、扱う関数 と損失 の形こそ違え、やることは同じ形をしています。
- 回帰(第2章): は直線、 は残差二乗和
- 分類(第3章): はシグモイド、 は交差エントロピー
- ニューラルネット(第6・7章): は変換の合成、 は同じく交差エントロピーや二乗誤差
損失の谷が1つのきれいな椀なら、閉じた式で底が求まることもあります(第2章の正規方程式)。谷が複雑で式で解けないときは、坂を下って底を探す(第5章の勾配降下)。「解ける谷」と「下って探す谷」の違いが、このコースの2つの解法の分かれ道です。
パラメータが2つ以上になると、谷は平面や高次元空間に広がります。次章では と切片 の2つを軸に取り、損失を等高線で見る地形図を初めて描きます。
試してみよう
- 谷の左側と右側では、 を動かしたときの損失の増え方が同じですか(対称な放物線なので、底から等しく離れれば同じだけ増えます)
- パラメータが2つになったら、この谷型の曲線は何に変わるでしょう(2次元の椀。上から見ると等高線 = 次章)
操作チャレンジ
問1 / 3
損失関数 L(w) の曲線そのものを見ています。橙の点をドラッグして谷底(最小)に落としてください。
損失 L(w) = 108.500(パラメータ空間の谷底に橙の点を落とす)