損失を最小にする — 最適化という共通言語

ウォームアップ — 第1章の振り返り

問1 / 1

傾き w を動かして、原点を通る直線 ŷ = w x の損失(残差二乗和)を最小にしてください。

傾き w1.00

損失(残差二乗和) = 55.620

前のレッスンでは傾き $w$ を手で動かして損失を下げました。ここでは視点を変えます。損失そのものをパラメータの関数として描くと、機械学習の全体像が1枚の地形図になります。

パラメータ空間と損失の対応

損失を $L(w)$ と書きます。横軸に $w$ 、縦軸に損失 $L(w)$ を取ると、1本の谷型の曲線が現れます。データへの当てはめ問題が、この谷の底を探す問題に置き換わりました。

パラメータ w0.60

損失 L(w) = 108.500

損失を w の関数として描くと1つの谷。最適化とは、この谷底を探すこと。橙の点を底へ落としてみてください。

橙の点をドラッグして、谷底に落としてみてください。谷底の $w$ が、前のレッスンで「自動最適化」が返したのと同じ最適パラメータです。

このコースで出てくる手法は、扱う関数 $f_\theta$ と損失 $L$ の形こそ違え、やることは同じ形をしています。

\theta^{*} = \arg\min_{\theta}\ L(\theta)

損失の谷が1つのきれいな椀なら、閉じた式で底が求まることもあります(第2章の正規方程式)。谷が複雑で式で解けないときは、坂を下って底を探す(第5章の勾配降下)。「解ける谷」と「下って探す谷」の違いが、このコースの2つの解法の分かれ道です。

パラメータが2つ以上になると、谷は平面や高次元空間に広がります。次章では $w$ と切片 $b$ の2つを軸に取り、損失を等高線で見る地形図を初めて描きます。

問1 / 3

損失関数 L(w) の曲線そのものを見ています。橙の点をドラッグして谷底(最小)に落としてください。

パラメータ w0.60

損失 L(w) = 108.500(パラメータ空間の谷底に橙の点を落とす)