テデトクログイン

← コースに戻る

損失を最小にする — 最適化という共通言語

ウォームアップ — 第1章の振り返り

1 / 1

傾き w を動かして、原点を通る直線 ŷ = w x の損失(残差二乗和)を最小にしてください。

損失(残差二乗和) = 55.620

前のレッスンでは傾き ww を手で動かして損失を下げました。ここでは視点を変えます。損失そのものをパラメータの関数として描くと、機械学習の全体像が1枚の地形図になります。

パラメータ空間と損失の対応

損失を L(w)L(w) と書きます。横軸に ww、縦軸に損失 L(w)L(w) を取ると、1本の谷型の曲線が現れます。データへの当てはめ問題が、この谷の底を探す問題に置き換わりました。

損失 L(w) = 108.500

損失を w の関数として描くと1つの谷。最適化とは、この谷底を探すこと。橙の点を底へ落としてみてください。

橙の点をドラッグして、谷底に落としてみてください。谷底の ww が、前のレッスンで「自動最適化」が返したのと同じ最適パラメータです。

種明かし — 最適化がコース全体を貫く

このコースで出てくる手法は、扱う関数 fθf_\theta と損失 LL の形こそ違え、やることは同じ形をしています。

θ=argminθ L(θ)\theta^{*} = \arg\min_{\theta}\ L(\theta)

損失の谷が1つのきれいな椀なら、閉じた式で底が求まることもあります(第2章の正規方程式)。谷が複雑で式で解けないときは、坂を下って底を探す(第5章の勾配降下)。「解ける谷」と「下って探す谷」の違いが、このコースの2つの解法の分かれ道です。

パラメータが2つ以上になると、谷は平面や高次元空間に広がります。次章では ww と切片 bb の2つを軸に取り、損失を等高線で見る地形図を初めて描きます。

試してみよう

操作チャレンジ

1 / 3

損失関数 L(w) の曲線そのものを見ています。橙の点をドラッグして谷底(最小)に落としてください。

損失 L(w) = 108.500(パラメータ空間の谷底に橙の点を落とす)