りおパパの日記

徒然なるままに。ドトールのコーヒーが好きです。

My fitness Report 100810

多変量解析セミナー2日目。今日は午前中、主成分分析とクラスター分析。午後は判別分析でした。統数研はセミナーのターゲッティングができていない印象。今日も、平均や分散の説明から懇切丁寧にやったかと思うと、固有方程式については「線形代数の教科書を見てください」というコメントで終わり。資料もあまり丁寧な作りでなく、ベクトルなのかスカラーなのかが良くわからない。でも、資料は数式だらけ。平均や分散がわからない初心者を相手にするのなら、資料は事例中心で見方を教えるべきだし、資料がこれだけ数式だらけなら、もう少しベクトルの内積の話や、ラグランジュの未定乗数法なんかもせめて言葉くらいは説明したらいいのに。ラグランジュなんて言葉も出てこなくて、でもこれ知らないと多変量解析ってできるのかなと思ってしまいます。しかも、ちゃんと式は出ている。突然λなんか出てきて、まじめに式を追っていたら、普通つまずくだろうと思いますが・・・少なくとも、今日の説明なら自分がやった方が良いくらいな印象。線形代数をいちから説明するのは大変だろうから、やっぱり事例を中心にして、でも固有値とか固有ベクトルとか、主成分負荷量みたいなものはきっちり抑えた方が良いように思いました。せめて、大学の一般教養の線形代数微積分は必須にしておいた方がいいですね。今日も気合いの入った女性が、あまりに基礎的な線形代数の質問をするので、そういうのは時間外にやってもらいたいなと、非常に思いました。そういう意味で、午前中の主成分分析とクラスター分析はあまり収穫は無かったですが、唯一、非階層的クラスター分析のK-meansが判ったのは収穫でした。
午後の判別分析は、基本的には午前中と同様でしたが、もう少し式の展開が丁寧だったので、理解が進みました。特にFisherの線形判別を復習した後、確率モデルに基づく判別として、多変量正規モデルによる線形判別と2次判別への拡張は非常に流れとして理解しやすかったです。というか、判別分析はあまり使うことがなかったので、Fisherの線形判別は理解していたつもりでも、前提条件を抑えていませんでした。こういうのが危ないですね。確率モデルの説明では、「ベイズルールは、全ての判別ルールの中で、誤判別確率が最小となる」らしいのですが、この証明が、積分がなんちゃらという理由で省略されてしまったのは残念。どこかできちんとフォローしたいと思いました。当然ここで、マハラノビス距離の説明があるわけですが、これはスマートで判りやすかったです。大変勉強になりました。そして、最後はロジスティック判別への拡張。多変量正規モデルとの関係において、対数オッズが特徴量Xの線形結合で現されるところが同じで、ロジスティック回帰モデルでは、分布p(x|y)には正規分布の仮定をおかずに、対数オッズが特徴量になるような分布全てを許容しているというとこが、良かったですね。確かに、こういうところは重回帰と似ています。あと、パラメータ推計。確かSAS逐次的再重み付き最小二乗法だと聞いていたのですが、あまり意識して調べたことは無く実は放っておいた訳ですが、これは最尤法を解くときの数値的最適化法でニュートン・ラフソン法の事だったんですね。ちょっとスッキリしました。文句はいろいろありますが、確かに勉強にはなっています。
夕方、5時過ぎに帰宅。早めの夕ご飯を食べてスポレッシュへ。今日はランニング40分の後、ストレッチをして筋トレ。再度ランニング45分。合わせて、12.5kmほど走り込みました。あ〜疲れた。明日も頑張ります。
[DATA]
本日の走行距離 12.5km(run)
1月からの走行距離 305.7km(run)