新しい統計教育への取り組み

LISP-STATによるデータ解析入門


鎌 倉 稔 成(中央大学理工学部教授)



1.はじめに

 私は現在大学で、主として統計関係の授業を担当している。理工系の統計学は10年ぐらい前までは、確率をベースとした数理統計学が主流だったが、最近は実際のデータのハンドリングを行うデータ解析も教育するようになった。もちろん、数理統計学的なものの見方考え方は非常に重要で、そうした科目も残してあるのは言うまでもない。
 データ解析という授業を開設するにあたっての第一関門は、データ解析という言葉が必ずしもデータ重視の統計学ということを意味しないということだった。たまたま、データベースの授業を担当している先生から「データ解析」という同一の授業科目名が提案された。これは今日、統計学の領域に新しい考え方として入ってきたデータ・マイニングと深く関係している。いずれにせよ、計算機を用いた、実データによる統計解析という名前は長すぎるため、「データ解析」は統計の方でいただいた。以下、順を追ってデータ解析を教育の場でどのような統計教育ソフトウェアを用いて行っているかを記述していきたい。


2.統計教育のソフトウェアの選択にあたって

 実際のデータを用いた統計解析を行うためには、計算機という道具が必要になるが、その上で動かすことができるソフトウェアとして何を選択するかが問題となる。大学の計算機センターでは基本としてはUNIXが動いているので、UNIX上で稼働するソフトウェアでなければならない。以前、SASを使用したことがあるが、学生はある程度SAS言語というSASのプロシージャをコントロールする言語をマスターしなければならないなど、いくつかの問題点がある。
 学生の立場に立って、利用しやすい統計ソフトのいくつかの基準を箇条書きに記す。
  1. 探索的データ解析を行うことができるように、ヒストグラム、箱ひげ図、 散布図等が簡単に表示できる。
  2. 統計学でよく用いられる標準的な確率分布の乱数が生成できる。
  3. 3次元のプロットにおいて、空間的な特徴を捉えられるように3軸方向の回転ができる。
  4. 色を扱うことができる。
  5. データの入力が簡単である。
  6. 発展的な学習ができるように、プログラムが記述でき、かつ簡便である。
  7. あらゆるOS上で動かすことができる。
  8. 価格が安い。
  9. 学生の自宅でも解析を行うことができる。
  10. 発展的な学習ができるように、数値計算上重要と思われるユーティリティが豊富である。
 学生に計算機を用いたデータ解析を指導するときには、きれいにグラフが生成でき、しかも、簡便でかつ動きがあることが必要であるということをいう人がいるが、まさにその通りだということを私もまた体験した。電卓レベルでできることをそのまま計算機を用いた演習課題に用いても、学生の興味をひくことはできない。データ解析のツールとしてはダイナミックグラフィクスが扱えるというのが一つの重要な要件ではないかと考えられる。
 また、価格が安くOSを選ばないというのは、最近は自宅にパソコンを持っている学生が多く、自宅のパソコンで宿題をやったり、復習したいというケースが多くなっているからである。したがって、データ解析用のプログラムを無料で配布できれば一番よいのである。また、大学は管理上の問題から演習はUNIXを用いて行うことが多く、UNIXで稼働するということも重要である。
 以上のような観点からここ5年間ぐらいは統計教育としてLISP-STATを用いている。LISP-STATはLuke TierneyがXLISP上に1人で作りあげた統計解析用のプログラムで、ダイナミック・グラフィクスをサポートする統計関数を豊富に持っている。UNIX、LINUX、Windows、Macintosh OSなどの多くのOSで稼働し、また、ソースも公開されているので必要に応じて修正、コンパイルすることにより、たぶんほとんどのOS上で動かすことが可能なはずである。ポータビリティも高くWindows版、Mac版はいずれもフロッピイディスク1枚に圧縮して納められる。


3.LISP-STAT

 LISP-STATを用いての授業は概ね良好だが、いくつかの問題点もある。LISP-STATはインタープリタ型の言語なので、ディバッグに関してはエラーがあった場合にはすぐに反応があり修正しやすいが、基本的にはLISPなのでLISP言語をある程度知る必要がある。LISPはFORTRANと並ぶほど古い言語で言語構造が初学者にわかりにくいといった感想を耳にする。特にカッコが多く、このカッコを閉じる際のエラーがよく見受けられる。学生にはmuleの環境下で演習を行わせているので、右カッコと左カッコを照合してくれる機能を使ってなるべくそうした誤りがなくなるようにしているが、どうしてもカッコが多くなり、間違う場合も多いようである。
 LISP-STATはTierney(1990)に詳細に記述されているのでそれを参照いただきたい(日本語訳:垂水、鎌倉、林、奥村、1996年)。右上の図は、標準正規分布に従うデータを100個生成して、それに理論分布をあてはめた例。



図 正規分の乱数の生成とヒストグラム推定および理論分布


(def x (normal-rand 100))
(def g(histogram x))
(send g :add-function #'normal-dens -4 4 :color'red)


4.まとめ

 統計教育にどのように計算機を利用し、どのような統計ソフトウェアを用いているかということについて主として記述してきた。最近特に重要と感じていることは、計算機ソフトウェアの選択もさることながら、いかに学生が興味をひく例題としてのデータを提供できるかということである。たとえば、1996年に起こった米国スペースシャトルの爆発事故のOリングの破損データが公開されていたので、それを用いて2項分布における比率の検定を行ったところ、非常に学生の興味を引くことができた。簡単な統計解析で当時のNASAが見逃していた統計的事実(Oリングは温度劣化が激しい)が発見できるからである。したがって、文系を含む他分野で活用できるかは、その分野に応じた話題性のあるデータを提供できるかにかかっているのではないかと思われる。計算機を用いると教育レベルが上がるとは限らない。やはりいつでも計算機に載せる内容を精選することが重要だろう。

参考文献
Luke Tierney(垂水共之, 鎌倉稔成, 林篤裕, 奥村晴彦訳):
LISP-STAT, 共立出版社, 1996.


【目次へ戻る】 【バックナンバー 一覧へ戻る】