教育事例紹介 統計学

情報技術教育の中でのリアリティのあるデータを活用した統計教育


山口 和範(立教大学経営学部教授)


1.はじめに

 「統計学」またはそれに類する科目は、多くの学生にとって、語学や情報リテラシー教育と同じように、その専門の如何によらず、履修することが望まれています。そこには、二つの理由があるのではないでしょうか。各自の専門の学習やその後の研究において、統計の知識が必要になる点が一つ、また、すべての学生にとって社会生活を営むにあたり必要となる知識であるという点も、もう一つの大きな理由でないでしょうか。
 私自身が統計の専門家になる前に受けた20年以上前の教養教育での統計では、数理統計を中心とし、確率の概念や種々の統計量の標本分布の導出、推定や検定の基礎理論を学びました。古くから実証研究を重視する分野では、統計手法を正しく使いこなすための教育が行われてきました。ここでいう「正しく」には、正しく統計計算ができることが含まれており、統計量の正しい計算方法を学び、各自で電卓などにより計算を行うか、自分でコンピュータプログラムを作り計算をすることを視野に入れた教育でした。
 20世紀後半から急激に情報化が進展し、統計を取り巻く状況も大きく変化しました。パソコンの普及と同時に統計計算ができるソフトウェアも同時に普及し、統計分析を簡単に行える環境が整い、自宅でも統計分析が可能となったのです。単に可能となっただけでなく、大規模なデータであってもパソコンで取り扱うことができます。一方、インターネットの普及などもあり、情報の氾濫する時代となり、与えられた情報を批判的にみる力が必要とされています。
 このような状況の変化の中で、アメリカの統計教育の専門家からは、統計の専門家を育てる教育とは別に、統計のユーザーのための教育の必要性が数多く指摘されるようになりました(例えば、Utts(2003)参照[1])。特に、2005年のGAISE(Guidelines for Assessment and Instruction in Statistics Education)レポートでは、Statistical Thinkingのための教育の必要性が強調されています。実証研究において、データから結論を得るための考え方や、データに基づき正しい議論を行うための技量の養成が求められています。そこでは、データから種々の統計量の値を計算できることは重要視されていません。パソコンのソフトを道具として使えれば誰でも簡単に計算はできます。しかし、データから計算された数値や作成されたグラフを正しく推論のための道具として使いこなさなければ意味がありません。すなわち、統計を推論のための道具として役立たせる方法を身につけなければならないのです。そのためには、実際に数多くのデータ分析の事例に接することや、各自で分析体験を数多くこなすことが重要です。また、教科書に印刷物として掲載されているような洗練された小規模なデータの分析ではなく、実際の現場からの、さらには、学生が関心を持てるデータが教育のために必要となります。
 私自身が関わってきた学部学科で、2003年よりコンビニエンスストアのPOSデータを購入し、分析実習の題材としてきました。また、2006年からは、スポーツデータの導入も行いました。プロ野球やサッカーのJリーグの全試合のプレーが記録されているデータです。使用しているデータにおいては、手計算や電卓で済むような計算量ではないため、当然、コンピュータの使用が前提となります。コンピュータのコミュニケーションや検索ツールとしての使用だけでなく、分析を行い、データから情報を創り出すことを学生に認識してもらうことを意識した教育です。情報技術をマスターすることを目的とする一方、統計分析や統計リテラシー教育と関連付けた実習であり、本稿ではその実習事例を紹介したいと思います。


2.リアリティあるデータを活用した実践型統計教育の事例

 立教大学社会学部産業関係学科(2006年に改組され、現在の経営学部)では、1990年より情報関連の基礎科目を必修とし、そこでデータの収集から分析に至る過程をコンピュータの上で行う実習を実践してきました。その延長線上として、近年では、比較的大規模な実データの分析を含んだ演習を実践しています。ここでは、統計学と情報技術教育の接点としての事例として紹介します。

事例1:POSデータの利用
 現在の若者にとって、コンビニエンスストアは、非常に身近で誰もが利用し、また、欠かすことのできないものとなっています。一方、コンビニエンスストアが日本で設立され発展していく過程で、顧客の購買行動を記録した、いわゆる、POS(Point Of Sales)データが活用されてきました。この、POSデータの分析を統計の授業に取り入れることで、学生に親近感と、また、大規模データを分析する充実感を得られるのではないかと考え、2003年度より利用を開始しました。
 提供されるデータは、レシートデータと呼ばれるもので、レジでの一回のスキャンが1レコードとして記録されており、一枚のレシートには通しのレシート番号が振られています。データとしては、どの店で、何時何分に、何を、いくらで、いくつ、購入されたが記録されています。
 学生には学年に応じて提供するデータの規模を変えています。入学後の1年生を対象として実施している科目では、1万件程度のレコードとなるデータ規模を想定しています。これは、1万件程度のレコードであれば、表計算ソフトウェアでも処理が可能であるためです。この実習では、教員が指定した仮説の検証を行うためのグラフ作成や簡単な計算を行い、レポートを作成します。これを数回繰り返し、最後には、独自に検証すべき仮説を設定し、分析結果をまとめることを行います。もちろん、統計学の学習を終了する前または履修前の学生が多いため、仮説検証についての不十分さは残りますが、情報技術ツールの習熟を図りながら、学生が統計学を学ぶ意義を感じ取ることを期待しています。
 
事例2:スポーツデータの利用

 スポーツ競技において、競技結果の記録はその競技技術の向上を知る上で大変重要なことで、古くから数多くの資料が残されています。また、団体競技においては、あらゆる種目において、戦略の評価や個人の貢献を知るための資料整理が試みられています。野球において、打者の打率や投手の防御率などは、個人の成績を知るための尺度です。ある意味、スポーツにとって統計は欠かすことのできない重要な位置を占めていて、海外の統計関連の学会では、ほとんどといっていいほど、スポーツ統計のセクションが設けられています。また、野球においては、米国野球学会(SABR:The Society for American Baseball Research)があり、そこでは、野球の歴史、野球に関する経営などともに、野球に関する統計の研究セクションが設けられています。ここで開発された理論は、セイバーメトリクス(学会の頭文字を由来とする言葉:SABR metrics)と呼ばれています。アルバート・ベネット(2004)の書籍[2]は、その成果をまとめた代表作でもあります。
 また、昨年度シアトルで開催されたアメリカ統計協会を中心としたJoint Statistical Meeting 2006(JSM2006)でも、いくつかのスポーツ統計のセッションが設けられ、その中では、セントルイス・カージナルスのスカウト部門の担当者が、招待講演者として講演を行いました。データだけに頼るということでなく、これまでの経験や数多くの理論と、いかに客観的なデータを組み合わせて、選手を評価するかということが主題でした。このような統計の活用事例については、当然他分野での活用のための有効な示唆を含んでいることだけでなく、また、統計の学習や教育教材としての価値にも注目しなければならないでしょう。実は、JSM2006などでのスポーツ統計のセッションは、統計教育のセクションとのジョイントで開催されていることが多い。これは、統計を学ぶことの価値を学生に知らしめ、学習のためのモチベーション向上に、スポーツ統計が活用できることによるものと思われます。
 統計の分析用に利用しているデータは、日本のプロ野球の全試合(現在使用しているのは2005年度シーズン)のデータです。学生は、アルバート・ベネットでの分析事例を参考にしたり、または、独自の視点で新たな仮説を立て、その検証にトライしています。加工されていない生データを分析する必要があり、データベースの操作から統計分析、レポートやプレゼンテーション資料の作成まで、一連の情報技術教育がそこには含まれています。野球などのスポーツに関心がある学生にとっては、高いモチベーションの下での作業となり、ここで得た経験が他の分野での分析へつながることを期待しています。


3.まとめ

 ここでは、POSデータとスポーツデータを導入している事例を紹介しましたが、実際のデータの導入の際に問題なるのが、コストです。幸いにして、二つのデータを導入する際は、学部での予算措置が可能となりましたが、その継続性や大学全体での利用、ましては、他大学での利用などには制限があります。現在、統計教育のための教材の共同利用の検討を進めていますが、このデータ利用についての制限の問題は今後の大きな課題です。統計教育において、生データはその言葉どおり生きた教材です。様々な働きかけが重要であると思われますので、協会をはじめ皆様のご協力をお願いしたいと思います。

参考文献
[1] Utts, Jessica: What Educated Citizens Should Know about Statistics and Probability. American Statistician, 57(2), pp.74-79, 2003.
[2] J. アルバート、J. ベネット(後藤寿彦監修・加藤貴昭訳):メジャーリーグの数理科学(上・下).シュプリンガーフェアラーク東京,2004.

【目次へ戻る】 【バックナンバー 一覧へ戻る】