文化情報研究 (その2)
准教授・石田 基広
2単位
目的
テキストマイニング入門
概要
従来,人文科学分野では,小説や資料などのテキストを人間が読んでまとめて,その結果を文章として書くことが研究と考えられてきた.しかし,そのような作業の結果は,必然的に主観に大きく左右されており,第三者をせっtくさせることが難しい.要するに,単なる感想,個人的印象の域を出ることがない.これに対して,最近,テキストマイニングとよばれるデータ分析技法が注目を集めている.これは,たとえばインターネット上に散乱する大量のブログやホームページから自動的に情報を収集し,いま何がどうして注目されているのかをコンピュータに分析させる技法である.本演習ではテキスト研究にコンピュータを導入し,完全に客観的な研究手法として注目されているテキストマイニングを学んでいく.前期は,そのために必要となるデータマイニングを基礎から学んでいく
キーワード
統計学,統計教育,データマイニング
注意
私のホームページ上で予習復習用のページを開設予定である
目標
1. | データを計量化する技法と,初歩的な統計解析を身につける |
計画
1. | オリエンテーション |
2. | 日本語テキストを計量化するとは |
3. | 日本語テキストの性質 |
4. | 日本語キストの統計量 |
5. | 日本語テキストの分布 |
6. | 日本語テキストの基本統計量 |
7. | 日本語テキストの分解 |
8. | 日本語形態素解析 |
9. | 日本語テキストデータから得られた情報についての検定 |
10. | 具体的なテキストマイニング実践 その1 |
11. | 具体的なテキストマイニング実践 その2 |
12. | 具体的なテキストマイニング実践 その3 |
13. | 具体的なテキストマイニング実践 その4 |
14. | 具体的なテキストマイニング実践 その5 |
15. | まとめ |
16. | まとめ2 |
評価
毎回の課題提出状況と後期試験の両方
再評価
無し
教科書
『Rによるテキストマイニング入門』森北書店 ISBN 4627848412
連絡先
- オフィスアワー: 火曜日, 水曜日, 木曜日の16時00分から17時00分のあいだ