統計科学のフロンティア<10> 言語と心理の統計
金 明哲, 村上 征勝, 永田 昌明, 大津 起夫, 山西 健司 著
内容
目次
編集にあたって 第Ⅰ部 文章の統計分析とは 金明哲・村上征勝 1 文章の統計分析と著者推定 1.1 計量的文体論 1.2 著者の推定 2 文章の特徴抽出 2.1 単語の長さ 2.2 文の長さ 2.3 品詞の分布 2.4 識別語と機能語 2.5 異なり語と出現頻度 2.6 n-gramの分布 2.7 日本語固有の特徴情報 2.8 その他の特徴情報 3 統計分析方法 3.1 基本統計量 3.2 語彙に関する特性値 3.3 推測統計と多変量データ解析 3.4 近年の動向 4 日本語の文章の統計分析 4.1 日蓮遺文の真贋判定 4.2 『源氏物語』の計量分析 5 展望と文献案内 参考文献 第Ⅱ部 確率モデルによる自然言語処理 永田昌明 1 人工知能的アプローチから確率・統計的アプローチへ 2 形態素解析 2.1 形態素解析とは何か? 2.2 形態素解析のむずかしさ 2.3 統計的言語モデルによる形態素解析 2.4 動的計画法を用いた最適単語列探索アルゴリズム 2.5 今後の課題 3 固有表現抽出 3.1 固有表現抽出とは何か? 3.2 固有表現抽出のむずかしさ 3.3 隠れマルコフモデルによる固有表現抽出 3.4 最大エントロピーモデルによる固有表現抽出 3.5 今後の課題 4 テキスト分類 4.1 テキスト分類とは何か? 4.2 テキスト分類の数学的定義 4.3 代表的なテキスト分類アルゴリズム 4.4 ベクトル空間モデルと最近隣法 4.5 ナイーブベイズ 4.6 ブースティング 4.7 サポートベクトルマシン 4.8 今後の課題 5 統計的機械翻訳 5.1 雑音のある通信路のモデル 5.2 2言語対応付け 5.3 IBM翻訳モデル 5.4 スタックデコーダ 5.5 今後の課題 参考文献 第Ⅲ部 社会調査データからの推論:実践的入門 大津起夫 1 調査データから何が推論できるか? 2 NSLY79と"The Bell Curve"論争 3 主成分分析と特異値分解 4 対応分析 5 連関モデル 6 多重対応分析 7 尺度最適化を伴う主成分分析 8 おわりに 参考文献 第Ⅳ部 データとテキストのマイニング 山西健司 1 データマイニングとは 1.1 CRMとマイニング 1.2 マイニング技術の要件 1.3 マイニング分野の全体図 2 バスケット分析 3 分類ルールの学習 3.1 教師あり学習 3.2 決定木の学習 3.3 選択的サンプリングを用いた集団能動学習 4 嗜好学習とリコメンデーション 4.1 協調フィルタリング(1)――相関係数法 4.2 協調フィルタリング(2)――逐次的2項関係学習法 4.3 コンテンツベースフィルタリング 5 外れ値検出と不正検出 5.1 統計的外れ値検出 5.2 外れ値検出エンジンSmartSifter 5.3 SDLEアルゴリズムとSDEMアルゴリズム 5.4 実験結果 6 データマイニングその他の話題 7 テキスト分類と自由記述アンケート分析 7.1 テキスト分類 7.2 自由記述アンケート分析 7.3 トピック分析 8 Webマイニング 9 おわりに 付録 A.1 確率的コンプレキシティ A.2 拡張型確率的コンプレキシティ 参考文献 索引