KNOWLEDGE WORKER ナレッジワーカー



丸善のおすすめ度

統計的データクリーニングの理論と実践~Rによるデータ編集/欠測補完システム~

Mark van der Loo, Edwin de Jonge  著

地道 正行, 髙橋 雅夫, 藤野 友和, 安川 武彦, 和田 かず美  翻訳
在庫状況 有り  お届け予定日 3~4日 
価格 \6,380(税込)         
発行年月 2022年02月
出版社/提供元
共立出版
言語 日本語
媒体 冊子
ページ数/巻数 14p,350p
大きさ 26cm
ジャンル 和書/理工学/数学/確率論・数理統計学
ISBN 9784320114630
商品コード 1034165228
NDC分類 417
基本件名 数理統計学-データ処理
本の性格 実務向け
新刊案内掲載月 2022年03月4週
商品URLhttps://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1034165228

内容

統計的なデータクリーニングシステムを構築するための包括的なガイド

データクリーニングとは、入手した原データを、分析に耐えうる品質にするために、エラーや矛盾する値を検出・修正し、欠測を補完する作業のことで、データ分析においてしばしば最も時間のかかるプロセスである。公的統計分野において、この分野は「データ編集」とも呼ばれ、この50年余に多くの知見が蓄積されてきたが、一般の統計のコミュニティにおける文献は多くない。
本書は、2013年に開催された世界規模のRユーザーカンファレンスであるuseR!2013において行われたデータクリーニングのチュートリアルがきっかけとなり,オランダ統計局の研究部門に所属する著者によって書かれている。近年のビックデータ時代の到来により、調査集計を行う公的統計部局は行政記録その他の幅広いデータを取り扱うようになるとともに、より広い分野においてもデータの入手が容易になったためにデータクリーニングの要請は広がり、公的統計分野での知見はより多くの分野で役立つ可能性を持っている。
著者は、本書で紹介されるデータ検証やエラーの局所化、エラー修正のための様々な方法や欠測値の補完といった様々なデータクリーニングのためのRのパッケージの多くを開発しており、実際に使用するためのコード例も豊富に掲載され、数値やテキスト、日付等のデータの取り扱いや、数値計算時の留意点など、プログラミングに関する内容も収録されている。

本書の特徴
データ分析を行う際に、しばしば最も手のかかるデータクリーニングに焦点を当て、理論とRによる実装の双方向から解説

アドホックで、データ毎に異なるカスタムメイドのクリーニングシステムではなく、汎用性を重視した構築の方法論も解説

データの矛盾を解消し、欠測を補完するための統計的手法、バッチ処理化やデータ変遷のモニタリングについても解説

〔原著〕Statistical Data Cleaning with Applications in R, Wiley, 2018.

目次