『バッドデータハンドブック』を読んだ。
「ハンドブック」という言葉からパターンなりノウハウなりがまとまっているかと思っていたけれど、どちらかというとエッセイ風な印象を受けた。そもそも体系的に扱えないのがバッドデータだから、期待が過剰だったか。
本当に色々な話がある。「1章 はじめに:バッドデータとは何か?」ではこんな風に整理されている。
泥臭い実務のためのアドバイス
予期せぬことをするデータ
アプローチ
データストレージとインフラ
データのビジネス面
データポリシー
面白かったのは、2~4章と、10, 11章。バッドデータしかないときにどう取り組むか、先人の知恵に学びたい。特に「11章 最善は善の敵、バッドデータは本当にバッドなのか?」が示すバッドデータへの見方はすぐにでも。
「ハンドブック」という言葉からパターンなりノウハウなりがまとまっているかと思っていたけれど、どちらかというとエッセイ風な印象を受けた。そもそも体系的に扱えないのがバッドデータだから、期待が過剰だったか。
本当に色々な話がある。「1章 はじめに:バッドデータとは何か?」ではこんな風に整理されている。
泥臭い実務のためのアドバイス
- 2章 気のせいかな。このデータ、何かおかしくないか?
- 3章 機械ではなく人間が使うことを意図したデータ
- 4章 プレーンテキストに潜むバッドデータ
- 5章 Webにあるデータの(再)構成
予期せぬことをするデータ
- 6章 オンラインレビューから嘘つきと混乱した人を発見する
- 9章 データと現実が一致しないとき
アプローチ
- 8章 血と汗と尿
- 7章 バッドデータは起立して
- 10章 バイアスとエラーの源
- 11章 最善は善の敵、バッドデータは本当にバッドなのか?
データストレージとインフラ
- 13章 Crouching Table, Hidden Network
- 14章 クラウドコンピューティングの神話
- 12章 ファイルにこだわる
データのビジネス面
- 16章 機械学習の専門家の手なづけ方
- 15章 データサイエンティストのダークサイド
データポリシー
- 17章 データ追跡可能性
- 18章 ソーシャルメディア:消去可能インク?
- 19章 データ品質分析の解明:データが十分良いときを知る
面白かったのは、2~4章と、10, 11章。バッドデータしかないときにどう取り組むか、先人の知恵に学びたい。特に「11章 最善は善の敵、バッドデータは本当にバッドなのか?」が示すバッドデータへの見方はすぐにでも。
データに基づかない判断より、不完全なデータに基づいた判断の方が良いのです。バッドデータからだって分かることがあるんだから。