「ビッグデータをビジネスに有効活用したい」というときに、どのような視点からアプローチする必要があるだろうか? 大きく3つの視点で考える必要がある。
1つ目は、BIの視点である。
取得したデータを業務現場へのフィードバックし価値の創造をできるかという視点である。いくらデータをたくさんもっていても、分析によって素晴らしい知見を見つけられても、それをビズネスの現場に生かせなかければ、データ分析への投資価値がないからである。そのためには、課題解決の一つの手段としてデータ分析をどのように生かしていけばよいか、データ分析手法をもちいればどのような課題解決に臨めるかを常に意識し、実践で生かしていく必要がある。
2つ目は、データ分析視点である。
データ分析では、分析目的に合わせてデータの加工&データ解析し、対象の性質や規則性およびモデル構築をすることを目的としている。そのため、データ分析の基本は統計学・機械学習で確立された理論や解析手法への知識がもっとも重要となる。データ分析では、解析手法や機械学習同様に、どのようなデータセットをどのように取得する必要があるかが重要となる。データセットは、分析の目的が確定すると、おおよその分析方法が絞れ、それに合わせて決まるからである。またデータ取得方法を誤った場合、偏りがあるデータとなってしまい、目的に沿ったデータサンプルとならなず、誤った結果を導き出してします。データ分析は、課題に対して、どのような分析手法を用い、どのようなデータセットをそろえればよいかという計画立案から、複雑なデータから価値のある結果を得るための解析の段階まで重要な役割を果たす。
3つ目は、大量データ処理技術視点である。
ビッグデータの特徴として、「巨大なデータであること」と「生成頻度が高く、データの種類・形式が多様であること」があげられる。このような巨大で複雑なデータの集合に対して、従来のデータベース管理ツールやデータ処理アプリケーションでは対応困難であった。これに対応するため、HadoopやApache Sparkをはじめとするデータ分散処理の新しいフレームワークやソフトウエアといった技術が登場している。大量データ処理技術領域を用いたシステムを構築することで、今までない規模でデータを蓄積したり、抽出、データの加工、データ解析を行う仕組みを作ることができる。
BIの視点とデータ分析領域と大量データ処理技術領域とでは、求められる専門性が全く異なるものとなっている。ビッグデータを扱う場合、今自分たちが抱えている問題がどの領域に属しているかを意識することが最初のステップとなる。
データ分析で用いるデータには2種類ある。
1つは特定のの目的に特化して取得されたデータ(1次データ)である。長所は、目的の分析に特化してるため、データが分析要求に合致しており、データがいつどのように取得されたか詳しく知っている点である。短所は分析に特化したデータを取得するためコストがかかることである。
もう1つはデータ分析のためにすでに取得したデータ(2次データ)を利用する場合である。長所はすでに取得されているデータであるため、データ取得のためのコストが小さいところである。短所は、データ分析の目的にそぐわないデータを使わないといけない、必要なデータの欠落・情報量が少ない、取得方法が異なると単純データ比較できない等の問題が発生する。
データ分析では、データの正確性が重要となる。不正確なデータによって、解析の感度が落ちてポジティブな結果が得られない、誤った結果になってしまったということは良くある。そもそも解析に必要なデータセットを作れずモニタリングくらいしか役に立たない結果にすらなりかねないのだ。
たとえば、データが不正確になるパターンは以下がある。
・重複データ
・欠損データ
・異常値
・測定器のエラー(誤作動等)
・想定されないデータ
・誤ったデータ取得方法
・人為的なミス(手動入力の間違い、測定器の不適切な使用)
このような問題に対応するための以下の方法が考えられる。
1つ目はデータ取得後にデータ解析にて対応する方法である。よく使われるのは、時系列データの欠損や異常値の検出を統計解析の手法で解消する方法である。また重複データなどで、特定の規則性がある場合は、機械的に判定できるだろう。
2つ目はデータ取得の仕組みを変更する方法である。たとえば測定器の誤測定などは測定を複数回実施しその中央値をデータとして記録するなどという方法が考えらえる。
3つ目は運用ルールの変更である。たとえば、人為的なミスをなくすためにキーとなるデータの設定はダブルチェックを実施するなどである。
ビッグデータの場合、データ取得方法が容易である・自動化されていることが重要となる。ビッグデータ自体は通常の業務の中から副次的なものとして取得されることが多い。データ取得方法が煩雑あると、測定者の大きな負担となって測定が好い加減になされたり、正確性が人依存になり、正確なデータが得にくい。データ取得を極力自動・容易に取得する工夫が必要である。データ分析の目的に対するデータの重要度によってはデータの情報量を落とす、測定対象から外すという検討も必要となる。
データ取得を初めたら、まずデータが想定通り取得できるか確認し、問題点とその原因を洗い出すことが大切である。問題の対応には、データ取得目的に対する重要性、求められる正確性・効率を考慮して検討する必要がある。