「ビッグデータをビジネスに導入したい」というときに、どのような視点からアプローチすればよいのであろうか?
1つは、大量データ処理技術視点である。
ビッグデータの特徴として、「巨大なデータであること」と「生成頻度が高く、データの種類・形式が多様であること」があげられる。このように巨大で複雑なデータの集合に対して、従来のデータベース管理ツールやデータ処理アプリケーションでは対応困難であった。これに対応するため、HadoopやApache Sparkをはじめとするデータ分散処理の新しいフレームワークやソフトウエアといった技術が登場している。大量データ処理技術領域とは、このような新しいデータ分散処理技術を用いたシステムを開発し、ビジネスに役立つデータを蓄積したり、抽出する仕組みを作ることである。
もう1つは、データ分析視点である。
データ分析の基本は統計学で確立された理論や検定手法となる。データ分析では、大量データ処理技術を用いて蓄積したデータから、分析目的に合わせたデータの加工と検定を実行し、対象の性質や規則性およびモデル構築をすることを目的としている。
大量データ処理技術領域とデータ分析領域では、求められる専門性が全く異なるものとなっている。ビッグデータを扱う場合、今自分たちが抱えている問題がどの領域に属しているかを意識することが最初のステップとなる。