「人がいつどこに何人いるのか」を把握するために用いられる、人流データ。収集した人流データ(生データ)はそのまま利用できないこともあり、その場合はデータを加工処理して使える状態にします。
このページでは、集めた人流データ(生データ)を分析できる状態にするための前処理について説明します。
素材を活かした料理を作るためには下ごしらえが必要なように、ビッグデータを活用するためには前処理が必要不可欠です。例えば同じジャンルを示すデータだったとしても、その体裁が異なる場合に「違うデータ」として取り扱われることがあります。そうなると冗長性が生まれてしまい、適切なデータ集計が行えなくなってしまう可能性が高いでしょう。そのような状態になってしまわないよう、一定程度の編集・補正・統合はデータ活用において必要なプロセスとなります。
データクレンジングは主に前述したようなデータの編集・補正・統合を意味します。例えば「(株)」のような略称と「株式会社」という表記の違いや、「全角スペース有り」とスペース無し」の違い、「全角入力」と「半角入力」の違いなどが対象となります。これらは意味として同じであるものの、コンピュータ上で処理する際には別のものとして扱われることになってしまうため、扱いやすいデータに適正化する必要があり、これをデータクレンジングといいます。
スケーリングはデータの値を特定の範囲に変化する前処理方法をいいます。例を挙げると、異なる単位のデータを比較するために単位を揃えたり、データを測るスケールを同じものに揃えたりする、などの処理があります。このスケーリングには最小値0~最大値1にスケーリングする「Min-Maxスケーリング」や平均0・分散1にスケーリングする「Zスコアスケーリング」などがあり、これを適切に使い分けることによって機械学習の効率化が図れます。
テキストデータを数値データに変換する前処理をエンコーディングといいます。機械学習におけるアルゴリズムは数値データしか扱うことができないため、エンコーディングすることでAIが学習できるようにデータ整形を行います。さらにその中でもグループ分けできるデータは「カテゴリ変数」と呼ばれ、このカテゴリ変数にどのような数値を割り当てるかでエンコーディングの手法も変わってきます。
機械学習においては、学習データの中において予測や分類に有効な情報を示す変数のことをいう「特徴量」や、その特徴量の数を表す「次元」という用語が存在します。次元削減はデータにおける次元数を減らす前処理方法であり、データ内の相関関係を見つけることによって相関を最大化する新しい軸を定義します。元のデータセットの次元を減らす事によって機械学習データを圧縮し、計算を効率化することが可能になるというメリットがあります。
特徴選択は機械学習データの中から強い関連がある特徴を選択することを表します。機械学習データにおいて多数の特徴量がある場合、関連しない特徴量までを学習すると予測精度が下がってしまうという懸念があります。そこで重要な特徴量だけを取り出して学習することにより、その予測精度の質を担保するための前処理です。特徴選択にはフィルター法・ラッパー法・埋め込み法の3種類があり、それぞれで特徴量の選択方法が変わります。
人流データの前処理におけるチェックポイントを紹介します。ここでは特に「データ収集方法」「個人情報の取り扱い」「データの供給元」という3点に絞って解説しますので、ぜひ覚えておいて下さい。
参照元:【pdf】国土交通省/地域課題解決のための 人流データ利活用の手引き Ver1.0
データを正しく取り扱うためには、その前提情報が重要です。どのようなデータを取り扱う場面においても、そのデータ収集の環境や方法といった前提が予期せぬ状態であれば、データそのものの信憑性が疑われるためです。人流データの例でいうとセンサーなどの機器を使用している場合に「人が重なっている」状態や「傘をさしている」状態などで収集されたデータは誤差が生じている可能性があります。このように、集計方法によってさまざまなエラーが考えられるのです。
今やさまざまなデータを集めることができる時代になっています。単純な文字や数字だけでなく、画像や動画データも入手することが容易になりました。カメラやスマートフォンなどが身近になった今、これらの機器を駆使して人流データを集めることも可能になっていますが、中には個人情報として取り扱うべきデータもあるでしょう。そういった場合にはデータの取り扱いについて、細心の注意を払う必要があります。
統計データを取り扱う場合、そのデータ対象の規模が大きくなればなるほど全数調査が行われている可能性が低くなります。手間とコストが膨大になるためです。それは人流データにおいても同様であり、例えば通信キャリアや民間のデータ収集事業者が取り扱っている場合、「実測値をもとに推計したデータ」である可能性があります。そのデータの活用目的によって推計データで事足りるかどうかは変わってくると思われますので、必ず確認しておくようにしましょう。
ここで紹介したようにデータを取り扱うためにはさまざまな点に注意しなければいけませんし、前処理をするためにどの前処理が必要か判断するためには一定程度の専門知識が必要になります。さらに集計方法によっても結論が変わってしまう恐れがありますので、人流データの活用には他にも注意すべき点があります。中には人流データの分析サービスを提供している事業者も存在しますので、正しくデータ活用をしたいと考える方は専門家に相談することも検討してみてはいかがでしょうか。
データ分析のプロセスとは収集・可視化・分析の3段階があります。各段階によってデータの状態が異なり、どの状態のデータが欲しいのか見極める必要があります。以下に各プロセスとデータの状態を解説し、対応できるおすすめのサービスも紹介しています。
主に携帯電話を通じて集められた人々の動向「人流データ」を活用し、結果に満足できるサービスを選びましょう。
このデータは、人の流れや動向・性質などを数量的に把握して、推計や分析は自社で行うことができます。地域間のばらつきがない基地局ベースの測位で、母数の大きなデータを取得できるサービスがおすすめ。
データをわかりやすく可視化すると、会議など意思決定の場で使うことができます。人流動向の現状把握をするためには属性データもある、細かい範囲で測位できるGPSデータを取得できるサービスがおすすめ。
分析されたデータは、早期課題解決のためのアクションがすぐに起こせます。一般的な可視化・分析よりも、より課題解決へ導けるデータを求めるなら、分解能が高くデータのゆがみを解消しているサービスがおすすめ。
※選定条件
2022年9月5日調査時点において、「人流データ分析」でGoogle検索した全27社において公式サイトで明記されている内容から以下の条件でピックアップしました。
■収集…基地局ベースデータによる、地域間差がなく、契約台数が一番多い(2022年9月調査時点)会社であるNTTドコモが提供する「モバイル空間統計」※参照元:NTTドコモ公式HP:(https://www.tca.or.jp/database/)
■可視化…空間分解能の範囲が狭いGPSベースと、通信キャリアならではの契約情報による属性が入手できる一社KDDIが提供する「KDDI Location Analyzer」
■分析…空間分解能の範囲が狭いGPSベースで、データのゆがみをとるマップマッチング処理を行っているため仮説検証分析まで行えることを公式サイトで記載している一社LocationMindが提供する「xPop」