【書評】ビッグデータ探偵団 データ分析の面白さと難しさ

書評

こんにちは

悟です。(@rxf7oqjSU4v473O

今回は、講談社現代新書の「ビッグデータ探偵団」を読んだので書評を書いていきます。本書は、Yahoo!ビッグデータレポートチームの業務成果を、一般向けに解説したのものになります。

そのビッグデータとはずばりYahooに蓄積される検索データのことです。

日々蓄積される莫大な検索結果をSNSの投稿や位置データなど他のデータと組み合わせて分析することで、私たちの悩みから目的地までの所要時間や混雑状況まであらゆる課題を解決するヒントをあぶり出しています。

本書の良いところは、複雑な分析結果をわかりやすく可視化しているところです。その分、単純化しているとは思いますが、本書の内容を理解するのに機械学習やAIなどに関する知識は一切必要ありません。

また、分析レポートの詳細は、本書内にある二次元バーコードでアクセスできるので、気になる部分を深掘りしていくことも可能となっています。

ビッグデータのイメージがまだしっかりと出来ていない人や実際の分析例を知りたい人におすすめです!

本書の目次

本書の内容を目次ごとに簡単にまとめてみました。購入の参考にしてみて下さい。※本書は章分けが多かったため、一部抜粋しています。

第1部 ビッグデータは、「深層」を描き出す

1-2 ママは、生後102日目にわが子をモデルへ応募したくなる

本章では、子育てをする母親の育児に関する悩みを検索データから明らかにしています。流れとしては、全検索キーワードの同時出現回数を示す「共起関係」を抽出し、関連度を数値化していきます。そこから育児に関する悩みと考えられるデータを絞り込み、カテゴライズをし、検索タイミングの時系列情報を分析していきます。

これらの分析により、まず育児マーケットの全体像を把握でき、母親がいつどんな悩みを抱えているのかを知ることができるでしょう。

1-5 日本は「東京」と「それ以外」の2つの国からできている

この章では、「東京が日本の標準である」ことを個人的に疑問に持っているメンバーが分析を行っています。笑

東京とそれ以外のエリアであるキーワードの検索量や注目度が大きく異なることを分析しており、東京がスタンダードではなく、東京が特異であることを示しています。

第2部 ビッグデータは、こんなに役立つ

2-1 これからの「混雑ぶり」がわかり、移動のストレスが消える

本章では、私たちが日常的に行う目的地までのルート検索を元に分析しています。しかし、予期せぬイベントの開催や突発的な事故や規制により大混雑に巻き込まれてしまうことも少なくなく、事前に知っていれば迂回したのに…という経験はみなさんも一度はあると思います。

Yahoo!ではそんな混雑によるストレスを解消するべく、リアルタイム混雑予測システムをYahoo!地図で実装しています。

2-3 リニアで日本はどれだけ狭くなるのか、実際に見てみよう

再びYahoo!地図の話になりますが、こちらは地図上にリニア中央新幹線を作って「到達所要時間マップ」を作りどんな変化があるかをシミュレーションを行っています。

目的地までの所要時間は、移動距離よりもそこまでの交通手段に影響されるため、新幹線沿いであれば、東京から福岡まで4時間ですが、関東であっても周辺に鉄道や幹線道路がないエリアは4時間を超えるため福岡よりも遠い場所と考えることが出来ます。

リニアが完成すれば、これまで1時間半かかっていた東京-名古屋間が45分、甲府まではなんと16分となり、各県がリニアの誘致に真剣になるのもわかります。

もちろん名古屋より西側であってもこれまでと比較して45分は短縮される計算になるため日本全体がぐっと狭くなります。

新入社員の心を描く検索エンジン

検索エンジンのデータを使えば、世の中の新入社員がなにを考えているかもわかってしまいます。

もちろん検索データに、個人情報が載っているわけではないため、「新入社員が検索するキーワード」を絞り込んで、「そのキーワードを検索する人は、新入社員であろう」という仮説のもと分析が始まります。

本レポートでは、「初任給 プレゼント」を検索した人を新入社員として定義し、その後、どんなことを検索していくのか時系列分析を行いまとめています。

本当に、この定義で正しいのか?と思うかもしれませんが、これ以降の分析でも新入社員が調べるであろうキーワードが多数でてきます。4月下旬には、「洗濯機使い方」、6月には、「休日の過ごし方」、それから、「彼女 作り方」、「同期 恋愛」など、新社会人であれば調べるシチュエーションが浮かびやすい単語が多く並びます。

確かに、「初任給 プレゼント」を調べる人は概ね新入社員であることは正しいでしょう。しかし、これでは新入社員=初任給でプレゼントを渡す、あるいは渡そうと考えている人となってしまい、かなり強力な仮定に基づいた分析であるとも考えられます。

たしかに検索指数では、2位の「初任給 平均」に対して2倍以上の差をつけてぶっちぎりの1位なのですが、2位3位を含めればより広い範囲をカバーできるとは思います。あるいは、1位の検索ワードを検索していなくても、2位と3位を検索していれば分析対象にしたり、いろいろなパターンも考えられそうです。

ただ分析自体は複雑になっていくので、シンプルで傾向まで出せる、本レポートの定義が一番いいのだろうと、一周回って思いました。

景気をリアルタイム観測

本書の目玉となっているのが、こちらの「景気のリアルタイム観測」です。内閣府や日銀など多くの機関が景気情報を公開してきましたが、これらはすべて事後報告で、「3ヶ月前、景気良かったんです!」といったものでした。

多くの人にとっては、以前の景気を言われても特に意味はありませんし、肝心なのは「今」の景気がどうかでしょう。それを景気と相関のあるキーワード群の検索量を用いて現在の景気を予測しようというのがこの取り組みです。

この分析では、疑似相関は一切考慮しておらず、シンプルに相関の高いキーワードを抽出し、多重共線性を除いたものを使用しています。そのキーワード数は全検索キーワード75億個に対して、196個を利用しており、多くの検索キーワードが景気と連動して変化しているように見えることがわかりました。

実際、この196個のキーワード群で内閣府の出す、景気動向指数(CI)と0.8以上の相関がでていました。しかし、内閣府の出す指数が過去に遡り改定されている衝撃の事実が明らかになります…。このモデルは景気動向指数との一致を目指していたことから、モデルのそもそもが崩れたことになってしまい、最終的には、独自の「Yahoo!景気指数」を構築するに至ります。

まとめ

以上、簡単にですが本書の内容を紹介してきました。本書では、データ分析や機械学習に関する難しい単語もほとんどでてこないため、そういった分野に疎い人ほどおすすめです。逆に、既にデータ分析を研究に利用している人や機械学習エンジニアなどの人には物足りないかも知れません。

ビッグデータとその分析によって、私たちの生活は確実に良くなっています。本書のような本が増えることでデータ社会への理解が進むことを願っています。