ビッグデータやAIの話題がホットになる昨今、著者らは外部で話す機会や、取材を受ける機会も多い。そのたびに、ビッグデータとはそもそも何を意味しているのか、データはどのような価値を生むのかといったことについて、一般の人に理解してもらうことの難しさを感じたという。
情報処理の基本的な流れに馴染みのない人にも、データの持つ面白さと力強さを伝えたい。そんな想いのもと2012年にスタートしたのが、「Yahoo!ビッグデータレポート」だ。
たとえば、2013年参院選の議席獲得数の「事前予測」では、96%という圧倒的な精度で的中した。その後、内閣府の景気指数やインフルエンザの患者数も、国の発表前にかなりの精度で当てることに成功した。
このように政治・経済の分野から始まった試みであるが、その後柔らかいテーマも含めてさまざまな領域でビッグデータによるレポートを提供している。
最初に紹介する例は、Yahoo!の検索データを使ったレポートである。いまどきの若い人は、初任給を何に使うのだろうか。そんな好奇心から「初任給」と共に検索されるキーワードを集計したところ、第1位は「プレゼント」であった。当然のことながら、「検索する」という行為は、その言葉について知りたいという欲求や関心にもとづいている。共に検索される言葉に、「親」「両親」が上位に出てくることから、いまどきの新入社員の多くが、初任給で親にプレゼントしたいと考えていることが推定できる。このように、検索データから、親思いの若者像が浮かび上がってくる。
次に、この「初任給・プレゼント」で検索した人々を「新社会人」と定義して、1年間どのようなキーワードで検索したかを追跡した。特徴的な結果をいくつか挙げてみよう。
4月には「財形貯蓄とは」「捨印とは」「本籍とは」などと、学生時代にはなじみのなかった言葉が並ぶ。そして「会話が続かない」「自己紹介・面白い・例文」「一発芸・簡単」などの検索ワードから、いよいよ社会人として歩み始めた姿が浮かんでくる。
5月後半になると「新卒・辞めたい」「仕事・行きたくない」といった「五月病」を思わせる単語が浮上してくる。さらに12月下旬になると、「上司・年賀状」という検索キーワードが上昇してくる。悩んだり、迷ったりしたらまず検索。そんな現代の若者らしい行動パターンがうかがえる。
このように、データを使うと、リアルな世界の意外な一面や、なんとなく感じていたことを客観的に裏づける事実がわかってくる。そして、人々のプライベートな関心や感情を可視化できるのだ。
ここからは、レポートの原点ともいえる選挙予測について紹介する。はじまりは2012年末に行われた衆院選である。選挙期間中の「Yahoo!検索」のデータや政党名に言及したSNSの投稿数を分析することで、ある政党に関連するワードの検索量と、その政党の得票数の間に高い相関があることが発見できた。この分析結果を公表したところ、ウェブ上で非常に話題になった。
検索データやSNSの投稿数と得票数の間にこれほど高い相関があるのであれば、次回の選挙では、そこから議席数を事前に予測できるのではないか。こうした仮説をぶつけたのが、翌2013年の参院選であった。
その際、「相関モデル」と「投影モデル」という2つの選挙予測モデルを用意した。「相関モデル」とは、選挙の特定期間における各政党へのネット上の注目度(検索量)と得票へのつながりやすさから得票数を推定するモデルである。一方、「投影モデル」とは、検索量と得票数へのつながりやすさにくわえて、政党ごとに公示日の前後で検索量がどれほど変化するかを予測し、かけ合わせたものを指す。こうして各党の獲得議席数を予想したところ、一致率にすると、「相関モデル」では93%、「投影モデル」では96%といずれも高いものであった。
これ以降、2019年の参院選に至るまで、計7回の選挙予測では的中率が8~9割に達している。ただし、予測の精度は100%ではなく、多かれ少なかれ誤差が生じる。なかには思わぬ箇所で大きく外してしまい、その理由もはっきりしないケースもある。つまりデータは決して完璧ではないのだ。
データの世界では「相関」という概念が重要となる。相関とは、「一方が変動すると、もう一方のデータもその変動と綿密に連動した変化を伴うもの」と定義されている。例えば、商品1個の値段をxとして、個数nという変数と総支払額yという変数は当然、相関している。
相関には、一方の変数が増えると、それに伴ってもう一方の変数も増える「正の相関」と、反対に一方の変数が増えると、もう一方の変数が減るような「負の相関」がある。
その相関の正負や強弱を示す指標が、「相関係数(r)」だ。相関係数は、1に近づくほど正の相関、マイナス1に近づくほど負の相関があると表現される。1かマイナス1に近づくほど相関が強いと考えられる。
では「因果」関係という概念はどのようなものか。先述した商品の個数と支払金額は、完全に影響を与え合うため、両者には明らかに因果関係がある。しかし、「相関があるが、因果がない」というパターンも世の中には意外と多い。これらは偶然によって生じたものといってよい。
3,400冊以上の要約が楽しめる