ビッグデータ探偵団

未読
ビッグデータ探偵団
出版社
出版日
2019年09月20日
評点
総合
4.0
明瞭性
4.0
革新性
4.0
応用性
4.0
要約全文を読むには
会員登録・ログインが必要です
本の購入はこちら
書籍情報を見る
本の購入はこちら
おすすめポイント

データという言葉には、誰が計算しても自動的に同じ結果が出るような客観的、機械的なニュアンスがある。しかし本書を読むと、データとは決してそのようなものではなく、それを扱う人次第で多様な広がりを見せることがよくわかるだろう。そもそも「何のために、どんなデータを取るのか」を決める時点で、人の判断が入る。そこには、どういう結果がほしいのかといった主観が必ず紛れているはずだ。

本書は、Yahoo!JAPANの「検索キーワード」など、これまで蓄積されてきた膨大なデータから、現実の社会についてどのようなことが読み取れるのかをあぶり出したショーケースである。2012年からネット上で展開されている「Yahoo!ビッグデータレポート」から、特に多くの人々の関心を集めそうなテーマを選りすぐり、書籍化したものだ。

硬いテーマでは選挙や景気の予測、災害対策、柔らかいテーマではJ-POPの歌詞分析など、カバー範囲は実に幅広い。また、関連性のない2つのデータがぴったり連動する様子を示す「なんちゃって相関(擬似相関)」の事例解説では、「相関」という基礎知識をわかりやすく紐解いてくれる。

データはデータの世界で完結しているわけではない。リアルな世界とどうつながっているかという点が重要である。データに振り回されず、人々がしっかりとデータを使いこなす社会でありたい。そんな願いが本書全体からひしひしと伝わってくる。「データ・リテラシー」を身につける第一歩として、本書を手に取ってみてはいかがだろうか。

ライター画像
しいたに

著者

安宅 和人(あたか かずと)
Yahoo!ビッグデータレポート統轄。慶應義塾大学環境情報学部教授/ヤフー株式会社CSO。データサイエンティスト協会理事。マッキンゼーを経て、2008年よりヤフー。全社横断的な戦略課題の解決、事業開発に加え、途中データ及び研究開発部門も統轄。2016年より慶應義塾大学SFCにてデータドリブン講座を担当。イェール大学脳神経科学プログラムPh.D.。東京大学生物化学修士。著書に『イシューからはじめよ』(英治出版)がある。

池宮 伸次(いけみや しんじ)
Yahoo!ビッグデータレポート編集長。シニアデータアナリスト。雑誌編集者を経て2007年ヤフーに入社。Yahoo!検索を含む複数のサービスや全社データの分析に従事。「データをみんなに見える形で活用する」をモットーに、分析レポートやヤフーが持つログを活かしたコンテンツを対外的に発信。数多くのメディア出演や登壇、大学での講義も行っている。

本書の要点

  • 要点
    1
    ネットを通じて蓄積してきたビッグデータを活用することで、現実の意外な事実をあぶり出したり、人々の課題解決に役立てたりすることができる。本書では、選挙の議席数予測や災害時の「隠れ避難所」の検知、新入社員や子育て中の人の関心の把握など、具体的なケースを紹介している。
  • 要点
    2
    今後は、データを正しく理解する力、「データ・リテラシー」を身につけることが必須となる。それは、情報科学の基本理解に基づいてデータを分析し、意思決定に役立てる「データ・ドリブン」の思考力である。

要約

ビッグデータは、「深層」を描き出す

データの持つ面白さと力強さ
SvetaZi/gettyimages

ビッグデータやAIの話題がホットになる昨今、著者らは外部で話す機会や、取材を受ける機会も多い。そのたびに、ビッグデータとはそもそも何を意味しているのか、データはどのような価値を生むのかといったことについて、一般の人に理解してもらうことの難しさを感じたという。

情報処理の基本的な流れに馴染みのない人にも、データの持つ面白さと力強さを伝えたい。そんな想いのもと2012年にスタートしたのが、「Yahoo!ビッグデータレポート」だ。

たとえば、2013年参院選の議席獲得数の「事前予測」では、96%という圧倒的な精度で的中した。その後、内閣府の景気指数やインフルエンザの患者数も、国の発表前にかなりの精度で当てることに成功した。

このように政治・経済の分野から始まった試みであるが、その後柔らかいテーマも含めてさまざまな領域でビッグデータによるレポートを提供している。

初任給の使いみちって?

最初に紹介する例は、Yahoo!の検索データを使ったレポートである。いまどきの若い人は、初任給を何に使うのだろうか。そんな好奇心から「初任給」と共に検索されるキーワードを集計したところ、第1位は「プレゼント」であった。当然のことながら、「検索する」という行為は、その言葉について知りたいという欲求や関心にもとづいている。共に検索される言葉に、「親」「両親」が上位に出てくることから、いまどきの新入社員の多くが、初任給で親にプレゼントしたいと考えていることが推定できる。このように、検索データから、親思いの若者像が浮かび上がってくる。

迷ったらまず検索

次に、この「初任給・プレゼント」で検索した人々を「新社会人」と定義して、1年間どのようなキーワードで検索したかを追跡した。特徴的な結果をいくつか挙げてみよう。

4月には「財形貯蓄とは」「捨印とは」「本籍とは」などと、学生時代にはなじみのなかった言葉が並ぶ。そして「会話が続かない」「自己紹介・面白い・例文」「一発芸・簡単」などの検索ワードから、いよいよ社会人として歩み始めた姿が浮かんでくる。

5月後半になると「新卒・辞めたい」「仕事・行きたくない」といった「五月病」を思わせる単語が浮上してくる。さらに12月下旬になると、「上司・年賀状」という検索キーワードが上昇してくる。悩んだり、迷ったりしたらまず検索。そんな現代の若者らしい行動パターンがうかがえる。

このように、データを使うと、リアルな世界の意外な一面や、なんとなく感じていたことを客観的に裏づける事実がわかってくる。そして、人々のプライベートな関心や感情を可視化できるのだ。

データは決して完璧ではない
Tomwang112/gettyimages

ここからは、レポートの原点ともいえる選挙予測について紹介する。はじまりは2012年末に行われた衆院選である。選挙期間中の「Yahoo!検索」のデータや政党名に言及したSNSの投稿数を分析することで、ある政党に関連するワードの検索量と、その政党の得票数の間に高い相関があることが発見できた。この分析結果を公表したところ、ウェブ上で非常に話題になった。

検索データやSNSの投稿数と得票数の間にこれほど高い相関があるのであれば、次回の選挙では、そこから議席数を事前に予測できるのではないか。こうした仮説をぶつけたのが、翌2013年の参院選であった。

その際、「相関モデル」と「投影モデル」という2つの選挙予測モデルを用意した。「相関モデル」とは、選挙の特定期間における各政党へのネット上の注目度(検索量)と得票へのつながりやすさから得票数を推定するモデルである。一方、「投影モデル」とは、検索量と得票数へのつながりやすさにくわえて、政党ごとに公示日の前後で検索量がどれほど変化するかを予測し、かけ合わせたものを指す。こうして各党の獲得議席数を予想したところ、一致率にすると、「相関モデル」では93%、「投影モデル」では96%といずれも高いものであった。

これ以降、2019年の参院選に至るまで、計7回の選挙予測では的中率が8~9割に達している。ただし、予測の精度は100%ではなく、多かれ少なかれ誤差が生じる。なかには思わぬ箇所で大きく外してしまい、その理由もはっきりしないケースもある。つまりデータは決して完璧ではないのだ。

【必読ポイント!】 データ・リテラシーを身につける

相関という概念を理解する

データの世界では「相関」という概念が重要となる。相関とは、「一方が変動すると、もう一方のデータもその変動と綿密に連動した変化を伴うもの」と定義されている。例えば、商品1個の値段をxとして、個数nという変数と総支払額yという変数は当然、相関している。

相関には、一方の変数が増えると、それに伴ってもう一方の変数も増える「正の相関」と、反対に一方の変数が増えると、もう一方の変数が減るような「負の相関」がある。

その相関の正負や強弱を示す指標が、「相関係数(r)」だ。相関係数は、1に近づくほど正の相関、マイナス1に近づくほど負の相関があると表現される。1かマイナス1に近づくほど相関が強いと考えられる。

「なんちゃって相関」

では「因果」関係という概念はどのようなものか。先述した商品の個数と支払金額は、完全に影響を与え合うため、両者には明らかに因果関係がある。しかし、「相関があるが、因果がない」というパターンも世の中には意外と多い。これらは偶然によって生じたものといってよい。

もっと見る
この続きを見るには...
残り1517/3770文字

3,400冊以上の要約が楽しめる

要約公開日 2019.12.09
Copyright © 2024 Flier Inc. All rights reserved.
一緒に読まれている要約
大分断
大分断
池村千秋(訳)タイラー・コーエン渡辺靖(解説)
未読
メイカーとスタートアップのための量産入門
メイカーとスタートアップのための量産入門
小美濃芳喜
未読
僕は偽薬を売ることにした
僕は偽薬を売ることにした
水口直樹
未読
日本社会のしくみ
日本社会のしくみ
小熊英二
未読
INSPIRED
INSPIRED
神月謙一(訳)マーティ・ケーガン佐藤真治(監訳)関満徳(監訳)
未読
ほどよい量をつくる
ほどよい量をつくる
甲斐かおり
未読
プレイ・マターズ
プレイ・マターズ
ミゲル・シカール松永伸司(訳)
未読
これからの都市ソフト戦略
これからの都市ソフト戦略
藤後幸生
未読