「マネーボール」理論をニューヨーク・タイムズに応用してみた

コメントする

11/17/2013 by kaztaira

統計専門家でジャーナリストでハッカーの、ブライアン・アベルソンさんのブログが話題になっている。

映画にもなった「マネーボール」の理論を、ニュースサイトの記事のページビューに応用してみた、というなかなか面白い試みだ。しかも、ニューヨーク・タイムズで。

The Relationship Between Promotion and Performance:Pageviews Above Replacement (Brian Abelson)

abelson

●ニュースのイノベーション

アベルソンさんのことは、「データジャーナリズムで報道局をハックする」でも紹介したことがある。

ナイト財団とモジラ財団が共催するプロジェクト「オープンニュース」のフェロー。有給で10カ月間、プロジェクトの提携先であるニューヨーク・タイムズに派遣され、そこでオープンソースのニュースのイノベーション開発に取り組んでいる。

そして、ニューヨーク・タイムズ側でそのチームを率いるのが、データジャーナリズムで国際的に知られるトップランナーの一人、アーロン・フィルホファーさん。現在はデジタル戦略担当の編集局次長だ。

そもそもアベルソンさんの取り組みは、フィルホファーさんが昨年書いたブログ投稿がきっかけだった。

ジャーナリズムのインパクトを正確に見極める測定基準が必要だ。「オープンニュース」のフェローとして、ニューヨーク・タイムズの編集局でその研究をしてみないか――フィルホファーさんのその呼びかけが、人生を変えた、とアベルソンさんは言う

そして実際に「オープンニュース」にエントリーし、8人のフェローに選ばれ、フィルホファーさんのもとで開発に取り組むことになった。

●マネーボールとジャーナリズム

アベルソンさんが測定基準として応用したのが、セイバーメトリクスだ。

米大リーグ、オークランド・アスレチックスのビリー・ビーンGMによる球団再生を描いた「マネーボール」。ブラッド・ピットさん主演で映画にもなった実話に出てくるのが、このデータの統計学的分析による野球選手の評価、戦略手法だ。

野球の場合は、このセイバーメトリクスに基づいて、WAR(Wins Above Replacement)という指標が用いられる。「代替可能選手(Replacement)と比べた上積みの勝ち数」を示す。

選手を補強したいが予算は限られる。そこで、ショートならショートのポジションで、同レベルの選手ながら勝ち数(WAR)の多い、つまりパフォーマンスのいい選手を獲得する。

アベルソンさんは、これをニューヨーク・タイムズのオンライン版に取り入れ、PAR(Pageviews Above Replacement)という指標をつくった。「代替可能記事(Replacement)と比べた上積みのページビュー数」をはじき出したものだ。

対象は今年7~8月、タイムズのオンライン版で公開された記事2万1000本。それぞれのページビューについて、本来獲得が期待されるページビュー(PAR)と実際のページビューとの違いを算定。そして、記事のパフォーマンスに、「プロモーション」がどう影響したのか、をはじき出した。

ここで言う「プロモーション」とは、オンライン版のトップページや、「ビジネス」「ファッション」といった25ジャンルのトップページにどれだけの時間掲載されたか、20あるフェイスブックのアカウント、200あるツイッターのアカウントでどれだけ紹介されたか、をデータとして加味している。

●それは自社記事ではない

そして、面白い傾向を発見する。ほとんどプロモーションもされず、ページビューも全体の平均や、PARを下回る記事の大半が、自社記事ではない、ロイターやAPの通信社電だったというのだ。

times_metric

例えば1000万フォロワーを持つ公式アカウント@NYTimesがツイートで紹介しなかった通信社電は、調査対象2万1000本の記事のうち1万5180本、実に全体の72.2%を占める。逆に紹介した通信社電は89本で0.4%。

もっとも、同アカウントがツイートで紹介した自社記事も1184本で5.6%にすぎず、紹介されなかった自社記事は5443本、21.7%にのぼった。

縦軸にページビュー(対数)、横軸にトップページへの露出時間をとったグラフを見ると、トップページへの露出なし、という記事の塊が1万3000本(73%)。うちページビューで上位3分の1を自社記事が占め、残り3分の2が通信社電。

トップページへの露出が10分から100分のエリアでは98%が通信社電だが、このうち公式ツイートで取り上げられたのは1%。ページビューもふるわない。対して、トップページ露出が100分以上のエリアでは90%以上が自社記事。約80%は公式ツイートで取り上げていて、ページビューも好調だ。

●ページビューを予測する

自社記事か通信社電か、トップページへの掲載、@NYTimesのツイート。これらのデータだけでも、それぞれのページビューの70%について説明がつく、という。

アベルソンさんはさらにデータを加味していく。動画、インタラクティブ、ブログ投稿、一般記事といったコンテンツ種別、記事のジャンル、記事の長さ、フェイスブックや各ジャンルトップへの掲載、トップページでの扱い、などのデータを加えると、ページビューの90%がカバーできたという。

そして、このモデルによって、記事公開から1週間のページビュー予測が可能になったというのだ。

ページビューの予測値と実測値をグラフにすると、かなりきれいにデータが収まっている。

●記事のパフォーマンスを測る

最後にアベルソンさんがまとめたのが、記事のパフォーマンスだ。

times_metric2

つまり予測値(PAR)に比べて、実際のページビューがどのぐらい上回っているか、下回っているか、そして公式ツイッターによるプロモーションの多寡、トップページへの掲載時間の関係を、ジャンルごとの平均値でグラフ化したのだ。

パフォーマンスがよかったのは、「タイムズ・マガジン」「不動産」「オピニオン」「科学」「ファッション」「健康」「読書」「ダイニング」「ニューヨーク地域」。

逆に悪かったのは、「ビジネス」「内政」「テクノロジー」「国際」「スポーツ」。

「マガジン」「ダイニング」などは、記事の本数自体は少ないが、積極的にプロモーションをされている。逆に「ビジネス」「内政」「国際」「スポーツ」4ジャンルは、記事の本数が多いのに、あまりプロモーションをされておらず、ページビューが低迷している。

●トップページの意味

アベルソンさんは、この分析が「小さな一歩」だと断っている。PARという指標もあくまで暫定的なものであると。

ニュースサイトにおけるトップページの持つ意味合いも、間違いなく低下するだろうし、メディア環境も変わっていくだろう、と見立てる。

確かに、ピューリサーチセンターの調べでは、米国の成人の3割がフェイスブックからニュースにアクセスする時代。ニュースサイトのトップページの存在感が薄れるのも道理だ。

The Role of News on Facebook (Pew Research Center)

またこのモデルには、記事の良し悪し、という変数がない。それで90%の精度の予測ができるというのも味気ないが、トップページへの掲載や、ツイッターなどでプロモーションをする、という判断が間接的にその点をカバーするのだろう。

●ふざけるな、というロイター

ただ、この分析には、ものすごい勢いでかみついている記事があった。ロイター通信のビジネス記者、フェリックス・サーモンさんだ。

ニューヨーク・タイムズは通信社電をどれだけ雑に扱っているんだ(怒)、ということだ。

How the NYT neglects business journalism (Reuters/ Felix Salmon)

まあ、無理もない。

とくに、サーモンさんの担当分野であるビジネスは、記事の本数が多いのに(おそらくその多くは通信社電)、プロモーションはされず、ページビューは予測値を大幅に下回っている、最たる例だからだ。

ニューヨーク・タイムズがもっと通信社電を、ビジネス記事を、そして特に通信社電のビジネス記事をもっと見つけやすくすれば、パフォーマンスははるかに改善するだろう――と通信社の立ち場から訴える。

●記事の寿命から逆算する

アベルソンさんは、ニュースサイトのページビュー予測の実装例として、アルジャジーラの例を紹介している。

FAST: Predictive Web Analytics: How does it work? (QCRI)

qcri「FAST」と呼ばれるこの予測プログラムは、アルジャジーラとカタールコンピューティング研究所(QCRI)、カーネギーメロン大、マサチューセッツ工科大の研究をもとに、QCRIで開発されたものだ。

これは、記事のページビューの測定値と、その記事のソーシャルメディアへの拡散データをモデル化。公開後3日間のページビューを、予測するという仕組みだ。

「FAST」のサイトのデモ画面を見ると、予測値とリアルタイムの実測値が棒グラフで示され、ちょうど記事の「寿命」と実年齢の関係を見せられる感覚だ。

なるほど、ジャーナリズムのデータ化とは、こういうことか。

———————————–

『朝日新聞記者のネット情報活用術』

電子書籍版がキンドルiブックストア楽天koboなどで配信中

cover3

コメントを残す

アーカイブ

ブログ統計情報

  • 1,064,200 ヒット