データジャーナリズムでやってはいけないこと
コメントする10/07/2013 by kaztaira
データジャーナリズムの専門家として知られるポール・ブラッドショーさんが、自身の「オンラインジャーナリズム・ブログ」で「データジャーナリズムの倫理学」という連続投稿をしていた。ブラッドショーさんはバーミンガム・シティ大学の准教授で、サイト「データドリブンジャーナリズム」の編集委員も務めている。
データジャーナリズムの手法についての執筆が多いブラッドショーさんだが、ここで述べているのは、「やってはいけないこと」だ。ビッグデータのバブルと同様、キモをしっかり捉えていないと、おかしな方にいってしまう。大事な指摘だ。
▼データの精度に疑問があれば問い合わせ、場合によっては掲載を見送る
Ethics in data journalism: accuracy (Online Journalism blog)
役所が出したデータだからといって、それが100%正しいとは限らない。
実際に、テキサス・トリビューンが公開していた服役囚データベースで、300人以上に実際の犯罪とは異なる「児童への性的虐待」という情報が記載されていたため、公開を取りやめたケースもあった。もとになったのはテキサス州刑事司法省が公開していたデータで、原因はその記載ミスだったという。
T-Squared: Why We Unpublished Our Prisoner Database (Texas Tribune)
データがおかしければ公開元に問い合わせる。そして、データに根本的な問題が見つかれば、その入手にどれだけの手間隙がかかっていても公開を見合わせる。
▼文脈こそ王だ
記事に正しい文脈を与えることは、データジャーナリズムの重要な役割だ。そこで読者を誤解させてはならない。グラフを使う場合には、目盛りの起点をゼロにしないと、データの変化が実際よりも大振りな印象を与えてしまう。特にビジュアルの比較では、読者の錯覚をまねかないように。
▼調査結果の報道には元データの検証を
調査結果として公開されているデータは、何らかのバイアスがかかっている可能性もある。調査の設問、回答の元データを検証することが重要。自分で調査協力を呼びかける場合には、データに異常な偏りがないか、「遊ばれて」ないか、チェックが必要になる。
▼予測報道は慎重に
報道の正確性との関係で、特に慎重さが求められるのが予測報道。精度の低い予測は、悪影響を及ぼすことになる。「正しく予測できないのに、できているように装うことは、まず間違いなく害を及ぼす。感染症学者などの医療コニュニティの人々は、それを理解している。彼らはヒポクラテスの誓いに忠実であるからだ:なによりも害をなすなかれ(Primum non nocere)」(ネイト・シルバー氏)
▼ハッカーとジャーナリストの倫理が衝突することもある
データジャーナリズムの取り組みの中には、ジャーナリストとハッカー(プログラマー)がコラボレーションをする「ハッカソン」などのイベントもある。「共有・公開・分散」というハッカー倫理は、取材過程やデータを非公開とするジャーナリストの行動規範と衝突し、反倫理的と糾弾されることすらある。
ウィキリークスの米軍機密情報を、ガーディアンやニューヨーク・タイムズが報じたケースでは、メディア側は提供された生データをそのまま公開するのではなく、ジャーナリズムとしての編集判断から、情報提供者の身元保護や安全保障上の危険を招かぬようデータの一部を非公開とした上で、掲載した。
Data in the News: Wikileaks (Data Journalism Handbook)
▼プライバシーとデータジャーナリズムが衝突することも
昨年12月、コネチカット州ニュータウンの小学校での銃乱射事件を受け、ニューヨークのジャーナルニュースが、ニューヨーク州の銃携帯許可証保有者の名前と住所のデータをグーグルマップに掲載したケースでは、これに反発した弁護士が、同紙のCEOや記者らの住所と電話番号を公開するという、プライバシーを巡る激しい応酬となった。
Map: Where are the gun permits in your neighborhood? (The Journal News)
Newspaper sparks outrage for publishing names, addresses of gun permit holders (CNN)
ウィスコンシン大学マディソン校ジャーナリズムスクール助教のキャサリン・カルバーさんの議論が興味深い。
カルバーさんは、犯罪者の視点から見れば、このマップは銃を盗み出すターゲットにすることもできるし、マップに表示されていない世帯は銃を所持せず防犯レベルが低いことを意味する、と捉えることもできるという。つまり、「報道による悪影響を最小限にする」という倫理基準と衝突すると。マップで個人を特定するよりも、集計データとして丸めた方が公共の利益にそぐうものになったのではないか、というのだ。
Where the Journal News Went Wrong in Mapping Gun Owners (MEDIASHIFT)
問われているのは、公共の利益と個人のプライバシーのバランスだ。
カンザスシティ・スターが、匿名化された連邦政府の医療過誤賠償データベースと、他の様々な公開データをマッチングさせたところ、長年にわたり、医療過誤訴訟を起こされながら、医師免許に関する処分を一切受けていない医師21人を特定することができた、という。
Bad Medicine: Doctors with many malpractice payments keep clean licenses (Kansas City Times)
Withdrawal of Database on Doctors Is Protested (New York Times)
公共の利益が優先する、データを駆使した調査報道の成果といえるだろう。
▼スクレイピングの負荷、精度、著作権問題
Ethics in data journalism: mass data gathering–scraping, FOI and deception (Online Journalism blog)
ウェブ上でデータの自動収集「スクレイピング」には、データ収集先のサイトにかかる負荷への配慮、収集方法の透明性が必要。さらに、そのデータの鮮度、精度を確かめることも。収集データの全量を公開するとなると、その著作権を巡る問題も浮上してくる。
▼情報源の保護と内部告発の扱い
Ethics in data journalism: protection of sources, leaks and war (Online Journalism blog)
内部告発により入手した文書ファイルには、作成日時やアカウントなどのメタデータが記録されているため、オリジナルをそのまま公開すると、告発者の身元特定につながってしまう。コピーしたものであっても、電子透かしが入っていて、やはり身元特定の手がかりになる危険がある。
また軍事、テロ対策に関する告発文書の扱いは、公共の利益との利益衡量が必要になる。
▼データジャーナリズムのチェックリスト
そして、ブラッドショーさんは最後にこんなチェックリストを掲げている。
1.データにもとづいた報道の正確さを、どのように確認するか? その明確化のために、どのような確認手順を組み込んでおくべきか?
2.データをいかにして文脈に落とし込むか? データを常に、歴史的なトレンドと合わせて、相対化できているか? データの収集方法をチェックしたか?
3.全量データを公開する、あるいはデータの自動公開をする場合、考慮すべき点は何か?
4.データを入手する場合の注意点は何か?
5.コラボレーションのプロジェクトを行う場合、すべての参加者が倫理、価値、役割を共有できていることを確認したか?
6.それが最も重要なデータだと、どのように判断したのか? さらに確認作業は必要ではないか? 単に最も使いやすいデータだった、ということはないか?
データジャーナリズムに関心のある方は、原文の通読をおすすめします。
———————————–