ウィキペディアで一日に削除されるページ

d:id:QtGqCwfDSA:20080119を書いて思い出したかのようにこのトピックを復活してみる。はいその通りです。

ウィキペディアから「消える」ページ

ウィキペディアの記事は増える一方ではなく、その裏では様々な事情で消えゆくページもあります。新たに立てられたものの短すぎて記事として成立しないもの、いたずらや露骨な宣伝行為で作られたものは、管理者によってページの存在そのものが消去されます*1。なお、後で詳しく述べるように、どの管理者が何時そのページを削除したかは記録されます

また、ウィキペディアが使っているMediaWikiは履歴も残るため、著作権侵害やプライバシーなどの問題は単純に編集で解決することができず、それが書き込まれた途中の版は管理者によって消去する必要があります。ここでは、そのような「管理者」によって消去されたページを取り上げます。管理者が可能なオペレーションについては Wikipedia:管理者#どのようなことができるのかをごらんください。

元データ

ウィキペディアでは、ページの削除ログもすべて公開しています。また、ウィキメディア財団が提供するデータベースダンプからもMySQLのダンプ形式でログを取得できます。
今回は、2007年11月21日時点のデータベースダンプを調査に使いました。

データのフォーマットは次のようになっています。ここでは「脳年齢」の削除記録を例にします。


('delete','delete','20070825121721',29811,0,'脳年齢','内容: \'{{db|非常に短い記事・定義未満・即時削除歴あり}}脳年齢とは、脳の機能低下の程度、働きの能率などを元に算...\'3回目。もっと書くことないんですか?),
まあこういうのがずらずらと並んでるわけです。これをINSERT INTO `logging` VALUES でガシガシつっこんでくってのがデータベースダンプの中身になってます。

1つめと2つめのカラムは行った操作を示します。このログには削除だけでなく画像アップロードやページの移動なども記録しています。

3つめは削除された時間、4つめは削除を行った管理者のユーザID、5つめは下で詳しく述べる名前空間、6つめは記事名といった感じです。雰囲気で大体の内容は分かるとおもいます。

計測方法

今回は、一日あたりに行われた標準記事空間*2内にあるページの削除をカウントしました。期間はログの残っている2004年12月23日から2007年11月21日まで、一日の定義はUTCの0:00:00〜23:59:59に設定しました。

データベースダンプは自作のプログラムを使ってパースしました。Eclipseがちょうど起動してたからその勢いでJavaで書いちゃったけど、無圧縮で高々77Mバイト*3だからPythonでちゃちゃっとやってもよかったね。

結果


プロット結果の他に、線形回帰グラフもおまけでつけてみました。まあ大体線形増加って感じですね。

考察

じつは2007年って管理者は増えるどころか減ってる*4らしいんで、一人あたりの負担は増す一方っていう微妙な状況。2006年8月に異常なピークがあるのは、ポケモンのキャラクター記事で大量の転載への対処のようです。

ウィキペディアプロジェクト内の転載問題

転載といってもウィキペディア内の記事からなんですが、ウィキペディアの記事が採用しているGFDLは転載の際に「著者」を明記する必要があり、編集履歴が適切に継承されていないとGFDL違反行為になってしまいます。編集履歴が継承されていないことによる削除は他言語版Wikipediaからの翻訳でもよく発生しています。

*1:厳密には、表に現れなくなるだけでサーバのデータベースには残っており、管理者の操作でそれを復帰することも可能。もちろん公開されてるデータベースダンプ内にそのデータは入ってないです。

*2:いわゆる普通の記事ページはこの空間に属します。ウィキペディアのプロジェクト文書や利用者の会話ページなど、別の空間に属するページもあります。詳細はWikipedia:名前空間を読んでください。

*3:d:id:QtGqCwfDSA:20071127のときはさすがに厳しいけど

*4:http://ja.wikipedia.org/wiki/Wikipedia:%E7%AE%A1%E7%90%86%E8%80%85%E3%81%B8%E3%81%AE%E7%AB%8B%E5%80%99%E8%A3%9C#.E5.88.A9.E7.94.A8.E8.80.85:Kiyok