ウィキペディアで一日に削除されるページ
d:id:QtGqCwfDSA:20080119を書いて思い出したかのようにこのトピックを復活してみる。はいその通りです。
ウィキペディアから「消える」ページ
ウィキペディアの記事は増える一方ではなく、その裏では様々な事情で消えゆくページもあります。新たに立てられたものの短すぎて記事として成立しないもの、いたずらや露骨な宣伝行為で作られたものは、管理者によってページの存在そのものが消去されます*1。なお、後で詳しく述べるように、どの管理者が何時そのページを削除したかは記録されます。
また、ウィキペディアが使っているMediaWikiは履歴も残るため、著作権侵害やプライバシーなどの問題は単純に編集で解決することができず、それが書き込まれた途中の版は管理者によって消去する必要があります。ここでは、そのような「管理者」によって消去されたページを取り上げます。管理者が可能なオペレーションについては Wikipedia:管理者#どのようなことができるのかをごらんください。
元データ
ウィキペディアでは、ページの削除ログもすべて公開しています。また、ウィキメディア財団が提供するデータベースダンプからもMySQLのダンプ形式でログを取得できます。
今回は、2007年11月21日時点のデータベースダンプを調査に使いました。
データのフォーマットは次のようになっています。ここでは「脳年齢」の削除記録を例にします。
まあこういうのがずらずらと並んでるわけです。これをINSERT INTO `logging` VALUES でガシガシつっこんでくってのがデータベースダンプの中身になってます。
('delete','delete','20070825121721',29811,0,'脳年齢','内容: \'{{db|非常に短い記事・定義未満・即時削除歴あり}}脳年齢とは、脳の機能低下の程度、働きの能率などを元に算...\'3回目。もっと書くことないんですか?),
1つめと2つめのカラムは行った操作を示します。このログには削除だけでなく画像アップロードやページの移動なども記録しています。
3つめは削除された時間、4つめは削除を行った管理者のユーザID、5つめは下で詳しく述べる名前空間、6つめは記事名といった感じです。雰囲気で大体の内容は分かるとおもいます。
計測方法
今回は、一日あたりに行われた標準記事空間*2内にあるページの削除をカウントしました。期間はログの残っている2004年12月23日から2007年11月21日まで、一日の定義はUTCの0:00:00〜23:59:59に設定しました。
データベースダンプは自作のプログラムを使ってパースしました。Eclipseがちょうど起動してたからその勢いでJavaで書いちゃったけど、無圧縮で高々77Mバイト*3だからPythonでちゃちゃっとやってもよかったね。
考察
じつは2007年って管理者は増えるどころか減ってる*4らしいんで、一人あたりの負担は増す一方っていう微妙な状況。2006年8月に異常なピークがあるのは、ポケモンのキャラクター記事で大量の転載への対処のようです。
*1:厳密には、表に現れなくなるだけでサーバのデータベースには残っており、管理者の操作でそれを復帰することも可能。もちろん公開されてるデータベースダンプ内にそのデータは入ってないです。
*2:いわゆる普通の記事ページはこの空間に属します。ウィキペディアのプロジェクト文書や利用者の会話ページなど、別の空間に属するページもあります。詳細はWikipedia:名前空間を読んでください。
*3:d:id:QtGqCwfDSA:20071127のときはさすがに厳しいけど
*4:http://ja.wikipedia.org/wiki/Wikipedia:%E7%AE%A1%E7%90%86%E8%80%85%E3%81%B8%E3%81%AE%E7%AB%8B%E5%80%99%E8%A3%9C#.E5.88.A9.E7.94.A8.E8.80.85:Kiyok