事実を整える

Nathan(ねーさん) ほぼオープンソースをベースに法的観点を含む社会問題についても、事実に基づいて整理します。

「検察庁法改正案に抗議します」ねとらぼがツール調査でスパムが4.87%と算定

f:id:Nathannate:20200512152241j:plain

「#検察庁法改正案に抗議します」に関してねとらぼがツールで調査したのでその結果を整理して評価を加えます。

ねとらぼがツール調査でスパムが4.87%と算定

「検察庁法改正案に抗議します」500万ツイートを集めた「最初の1ツイート」はどのように広まったか?(1/3) | ねとらぼ調査隊

【追記 :(5月11日21時50分)】
 「500万件のツイートは、そのほとんどがスパムツイートにより水増しされたもので、実際のツイート数ははるかに少ないという疑惑がある」旨の指摘を受け、再調査した結果について追記します。

 調査に使用したSNS分析ツール(BuzzSpreader Powered by クチコミ@係長)のスパムフィルタをオンにして、該当ハッシュタグのツイート数の増減を比較したところ、フィルタオフ時には「51万3155件」(10%サンプリングのため、実数はその約10倍ある)だったのに対し、フィルタオン時のツイート数は「48万8175件」(同10%サンプリング)でした。結果、スパムと判定されたのは「約4.87%」でした。

 同ツールのスパムフィルタでは、アフィリエイトやアプリによる自動投稿や、ツイート内容のほとんどがURLや同じ様な内容の繰り返しであるツイートをスパムと判定して排除します。また指摘された一例として、下記のような多重投稿は、「フィルタオフ」時でもツイート数の集計結果には入っていませんでした。(追記終わり)

「#検察庁法改正案に抗議します」のTwitter上のトレンドについて、ねとらぼがツール調査をしました。

その結果、当該ハッシュタグに関するツイートについては、スパムフィルタオンの場合には「約49万件」であり、10%サンプリングなので実数は10倍だとしています。

そして、「スパムが4.87%」(!)と算定しています。

さて、この結果をどう理解すればよいでしょうか?

ねとらぼの記事では手法と結果のみであり考察はありませんのでここで考えてみます。

Yahooリアルタイム検索で「#検察庁法改正案に抗議します」を調べると…

f:id:Nathannate:20200512120119j:plain

Yahooリアルタイム検索で「#検察庁法改正案に抗議します」を調べることができます。

7日間スパンの場合には2時間ごとの件数が表示されます。

すると、5月9日の途中から2時間あたり1000件以上になってから11日の0時までの期間(多くのメディアが10日夜までのTwitterトレンド上の件数を報じたので)の件数を足してみると、約40万件でした。

ねとらぼの数字と10倍以上の差があります。

これはどういうことでしょうか?

Twitterトレンド上の件数表示のカラクリ

ここでも説明していますが、実はTwitterトレンド欄の件数表示は単に当該文言を含むツイートの数を表しているのではありません。

そのツイートのリツイートなどの要素が加味された件数なので、実際のツイート数よりも数倍規模になることが通常です。

実際に私が自身でTwitter上の検索窓から文言検索をした結果、Yahooリアルタイム検索と同じ数値になりましたから、リアルタイム検索はリツイートは含まない数値を拾っていると言えます。参考:ニューヨークタイムズのモトコリッチ「日本Twitterで中国人は来るながトレンド」と捏造か?

ねとらぼが使用したツールは、Twitterトレンド上の件数表示に近いものを採用しているのだと思います(まったく同じ数値を拾うものかは不明)。

で、フェルミ推定すると、実際に当該ハッシュタグを含むツイートをした人間は数万人程度と考えられます(詳細は上記記事参照)。

何らかのツールを使って詳細分析された方はこちら

「検察庁法改正「法」案に抗議します」との混同

  1. 「#検察庁法改正案に抗議します」
  2. 「#検察庁法改正法案に抗議します」

10日にトレンドに上がり報道されたのは1番の方であり、「スパムが削除された」などと言われたのちにトレンドに上がったのは2番の方です。文言として「法」が挿入されています。

ここが混同されて論じられている点があるので注意してください。

スパムが「大量削除されてトレンド上の数字表記が減った」という実態は不明としか言えません。

ただ、【Twitter側が「検察庁法改正案に抗議します」をスパム判定してトレンドから排除した】ということは言えます。

11日深夜0時以降のツイート数を比べると、1番のツイート数は2番のツイート数よりも多いからです。

f:id:Nathannate:20200512152241j:plain

「当該ハッシュタグを含むツイートの勢いが衰えたから自然にトレンドからランクアウトしていった」ということはありえないわけです。

それはTwitter側がツイートそのものではなく当該ハッシュタグ自体をスパム判定したと見るほかないでしょう。

「約5%もスパムがあった」のは大問題では?

さて、ねとらぼでは「約5%スパムがあった」という結論が出てますが、この評価はどうするべきでしょうか?

この点を取り上げて「たった5%しか存在せず、ほとんどは自発的なツイートだ」と評価する人が居ます。

でも、それって公正な見方でしょうか?

スパムツイートによって水増しされたためにトレンドに表示され、興味を持った人が当該ハッシュタグを使って参加するようになった」という因果関係が疑われてしかるべきではないでしょうか?

ボットを利用するなどしてのスパムツイートをするくらいのアカウントは、このハッシュタグがトレンドに浮上する前の、最初期からツイートをしていた可能性が極めて高いと考えられるからです。

それによって釣られた利用者が最終的に大勢ツイートをするとスパムツイートの割合は相対的に小さくなるのは必然です。

そもそも25万件表示分のスパムがあったという事自体が異常です。

ねとらぼさんの利用したツールではどの時間帯からスパムツイートが行われていたかを調べることはできなかったのでしょうか?(ねとらぼさんを責めるつもりはなく、より厳密な調査をするなら、という意味で)

『#検察庁法改正「法」案に抗議します』等でもトレンドに上がったので民意?

同じ事が『#検察庁法改正「法」案に抗議します』にも言えます。

『#検察庁法改正「法」案に抗議します』等でもトレンドに上がったので、それは純粋な民意だとする人が居ます。

しかし、『#検察庁法改正案に抗議します』のハッシュタグがトレンド入りしてNHK含む大手メディアが報道した後に登場した類似のハッシュタグは、もはやマスメディアの報道の影響が介在してしまっていますから、公正な評価だと言うのはもはや難しいのではないでしょうか?

4月には朝日新聞が「#東京脱出」がトレンド入りしていたと報じましたが、当該ハッシュタグは朝日新聞が報道してからトレンド入りしたのであって、それ以前は15分に1~2件しかツイートされていなかったという事件がありました。それを思いだしましょう。

まとめ

  1. ねとらぼ使用のツールはTwitterトレンド上の件数表示に近い
  2. それはリツイート数なども加味した数値なのでツイートの数倍になるのが通常
  3. Yahooリアルタイム検索では拡散されてから約40万件
  4. スパムが約5%というのは少ないのではなく異常であり、拡散の因果関係を考えると「多くが自発的にツイートされた」と評するのは公平ではない
  5. 「#検察庁法改正案に抗議します」と「#検察庁法改正「法」案に抗議します」の混同に注意
  6. 「#検察庁法改正「法」案に抗議します」がトレンド入りしたのはメディアの報道の寄与分が大きい

作られたトレンドに乗っかってしまった人たちは反省してはいかがか。

以上