「稼働率99.5%」と「5,000件の決済失敗」は同じ事実 — 障害報告のフレーミングが緊急度を反転させる
先に結論を言います。障害報告で「正確な数字を出せば中立だ」というのは思い込みです。 同じ正確な数字でも、「影響率」で書くか「影響の内容」で書くかで、受け手の緊急度判断は安心にも危機にも振れます。だから報告は、書くものではなく設計するものだと私は考えるようになりました。
きっかけは、自分のオンコール当番でやらかした夜です。
「99.5%維持してます」で、私はチームを油断させた
ある夜、決済まわりのエラー率が上がりました。私はダッシュボードを開き、数字を確認し、チームのチャンネルにこう書きました。
「決済の成功率、いま99.5%を維持しています。一過性のスパイクっぽいので様子見します」
嘘は一文字もありません。本当に99.5%でした。みんな「了解、様子見で」と返してきて、私も安心してログ調査に戻りました。
問題は、その裏側です。そのサービスは1日およそ100万リクエスト。99.5%ということは、0.5%が失敗している。つまり5,000件の決済が落ちている。 同じ数字を私がこう書いていたら、空気は完全に違っていたはずです。
「いま5,000件の決済が失敗しています」
前者は様子見、後者は全員招集。数字は同じ99.5%なのに、です。私はその夜、「99.5%」という安心側のフレームを無意識に選んで、自分のチームの初動を遅らせていました。

なぜこれが起きるのか:フレーミング効果
この現象には名前があります。フレーミング効果です。同じ情報でも、提示の仕方(フレーム)によって人の判断が変わる。トベルスキーとカーネマンが1981年の論文で実証した、認知バイアスの古典です。
有名な実験はこうです。「600人が死ぬ病気」に対して、「200人が助かる対策A」と「400人が死ぬ対策B」を提示する。AとBは数学的に同じ結果なのに、「助かる」とフレームされたAを多くの人が選ぶ。生存フレームと死亡フレームで、選択がひっくり返るわけです。
障害報告は、これがそのまま効く現場です。私たちは数字を扱っているから「自分は定量的で中立だ」と思いがちですが、その数字をどのフレームに乗せて渡すかを選んだ時点で、もう中立ではありません。
「影響率」と「影響の内容」は緊急度が違う
実務でいちばん混乱を生むのが、この2つのフレームの取り違えです。
- 影響率フレーム:「10万ユーザー中100人が影響(0.1%)」
- 影響内容フレーム:「100人のユーザーが決済できていない」
同じ100人の話です。でも前者は「0.1%か、まあ軽微だな」と聞こえ、後者は「100人が金を払えないのか、まずい」と聞こえる。パーセントは事象を薄め、人数と「何ができていないか」は事象を濃くします。
ここに意図せぬフレーミングと意図的なフレーミングの両方が潜んでいます。
意図せぬケースは、私の99.5%がまさにそれでした。悪意ゼロで、ただ手元にあった数字をそのまま書いただけ。でも結果として、チームを油断させた。
意図的なケースは、逆方向に使えます。優先度を正しく上げたいのに「0.1%」と言うと埋もれてしまう。そういうときは率を捨てて、内容でフレームする。「0.1%の影響です」ではなく「売上に直結する決済機能が、100ユーザーで停止中です」と書く。同じ事実を、緊急度が正しく伝わる側に乗せ替えるわけです。
ここで線を引く:これは「数字を盛れ」ではない
念のため、はっきりさせておきます。私が言っているのは「数字を大きく見せて煽れ」ではありません。それをやった瞬間、信頼という一番大事な資産を溶かします。
フレーミングの怖いところは、意図的な操作と紙一重だという点です。「100人が決済不能」と書くのは事実です。でもそこに無いものを足したり、無関係に大きい母数を選んで率を恣意的にいじったりした瞬間、それは報告ではなく演出になります。
私が線を引いている基準はシンプルです。同じ真実を、緊急度が正しく伝わるフレームで渡す。 真実は1ミリも動かさない。動かすのは、受け手が事態の重さを正しく受け取れるかどうか、その一点だけです。盛るのではなく、霞ませない。これは別物です。
報告を「設計」する3つのルール
あの夜以来、私が自分とチームに課しているルールが3つあります。どれも個人の注意力に頼らない、仕組み側の対策です。障害対応中の脳は、いちばん油断しやすいときにいちばん頼りにならないので。
1. 率で止めず、内容まで落とす
ポストモーテムでもインシデント中の一報でも、「0.5%失敗」だけで止めない。必ず「= 5,000件 / うち決済◯件」まで具体に落とす。率はインパクトを薄める方向に働くと知っておいて、人数・件数・「何ができていないか」をセットで書く。
2. 5分続いたら、人間の判断を待たずにエスカレーション
正常性バイアス(「まだ大丈夫」「誤検知だろう」)は、私の99.5%発言と相性が最悪です。だから「人が様子見と判断する」余地を狭める。アラートが5分以上継続したら自動でオンコールに通知が飛ぶようにしておく。私の油断を、私の判断の外側で止める仕組みです。
3. エラー率がしきい値を超えたら自動投稿
「報告するかどうか」を人に委ねない。エラー率がN%を超えたら、フレームの選びようがない生データがそのままチャンネルに自動で流れるようにする。私が安心フレームを選ぶ隙を、最初から消しておくわけです。
共通しているのは、バイアスが最強になる場面ほど、判断を仕組みに逃がすという発想です。チェックリスト、自動エスカレーション、自動投稿。どれも「私が冷静なら不要」なものですが、障害対応中の私は冷静ではない。そこを正直に認めるところからしか、まともな対策は始まりません。
まとめ
- 「99.5%成功」と「5,000件失敗」と「100人が決済不能」は、まったく同じ事実です。緊急度だけが違う
- 正確な数字でも、率でフレームするか内容でフレームするかで、受け手の判断は安心↔危機に反転する(フレーミング効果, Tversky & Kahneman 1981)
- これは「数字を盛れ」ではない。真実は動かさず、緊急度が正しく伝わるフレームを選ぶ。盛るのと霞ませないのは別物
- 個人の注意力に頼らず、内容フレーム・自動エスカレーション・自動投稿という仕組みで守る
報告を受ける側になったときも、この知識は効きます。「この一報はどのフレームで書かれているか」を一拍置いて検証できるようになる。99.5%と言われたら、頭の中で5,000件に翻訳してから反応する。それだけで、油断側に倒れる回数がだいぶ減りました。面白くいきましょう。
この記事は役に立ちましたか?