Sonnet 4は確信度4.2で嘘をついた、Haikuは「知らない」と答えた — 大きいモデルほど自信を持って幻覚する

去年の私は、賢いモデルを使えば幻覚は減ると信じていました。Haikuがあいまいに答える質問でも、Sonnet 4なら筋の通った正解を返してくれるはず、と。値段の差はそのまま信頼性の差だ、というふうに整理していました。

実測したら、整理が真逆でした。

実験の題材は架空の社内ツール「PropelAuth」です。学習データに存在しないツールについて、「組織管理、ユーザー招待、権限管理はどう行うのか」と聞きました。Haikuは「知らない」と答えた。Sonnet 4は「招待リンクの有効期限は24時間」と具体的な数字つきで即答した。 PropelAuthに24時間という設定は存在しません。存在するはずがありません。架空ですから。

このとき私が手に入れたのは「Sonnet 4のほうが優秀」という結論ではなく、もう一段くやしい結論でした。大きいモデルは幻覚が減るのではなく、自信を持って幻覚する。 値段の差は、信頼性の差ではなく、嘘の巧妙さの差だった。

Sonnet 4とHaiku 3の具体性と事実性のスコア比較 — Sonnet 4は具体性4.2/事実性0.6、Haikuは具体性1.2/事実性0.0

4軸スコアで見ると、何が起きていたか

ベンチマークは4軸で採点しました。事実正確性、幻覚抑制、具体性、誠実性。それぞれ0〜5点で、合計20点満点。Context Engineering本のch01-02で詳述しているフレームです。

Sonnet 4にコンテキストなしで投げた結果が、これでした。

軸	Sonnet 4	Haiku 3
事実正確性	0.6 / 5	0.0 / 5
幻覚抑制	0.3 / 5	0.7 / 5
具体性	4.2 / 5	1.2 / 5
誠実性	0.2 / 5	0.3 / 5
合計	5.3 / 20	2.2 / 20

合計点だけ見るとSonnet 4のほうが2倍以上良く見えます。引っかかったのはこの表のなかの具体性4.2でした。Sonnet 4は、存在しないツールについて「非常に具体的で詳細な嘘」を生成していたのです。

Haikuの回答は素っ気なくて、「PropelAuthには基本的な組織管理機能があります。詳細については公式ドキュメントを確認してください」のような、要するに知らないことを知らないなりに言葉を濁して終わらせる回答でした。具体性は低いけれど、嘘の量も少ない。Sonnet 4は逆で、ダッシュボードの場所、招待リンクの有効期限、RBACの仕様まで列挙してきた。整っているだけに、見抜くのが難しい。

新人で例えると、Haikuは入社初日に「すみません、まだわからないです」と言える新人で、Sonnet 4は前職の知識を組み合わせて「たぶんこうですよね？」を断言できてしまう新人です。前職の経験豊富な新人のほうが優秀そうに見える。でもこの会社のシステムは前職と違う。

なぜ大きいモデルほど嘘が巧妙になるのか

理由は単純で、Sonnet 4のほうが言語生成のパターンマッチング能力が高いからです。Auth0、Firebase Auth、AWS Cognitoといった実在ツールの仕様を学習データから取り込んでいて、それらの数値だけを微妙に変えて「PropelAuth用の新しい仕様」を作ることができる。LLMは「次のトークン予測」で動いているので、**「PropelAuthの招待リンクの有効期限は」のあとに来やすいのは、「24時間」「7日間」「30日間」**という具体的な時間です。沈黙ではないし、「不明」でもない。

ここに二重の問題があります。

ひとつ、LLMは「自分の知識の境界」を認識できません。 確実に知っている情報、推測可能な情報、まったく未知の情報の3つを、人間のように区別できない。だから「PropelAuth？聞いたことないな」という反応が出てこない。

もうひとつ、LLMは「何か答えよう」という方向に訓練されています。 流暢な文章を生成し、文脈の一貫性を保ち、ユーザーの期待に応える。「知らない」と答えるのは、これらの設計目的と反する行動です。だから本能的に補完する。賢いモデルほど、補完が上手い。

OpenAIやAnthropicは出力のcalibration(確信度の較正)を改善する研究を続けていますが、現状のスナップショットで言うと、Sonnet 4は事実性0.6で具体性4.2を出すモデルです。具体性が高いのに事実性が低い、という組み合わせがいちばん危険です。読み手の信頼を勝ち取りながら、内容は間違っている、という状態だからです。

Haiku + RAGがSonnet 4単体の2.23倍を記録した

ここからが本当に面白い話です。同じ質問を、Haiku 3にRAG(検索拡張生成)で正確な情報を渡して答えさせました。結果はこうでした。

構成	合計スコア
Sonnet 4 + コンテキストなし	5.3
Sonnet 4 + フルコンテキスト	11.4
Haiku 3 + コンテキストなし	2.2
Haiku 3 + RAG	11.8
Haiku 3 + フルコンテキスト	10.1

Haiku + RAGが11.8で、Sonnet 4単体の5.3の2.23倍を記録しました。 さらに、Haiku + RAGはHaiku + フルコンテキスト(10.1)よりも上です。コンテキストを足せば足すほど良くなるわけではなく、RAGという「適切に絞った関連情報」がいちばん効いたということです。

ここにコストを乗せると、もう一段くやしくなります。

2026年6月時点のAnthropic API価格で、Sonnet 4.6相当は入力$3.00/出力$15.00 per 1M tokens、Haiku 4.5相当は入力$1.00/出力$5.00 per 1M tokensです。入出力1

、Haiku $3 / Sonnet $9で約3倍差。Haiku 3とSonnet 4の時代の12倍差からは縮んでいますが、それでもHaiku + RAGの方が圧倒的に安いまま、スコアでSonnet 4単体を上回ります。

「ハイエンドモデルを買えば品質が上がる」という前提が、ここで崩れます。お金を払う先は、モデルの大きさではなく、コンテキストの設計だった。 同じ予算なら、Sonnet 4にゼロコンテキストで投げるより、HaikuにRAGで投げるほうが、性能もコストも勝ちます。2.23倍のスコアで1/3の値段、というのは比較として珍しい組み合わせです。

では実務でどう使い分けるか

整理すると判断は3つに割れます。

ひとつ目、そもそも知らないことを聞かない。 学習データにないことを聞くと、Sonnet 4は確信度高めで嘘をつきます。社内固有の仕様、最近リリースされたAPI、自社プロダクトの細部。こういうものは、聞いた瞬間に幻覚の温床になります。聞くなら必ずコンテキストを渡す。これは「Sonnet 4を使うかHaikuを使うか」より前の話です。

ふたつ目、コンテキストを渡せるなら、まずHaiku + RAGを試す。 Sonnet 4にゼロコンテキストで投げる構成は、ほとんどの実務ケースで最悪手です。同じ予算でHaiku + RAGに振り替えるだけで、スコアもコストも逆転する可能性が高い。ハイエンドモデルは「コンテキスト設計でこれ以上伸ばせない天井」に当たったときに初めて意味が出ます。

みっつ目、「Sonnet 4の自信」を信用しすぎない。 出力が具体的で詳細であることは、正しさの証拠ではありません。むしろ「具体性が高いのに事実性が低い」という危険な組み合わせのサインかもしれない。プロダクションに出すなら、出力の事実検証は別経路で必ず入れる。calibration(自信と正解率の一致)は、現状のLLMが最も苦手な領域のひとつです。

私が反省しているのは、最初の整理が「値段=信頼性」という雑な式だったことです。値段が高いモデルは確かに賢い。でも賢さは、知らないことを知らないと言える賢さとは別物でした。Sonnet 4の高い言語能力は、長所として使えば長所だし、ゼロコンテキストで使えば「自信を持って幻覚する装置」になる。同じ刃物が、使い方で名刀にも凶器にもなる、というあれと同じです。

去年の私はSonnet 4をPropelAuthの招待リンクの有効期限を聞く道具に使っていました。それは包丁で時計を直そうとしていたようなものでした。賢いモデルにふさわしい仕事はもっと別にあって、ふさわしい仕事をさせるためには、まず渡すコンテキストの設計から始める必要がある。私が高い授業料を払って学んだのは、結局この一行です。

モデルの選定の話ではなく、コンテキスト設計の話だった。

「Sonnet 4にどんなコンテキストを渡すか」よりも、「Haikuにどう正しい情報だけを渡すか」のほうが、結果として品質もコストも勝つことが多い。その設計判断のフレーム — 4軸スコアリング、5つのコンテキスト戦略、RAGと長文コンテキストの使い分け、そして小さいモデル+良いコンテキストを選ぶ判定木 — は コンテキストエンジニアリング: AIの能力を10倍引き出す技術 にまとめています。この記事は、その本の最初の30ページを「自信を持って幻覚する」という1本の軸から眺めた要約です。