← ブログに戻る

同じサイトを7つのAI引用トラッカーに入れたら、7つとも違う数字を返してきた

LLMOGEOAISEO計測

私は最初、7つのトラッカーを並べれば多数決で正解が出ると思っていました。実際に並べたら、7つとも違うことを言っていて、多数決すら成立しませんでした。

最小値は38、最大値は312。同じサイト、同じ15日間、同じ12クエリです。倍率にして 8.2 倍の開きでした。先に結論を書くと、私が最後まで残したのは月29ドルの一番安いやつでした。理由は「一番正確だったから」ではなく「自分が何を数えているか正直に書いてあったから」です。

7つのAI引用トラッカーが、kenimoto.dev に対して同じ15日間で38から312まで違う数字を返した比較表

計測の前提

私は kenimoto.dev を4言語で運用しています。AI検索が本当にこのサイトを見ているのか、ずっと気になっていました。気がついたら、各社の無料トライアルが受信箱に溜まっていたので、全部いっぺんに同じ条件で走らせてみたわけです。

自分に課したルールは次の4つです。

  • 対象サイトは kenimoto.dev 一本に絞る(/ja/、/pt/、/es/ も含む)
  • 計測期間は 2026年5月1日から5月15日までの15日間
  • 12個のブランドクエリを一度だけ作り、全ツールで共通利用する
  • 5つのLLM(ChatGPT、Claude、Gemini、Perplexity、Copilot)への参照を見たい

12個のクエリは、たとえば「Claude Code のサブエージェント構成のおすすめ」「LLM 引用の計測方法」「300ms以下の音声AIスタック」など、私のコンテンツが元々狙っている領域から選びました。

ツールは7つ選びました。商用が6つ、自前のスクリプトが1つです。7という数字にこだわったのは見出しのためですが、現実的にLLMO担当者が比較検討する候補数も大体これくらいです。

採用したツールは以下の通りです。

  1. Profound(月499ドル、エンタープライズ向け、SOC2 / HIPAA対応)
  2. Peec AI(月89ユーロ、ベルリン拠点、多言語に強い、115言語以上)
  3. Otterly AI(月29ドル、最安、Semrush 連携あり)
  4. Bluefish AI(要問い合わせ、Fortune 500 向け)
  5. Scrunch(中位帯の可視性計測ツール)
  6. Semrush AI Toolkit(既存SEOスイートに同梱)
  7. 自前のPythonスクリプト(OpenAI、Anthropic、Perplexity の API 利用、月8ドル相当)

各ツールに kenimoto.dev を登録し、UI が許す範囲で12クエリを共通設定にし、15日間放置してエクスポートしました。

数字

同じサイトに対して、各ツールが返してきた引用数は以下のとおりです。

ツール引用数最小値との比
Otterly AI381.0倍
自前 Python541.4倍
Semrush AI Toolkit711.9倍
Bluefish AI892.3倍
Profound1473.9倍
Scrunch2035.3倍
Peec AI3128.2倍

最小と最大の差は 8.2 倍です。誤差とか丸めの話ではなく、まるごと別の値です。

最初は私もエクスポート結果を読み違えたのかと思って、各社のドキュメントを並べて読み直しました。答えはそこにありました。

なぜ 7 つの数字が割れたのか

各社のドキュメントを横並びで読むと、これはバラツキではなく「定義の問題」だと分かります。バラツキの軸は4つあります。

1. 「引用」の定義そのものが違う

これが一番大きい要因でした。各ツールは違うものを数えていて、それを全部「citation」と呼んでいます。

  • Profound は、LLM の回答にあなたのドメインへのクリック可能なソースリンクが含まれている場合のみカウントします。厳格でアトリビューションには使えますが、リンクなしの言及は全部こぼれます。
  • Peec AI は、回答テキストにブランド名が出たら全部カウントします。リンクの有無は問いません。Perplexity が「Ken Imoto が書いたこのガイドが参考になる」と言ったら、リンクなしでも1カウントです。これが最大値の理由です。
  • Otterly AI は Profound に近く、ただし「同一クエリ・同一日」で重複を排除します。それで数字が大きく圧縮されます。
  • Bluefish AI は競合との Share of Voice 計算を返します。引用数というよりも順位に近い指標です。
  • Scrunch はブランド言及とソースリンクの両方をカウントし、重複排除なしです。中の上ぐらいの数値になります。
  • Semrush は構造化された回答の URL フィールドにあなたのドメインが出た場合のみカウントします。最も厳格な解釈です。
  • 自前 Python は私が決めた通りに数えます。今は「回答テキストにブランド文字列が出る、クエリごとに重複排除、3サンプル平均」です。

この中の任意の2つの定義は、絶対に一致しません。これはベンダーが悪いのではなく、業界がまだ「引用とは何か」の共通定義を持っていない、という話です。

2. サンプリング対象の LLM が違う

私が気にしている5つの LLM のうち、全部をカバーしているツールはほぼありません。

ツールChatGPTClaudeGeminiPerplexityCopilot
Profound××
Peec AI
Otterly××
Bluefish××
Scrunch×××
Semrush××
自前 Python××

Peec AI だけが5つ全部を見ています。それだけでサンプリング面積が大きく、最大値になる理由のひとつです。Scrunch は ChatGPT と Perplexity の2つだけしか見ていないのに数字が大きいので、その2つの面で実際に多く引用されているとも読めます。

ChatGPT だけを気にしているなら、どのトラッカーを選んでも大差ありません。Gemini や Claude が重要なら、選択肢は半分以下になります。

3. サンプリングの頻度と重複排除のルール

ほとんどのツールは各クエリを毎日走らせます。一部は週次です。Otterly は毎日走らせますが、24時間以内の重複を排除します。1日に5回言及されても1カウントです。Peec AI は毎日走らせて毎回別カウントです。15日 × 12 クエリの規模だと、これが効いてきます。

4. 多言語に対応しているか

私は4言語で公開しています。多くのツールはデフォルトで英語のみサンプリングし、明示的に言語セットを設定しないと他言語を見ません。Peec AI が一番役に立つ多言語数値を返してきた理由は、115言語をデフォルトで見にいくからです。他のツールは PT と ES のトラフィックをほぼ無視していて、結果として LatAm とブラジルで実際に起きていることを過小評価しています。

つまらない結論: 定義を選んでから、ツールを選ぶ

2週間この数字を眺めて分かったのは、「どのトラッカーが一番正確か」という問いがそもそも間違っているということです。AI 引用には正解がありません。LLM はブラックボックスで、同じプロンプトでも時刻・地域・データセンターによって違う回答を返します。Google Search Console のような確定的なソースが存在しないのです。

正しい問いは「自分のビジネス成果に対応する『引用』の定義はどれか」です。

  • アトリビューション流入(誰かが実際にリンクを踏む)を見たいなら、Profound か Otterly が向きます。リンク付き引用だけをカウントするので、数字は小さくなりますが GA4 のリファラデータと照合できます。
  • ブランド存在感(リンクの有無を問わず、LLM があなたを言及している)を見たいなら、Peec AI が良いです。数字は大きく見えますが、「ChatGPT が回答の中で私の名前を口にしている」という事実に最も近いプロキシです。
  • 競合ポジショニングを見たいなら、Bluefish か Scrunch が競合セットをネイティブに扱います。
  • 予算を抑えつつ自分で真実を握りたいなら、自前スクリプトが一番です。私のは OpenAI、Anthropic、Perplexity の API を200行のPythonでラップしただけで、月8ドル前後です。生の回答テキストも取れるので、商用ツールがグラフの奥に隠している部分まで grep できます。

業界が共通定義を持つまでは、どのベンダーも違う数え方をして同じ単語を使います。llmoframework.com が提案しているような分類軸が広まれば、ツール間の数字が初めて比較可能になります。

結局、私が残したツール

正直に書きます。私が今も使っているのは7つのうち2つだけです。

Otterly は残しました。安いし、厳格な定義が GA4 で検証可能だからです。「Otterly が引用ありと言っていて GA4 にもリファラクリックがある」のなら、両方信じます。自前 Python スクリプトも残しました。生テキストが取れるし、定義を明日変えたければ即変えられるからです。

残りは解約しました。悪いツールだからではありません。月499ドル払って、月29ドルのツールと整合しない数字を得ても、自分が賢くなるのではなく、むしろ判断が鈍るからです。

これから AI 引用トラッカーに金を出そうとしているなら、まず1文で「自分にとっての引用とは何か」を書いてみてください。次にベンダーに聞いてみてください、「あなたの定義は私の定義と一致しますか」と。多くは即答できません。それが答えです。

続きはこちら

この計測問題について、私が使っているPythonスクリプトと GA4 設定までまとめて書籍にしました。

なぜあなたのサイトはChatGPTに無視されるのか - LLMO実践ガイド