Chain-of-
Thought
LLMに思考過程を書かせるだけで推論精度が10〜30%上がる。6つのCoTバリエーションを日本語の実例と比較で解説。
2026年版: GPT-5、Claude 4、Gemini 2.5、o1系モデルでの最新適用例。
Chain-of-Thoughtとは、最も投資対効果の高い技法です。
プロンプトに「ステップバイステップで考えてください」という一文を追加するだけで、LLMの推論精度が10〜30%上がる。これがChain-of-Thought(CoT)プロンプティングの核心です。2022年にGoogleが発表した論文で提唱され、以後すべての主要モデル(GPT-4o、Claude 4、Gemini 2.5)で有効性が確認されています。
効果が大きいのは、数学問題、論理推論、コードデバッグ、複雑な意思決定、複数条件の判断など、最終回答に至るまでに複数のステップが必要なタスクです。逆に、単純な事実検索や短文翻訳では効果がほぼゼロかマイナスになるため、使い分けが重要です。
本ページでは、CoTの6つの主要バリエーション(Zero-shot、Manual、Self-consistency、Tree-of-Thoughts、Least-to-Most、Self-Ask)を日本語の実例で解説し、精度・コスト・複雑度の比較表、よくある落とし穴までを網羅します。
01
Zero-shot CoT
魔法の一文で精度を底上げ
いつ使う: 最も手軽なCoT。通常のプロンプトに「ステップバイステップで考えてください」を追加するだけ。推論系タスクの第一選択。
実例(日本語)
# 役割 あなたは会計監査を担当するシニア会計士です。 # 目的 次の経費報告書に不正の兆候がないか分析してください。 [経費報告書] # 指示 必ずステップバイステップで考え、各ステップを明示してから最終判断を下してください。
実務メモ: 日本語での表現例: 「順を追って考えて」「各段階を明示して」「思考プロセスを書き出してから結論を」。どれも同程度に機能します。
02
Manual CoT(Few-shot CoT)
推論の型を例示して教える
いつ使う: Zero-shotで精度が足りないタスク。推論パターンを2〜4例で示し、モデルに同じ思考プロセスを本番でも適用させる。
実例(日本語)
# タスク 顧客の解約確率を分析してください。 # 例 入力: 利用頻度が過去3ヶ月で40%減少、カスタマーサポートへの問い合わせが2件、競合サービスへの言及あり 推論: (1) 利用頻度の急減は離脱初期サイン。(2) サポート問い合わせが2件あるのは問題未解決の証拠。(3) 競合言及は比較検討フェーズを示す。3指標が揃うとき、解約確率は一般に高まる。 出力: 解約確率 高(推定70〜85%) 入力: 新機能の利用開始、拡張プランへの興味を表明、年次契約更新直後 推論: (1) 新機能利用は価値認識の兆候。(2) 拡張プランへの興味はアップセル機会。(3) 契約更新直後で心理的コミットメントが高い。ポジティブ指標が重なる。 出力: 解約確率 低(推定5〜15%) # 本番 入力: [実際の顧客データ] 推論: 出力:
実務メモ: 例は3〜4個が最適。例が多すぎるとモデルが例を過度に模倣し、本番入力の個別性を見落とす傾向があります。
03
Self-consistency
複数回推論して多数決
いつ使う: 重要な意思決定、ベンチマーク評価、金融・医療・法律など誤答コストが高いタスク。コストは倍増するが、精度が5〜15%向上する。
実例(日本語)
# プロセス(自己一貫性) 以下のタスクを5回独立に解いてください。各回、temperature=0.7相当の多様性を保ってください。 # タスク [推論タスク] # 指示 各回でステップバイステップに推論し、最終回答を出してください。 5回の回答を並べた後、最も多く出現した回答を「多数決最終回答」として提示してください。 票が割れた場合は、最も推論が強固だった回答を採用し、その根拠を明示してください。
実務メモ: ChatGPTのAPIでは `n=5` パラメータで簡易実装可能。Claude、Geminiでもプロンプト内で指示する形で実装できます。コスト感度が高い場合、重要タスクのみに限定してください。
04
Tree-of-Thoughts(ToT)
分岐を探索して最良経路を選ぶ
いつ使う: 複数の選択肢を評価する必要があるタスク(戦略立案、創造的問題解決、パズル)。CoTが一本道で行き詰まるケース。
実例(日本語)
# タスク [意思決定問題] # プロセス(Tree-of-Thoughts) 1. <分岐生成> 最初のステップとして考えられる選択肢を3つ列挙し、各選択肢が将来どう発展するかを簡潔に記述 2. <評価> 各選択肢を「解決可能性」で1〜5点採点 3. <枝刈り> 評価が低い選択肢を除外 4. <展開> 残った選択肢について、次のステップで考えられる分岐を各3つ生成 5. <再評価> 再び採点し、最良の経路を選ぶ 6. <結論> 最終的に選ばれた推論経路全体と、その経路での結論を提示 各ステップで、なぜその評価にしたかの根拠を1行で添えてください。
実務メモ: ToTは単発プロンプトより、LangGraphやCrewAIなどのエージェントフレームワークでの実装が主流。プロンプトだけで模倣する場合、タスクを小さく保ち、明確な評価基準を与えてください。
05
Least-to-Most Prompting
簡単な問いから順に積み上げる
いつ使う: 複雑な問題を一気に解くと誤答するケース。最終問題を小さなサブ問題に分解し、簡単な順に解いていく。
実例(日本語)
# 最終問題 [複雑な質問] # プロセス(Least-to-Most) 1. <分解> この問題を、より簡単な3〜5のサブ問題に分解してください 2. <順序> サブ問題を「解くのが簡単な順」に並べてください 3. <順次解答> 最初のサブ問題から順に解き、各サブ問題の答えを次のサブ問題に渡してください 4. <統合> 最後に、全サブ問題の答えを統合して最終問題の解を提示してください 各ステップで、サブ問題の答えを短くまとめ、次のステップで参照してください。
実務メモ: 数学の文章問題、複雑な契約解釈、多段階の論理問題で特に強力。GPT-4以降では自然なCoTに吸収されつつありますが、明示的な分解指示は今も有効です。
06
Self-Ask
自分で問いを立てて答える
いつ使う: 情報が断片的で、暗黙の前提を言語化する必要があるタスク。検索型タスクや事実確認で強力。
実例(日本語)
# 最終質問 [回答したい質問] # プロセス(Self-Ask) 最終質問に答える前に、必要なサブ質問を立ててください。 1. <サブ質問1> 必要な情報は何か? → 回答 2. <サブ質問2> それを知るには何を確認するか? → 回答 3. <サブ質問3> さらに必要な情報は? → 回答 ... すべてのサブ質問に答えた後、それらの回答を統合して最終質問に答えてください。 サブ質問の回答が不明な場合、「不明」と明示し、推測で埋めないでください。
実務メモ: ReActフレームワークの核となる考え方。ツール使用と組み合わせると、各サブ質問を外部検索やAPIで埋められ、強力なエージェントになります。
6バリエーションの比較。
精度・コスト・実装難易度で6つのCoTバリエーションを比較した早見表です。
| バリエーション | 精度向上 | コスト倍率 | 実装難易度 | 最適用途 |
|---|---|---|---|---|
| Zero-shot CoT | +10〜20% | ×1.5〜2 | 低 | 日常的な推論、初期試行 |
| Manual CoT(Few-shot) | +15〜25% | ×1.5〜3 | 中 | 特殊パターン、分類 |
| Self-consistency | +20〜30% | ×5〜10 | 中 | 高重要度の意思決定 |
| Tree-of-Thoughts | +25〜40% | ×5〜20 | 高 | 探索的問題、戦略立案 |
| Least-to-Most | +15〜25% | ×2〜3 | 中 | 多段階論理、数学 |
| Self-Ask | +10〜20% | ×1.5〜3 | 中 | 事実確認、情報統合 |
精度向上の数値は、GSM8K(数学問題ベンチマーク)での報告値レンジ。実務では概ね同じ傾向ですが、タスクによって変動します。
よくある5つの落とし穴。
CoTは万能ではありません。誤った使い方をすると、コストだけが増えて精度が下がることもあります。実務で最も頻出する失敗パターンと回避策です。
単純タスクにCoTを付ける
「日本の首都は?」のような一問一答タスクにCoTを付けると、モデルが不要な推論を生成し、ときにハルシネーションを起こします。CoTは複数ステップの推論が必要なタスクに限定してください。
推論過程だけを見て結論を見ない
CoTの出力は説得力のある推論に見えても、最終結論が間違っていることがあります。必ず結論を独立に検証してください。特に数値計算では、電卓やコードでの再計算を推奨します。
Self-consistencyで多様性が足りない
temperature=0に近い設定でself-consistencyを使っても、全回答がほぼ同じになり意味がありません。必ずtemperature=0.7以上で多様性を確保してください。ChatGPT Web版では「再生成」ボタンを5回押すのが簡易実装です。
長すぎる思考過程で本質を見失う
CoTの推論ステップが10個以上になると、モデルが途中で方向を見失うことがあります。ステップ数は3〜7が最適。Least-to-Mostで明示的に分解するか、段階的対話に分割してください。
推論を書かせたが読まない
CoTの最大の価値は、推論の透明性による検証可能性です。出力の推論部分を読まずに結論だけを信じるなら、CoTは単なるコスト増にしかなりません。必ず推論を読む運用を組み込んでください。
CoTを使うべきか、10秒で判断。
タスクに複数のステップが必要か?
├─ いいえ(一問一答、事実検索、短文翻訳)
│ └─ CoTは不要。通常プロンプトで十分。
└─ はい
├─ 精度が最重要? (医療、金融、法務)
│ └─ Self-consistency または ToT
├─ パターンが特殊?(分類、形式変換)
│ └─ Manual CoT(Few-shot CoT)
├─ 問題が大きく、一気に解くと失敗?
│ └─ Least-to-Most
├─ 情報が断片的で統合が必要?
│ └─ Self-Ask
└─ とりあえず精度を上げたい
└─ Zero-shot CoT(まずこれ)迷ったら Zero-shot CoT から始めてください。「ステップバイステップで考えてください」の一文を追加するコストはほぼゼロで、効果が出なければ追加の工夫は不要です。効果が出たら、Manual や Self-consistency への拡張を検討してください。
CoTを組み込んだプロンプトを自動生成。
ジェネレーターの「自己批判」「自己評価」バリエーションには、CoTが最初から組み込まれています。
よくある質問。
Chain-of-Thoughtは具体的に何をしますか?
LLMに最終回答だけを求めるのではなく、推論過程(思考のステップ)を明示的に書かせる技法です。Googleの2022年の論文で提唱され、数学問題、論理推論、複雑な意思決定で精度が10〜30%向上することが示されました。日本語でも完全に有効で、シンプルに「ステップバイステップで考えてください」と追記するだけで効果が出ます。
Zero-shot CoTとManual CoTの違いは?
Zero-shot CoTは「ステップバイステップで考えてください」という魔法の一文だけを付け足す最小実装。Manual CoTは思考過程の具体例を2〜5例示し、その推論パターンに従わせる手法です。Zero-shotは手軽ですが、Manualの方が精度は5〜10%高くなる傾向があります。まずZero-shotで試し、精度が足りなければManualに移行するのが実務的です。
Self-consistencyとは何ですか?
同じプロンプトで複数回(通常5〜40回)推論させ、最も頻出した回答を採用する手法です。CoTと組み合わせると、単発CoTより精度が5〜15%向上します。コストは倍以上になるため、重要な意思決定(医療、金融、法律)や評価ベンチマークで使うのが実務的です。ChatGPTの「複数回答を生成」機能で簡易実装できます。
Tree-of-ThoughtsはCoTとどう違いますか?
CoTが一本道の推論なのに対し、Tree-of-Thoughts(ToT)は複数の分岐を探索し、最良の経路を選ぶ手法です。24ゲームや創造的ライティングなど、複数の選択肢を評価する必要があるタスクで強力です。実装はCoTより複雑(エージェントフレームワーク推奨)ですが、単純なCoTで解けないタスクでは効果が大きく変わります。
CoTが効かないタスクはありますか?
あります。単純な事実検索(例: 日本の首都は?)、短文の翻訳、定型的な要約などでは、CoTは冗長になるだけで精度は上がりません。CoTが効くのは「複数のステップを経ないと正解できない」タスクです。推論ステップが1つしかないタスクにCoTを付けると、モデルが不要な水増し思考を生成し、逆にハルシネーションが増えることさえあります。
日本語でも効果はありますか?
完全に効果があります。「ステップバイステップで考えてください」は英語と同程度に機能します。日本語固有の表現(「順を追って」「各段階を明示して」「思考の過程を書き出して」)でも効果は同等です。2023年の研究でも、多言語でCoTの効果が確認されています。モデル(GPT-4o、Claude 4、Gemini 2.0)による差はほぼありません。
o1やDeep Thinkモデルでは手動CoTは不要ですか?
内部推論モデル(OpenAI o1、o3、Claude Extended Thinking、Gemini Deep Think)は、モデル内部でCoTを自動実行します。ユーザーが明示的にCoTプロンプトを書く必要性は減りますが、ゼロにはなりません。複雑なタスクでは『こういう順序で考えてほしい』と指示すると、内部推論の方向性を誘導でき、精度が向上することが実務で確認されています。
CoTプロンプトのコストは?
出力トークンが増えるため、API利用時のコストは通常の1.5〜3倍になります。Self-consistencyを使うと5〜10倍。ChatGPT PlusやClaude Proの固定料金プランでは体感コスト増はありませんが、API統合では無視できません。低コストで済ませたい場合、重要な判断のみにCoTを使い、定型処理では通常プロンプトを使う使い分けが推奨されます。