Few-shot
Learning
例を3つ示すだけでモデルの精度とスタイルが劇的に変わる。6つのバリエーションを日本語の実例で解説。
2026年版: GPT-5、Claude 4、Gemini 2.5、Many-shot までを網羅。
Few-shot Learning は、文脈内学習の最強ツールです。
モデルの重みを一切変更せず、プロンプトに数例を示すだけで新しいタスクに適応できる。これが Few-shot Learning の核心です。2020年の GPT-3 論文で注目され、以後すべての主要 LLM で強力に機能することが確認されています。
Zero-shot(例なし)で済むタスクと、Few-shot(例あり)が必要なタスクの見極め、例の数・順序・選び方の設計原則、そして最新の Many-shot や Contrastive Few-shot までを、日本語の実例で解説します。
以下、6つの主要バリエーションを、精度向上の目安、コスト、実装難易度、最適用途で比較した早見表も提供します。
01
Zero-shot
例を示さず指示だけで解かせる
いつ使う: タスクが一般的で、モデルが事前学習で十分カバーしているもの。要約、翻訳、シンプルな分類、Q&A。
実例(日本語)
以下の文章を日本語で3行に要約してください。
ビジネスパーソン向けに、具体的な数値を必ず残してください。
[本文]
{{text}}実務メモ: 最も低コスト。まず Zero-shot で試し、精度が足りない場合のみ One-shot、Few-shot に拡張するのが実務フロー。
02
One-shot
1例だけ示す最小の文脈内学習
いつ使う: 出力形式を厳密に指定したいが、例が1つあれば伝わる場合。JSONスキーマ、特定フォーマット、シンプルな変換タスク。
実例(日本語)
以下の顧客フィードバックを分類してください。
例:
入力: 「先月から動作が遅くなり、起動に30秒かかります。無料トライアル中なので解約します」
出力: {"category": "performance", "sentiment": "negative", "churn_risk": "high"}
本番:
入力: 「{{customer_feedback}}」
出力:実務メモ: One-shot は形式の教示に強いが、微妙なニュアンスの学習は弱い。スタイル伝達には Few-shot が必要。
03
Few-shot
3〜5例で型とニュアンスを教える
いつ使う: 言葉で説明しにくい微妙なスタイル、トーン、判定基準がある場合。分類、要約の書き味、定型フォーマット生成。
実例(日本語)
あなたは SaaS のサポート担当です。顧客メールへの返信を、丁寧かつ簡潔に作成してください。
例1:
顧客: パスワードをリセットしたいです。
返信: 田中様、お問い合わせありがとうございます。こちらのリンクからリセットをお願いいたします: [URL]。ご不明点があればお知らせください。
例2:
顧客: 請求書の金額が先月より高いのですが。
返信: 田中様、ご心配をおかけしております。先月からプランがアップグレードされた可能性がございます。請求明細をお送りいたしますので、しばらくお待ちください。
例3:
顧客: 機能Xが動作しません。
返信: 田中様、ご不便をおかけし申し訳ございません。以下を確認させてください: (1) ブラウザのバージョン、(2) 再現手順、(3) エラーメッセージのスクリーンショット。お急ぎの場合は電話サポートもご利用ください。
本番:
顧客: 「{{customer_message}}」
返信:実務メモ: 3例が最もコストパフォーマンスが良いという報告が多い。5例を超えても精度向上は逓減し、10例を超えると逆にコストだけが増える傾向。
04
Many-shot
長文脈で数十〜数百例を与える
いつ使う: 長文脈モデル(Gemini 1.5 Pro、Claude 4)で、タスクのバリエーションが広く数例では網羅できない場合。カスタム分類、専門領域の記法、エッジケース対応。
実例(日本語)
以下のラベル付きデータを学習例としてください。その後、本番入力を分類してください。
[100件の学習例]
1. 入力: ... / 出力: ...
2. 入力: ... / 出力: ...
...
100. 入力: ... / 出力: ...
本番:
入力: 「{{input}}」
出力:実務メモ: Google DeepMind の研究で、特定タスクで Many-shot が Few-shot を10〜20ポイント上回ることが報告されています。コストは比例して増えるため、精度の差が価値に見合うかを確認してください。
05
Contrastive Few-shot
良い例と悪い例の対比で教える
いつ使う: 失敗パターンが明確で、それを明示的に避けさせたい場合。コーディング規約、ブランドトーン、禁止事項のある生成タスク。
実例(日本語)
以下のスタイルガイドに従って、製品コピーを生成してください。
良い例:
入力: AI 会議メモツール
出力: 「会議中にメモを取らなくて済みます。要点、決定事項、次のアクションまで自動で整理。」
悪い例(理由: 誇張と曖昧さ):
入力: AI 会議メモツール
出力: 「革新的な AI が会議体験を根本から変える、驚くべきプロダクティビティツール!」
良い例:
入力: 経費管理アプリ
出力: 「レシートを撮影すると、カテゴリ、税区分、プロジェクトまで自動入力。承認ワークフロー付き。」
悪い例(理由: 具体的な機能が見えない):
入力: 経費管理アプリ
出力: 「ビジネス効率を最大化する、次世代の経費管理ソリューション」
本番:
入力: 「{{product}}」
出力:実務メモ: 悪い例の「理由」を明記するのが重要。なぜ悪いかが明確でないと、モデルがパターン自体を再現してしまうことがあります。
06
Chain-of-Thought Few-shot
推論過程を含む例を示す
いつ使う: 数学問題、論理推論、複雑な意思決定タスク。単純な Few-shot より推論パスの模倣が重要な場合。
実例(日本語)
以下の例のように、推論過程を明示しながら答えてください。
例1:
問題: ある商品を1,200円で仕入れ、20%の利益を乗せて販売。消費税10%を加えた最終価格は?
推論: 利益込み価格 = 1200 × 1.20 = 1440円。消費税込み = 1440 × 1.10 = 1584円。
答え: 1,584円
例2:
問題: 会員が月100人増え、解約が月30人発生。現在500人の会員数は6ヶ月後に何人?
推論: 純増 = 100 - 30 = 70人/月。6ヶ月後 = 500 + 70 × 6 = 500 + 420 = 920人。
答え: 920人
本番:
問題: 「{{problem}}」
推論:
答え:実務メモ: CoT と Few-shot の組み合わせは数学推論タスクで最も精度が高い構成の一つ。例の推論過程を本番入力でも同じ粒度で再現させる点がポイント。
6バリエーションの比較。
例の数、コスト倍率、最適用途で主要な Few-shot 系バリエーションを比較。
| バリエーション | 例の数 | コスト倍率 | 最適用途 |
|---|---|---|---|
| Zero-shot | 0 | ×1(基準) | 一般的なタスク、初期試行 |
| One-shot | 1 | ×1.2〜1.5 | 形式指定、シンプル変換 |
| Few-shot | 3〜5 | ×2〜3 | ニュアンス、トーン、分類 |
| Many-shot | 50〜500 | ×10〜50 | 広範囲カスタムタスク、エッジケース |
| Contrastive | 3〜5 (良+悪) | ×2〜3 | 禁止パターン回避、規約遵守 |
| CoT Few-shot | 3〜5 (推論込み) | ×3〜5 | 数学、論理推論、複雑判断 |
よくある5つの落とし穴。
Few-shot は強力ですが、設計を誤るとコストだけが増えて精度が下がります。実務で頻出する失敗と回避策です。
例の偏り
分類タスクでクラスAの例だけ4つ、クラスBが1つといった偏りは、モデルをクラスAに引きずります。各クラスから均等に例を選び、順序も交互に配置してください。
例が本番入力と似すぎている
例とほぼ同じ入力が本番で来ると、モデルが例の答えをそのままコピーすることがあります。例は多様な入力パターンを代表する形で選び、ランダムに3例サンプリングする運用も有効です。
例の末尾が新しい指示を含む
「本番:」の直前の例で、突然新しい追加指示を入れると、モデルがそれを本番にも適用してしまいます。例の構造は完全に統一し、追加指示はプロンプト冒頭にまとめてください。
多すぎる例
10例以上の Few-shot は、機械的な模倣と精度逓減を起こしがちです。Many-shot を使う場合は長文脈モデル専用と割り切り、5例以下に抑える運用と使い分けてください。
例のラベルだけ正しく内容が古い
過去に作った Few-shot 例をそのまま再利用すると、モデルや仕様の変化に追従できません。四半期ごとに例を見直し、実際の出力と一致しているか検証してください。
Few-shot を内蔵したプロンプトを自動生成。
ChatGPT および Claude ジェネレーターは Few-shot 構造を内蔵した3バリエーションを出力します。
よくある質問。
Few-shot Learning とはそもそも何ですか?
モデルの重みを更新することなく、プロンプト内に少数(通常2〜5個)の入出力例を示すだけで、新しいタスクに適応させる技法です。LLMが文脈内学習(in-context learning)を通じて例のパターンを模倣し、本番入力に対して同じ形式で回答を返します。ファインチューニングより圧倒的に低コストで、数分で試せる強力な手法です。
例は何個示すのが最適ですか?
タスク次第ですが、実務的には3〜5個が最適解になることが多いです。1個だと偶然のパターンに引きずられやすく、10個以上だと本番入力の個別性をモデルが無視して例を機械的に模倣しがちです。分類タスクでは各クラスから1〜2例、生成タスクでは望ましい出力のバリエーションを3例示すのが定石です。
例の順序は結果に影響しますか?
影響します。LLMは直近の例により強く引きずられる傾向があるため、最も重要な例や望ましい出力スタイルに近い例をプロンプトの末尾に置くのが鉄則です。ラベルの偏り(例えばクラスAが4連続、クラスBが1つだけ)も結果を歪めるため、クラス別に交互配置するのが安全です。
Zero-shot と Few-shot はどう使い分けますか?
明確な指示で済むタスク(要約、翻訳、Q&A)は Zero-shot で十分です。出力形式が厳密に指定される、または言葉で説明しにくい微妙なスタイルを再現したい場合は Few-shot が必要です。迷ったらまず Zero-shot を試し、精度や形式が不十分なら Few-shot に拡張するのが実務的な流れです。
Many-shot Learning は Few-shot より良いですか?
長い文脈窓を持つモデル(Gemini 1.5 Pro の200万トークン、Claude 4 の100万トークン)では、数十から数百の例を与える Many-shot が Few-shot を上回る場合があります。Google の研究では、100例以上のMany-shot が特定タスクで Few-shot を顕著に上回りました。ただしコストが増えるため、精度の差が価値に見合うかを検証してください。
悪い例も含めると効果はありますか?
はい、正誤両方の例を対比形式で示す「コントラスト Few-shot」は効果的です。「良い例: ...」「悪い例: ...」と明示すると、モデルが失敗パターンを明確に避けられます。ただし悪い例を多く見せると、逆にそのパターンを模倣する危険もあるため、良い例3に対して悪い例1の比率が安全です。
日本語タスクでも Few-shot は効果がありますか?
完全に効果があります。日本語の敬語切り替え、カジュアル・フォーマルの口調調整、ビジネス文書の定型フォーマット、俳句・短歌などの形式厳守が必要な生成タスクで特に有効です。GPT-4o、Claude 4、Gemini 2.0 いずれでも多言語の in-context learning が確認されています。
Few-shot が効かないタスクはありますか?
事実ベースの検索(知識問題)、複雑な数値計算、長文書の要約など、パターン模倣より推論や知識が支配的なタスクでは効果が限定的です。このような場合は Few-shot ではなく Chain-of-Thought や Retrieval-Augmented Generation(RAG)を組み合わせるのが正攻法です。