LLM モデル¶
最終更新: 2026-05-11 — この領域は数週間で動く。古い情報の可能性あり。
フロンティアラボ¶
| ラボ | 旗艦モデル (2026-05) | 強み | 弱み | コーディング用途 |
|---|---|---|---|---|
| Anthropic | Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5 | コーディング・推論・長期タスク | 単発精度では Codex に肉薄される | Claude Code の中心 |
| OpenAI | GPT-5.5 / GPT-5.5-Codex | 単発精度 (SWE-bench)・コンテナ実行 | エコシステムが OpenAI 縛り | Codex CLI のバックエンド |
| Google DeepMind | Gemini 3.0 Pro (1M context) / Deep Think | 長コンテキスト・マルチモーダル | ライブラリ APIの幻覚が出やすい | 大規模コードベース要約・無料枠での探索 |
| Meta | Llama 4 系 (オープンウェイト) | 自前ホスト・改変可 | 単独だと最先端に劣る | ローカル / ZDR 要件向け |
| Mistral | Mistral Medium 3.5 / Vibe 連携 | EU 拠点・軽量モデルの完成度 | 旗艦は控えめ | 安価ルーチン処理 |
| DeepSeek | DeepSeek V4 Pro / V4 Flash / Reasoner | Opus の 1/10 コストで高性能 | 中国拠点・データ流出懸念 | コスト最適化、Claude Code バックエンド差替 |
| xAI | Grok | リアルタイム検索・X 連携 | 業務利用は控えめ | 速報性が要る調査 |
ベンチマーク (2026-05 時点の参考値)¶
SWE-bench Verified (コーディング実務性能の事実上の指標):
- GPT-5.5-Codex: 88.7%
- Claude Opus 4.7: 87.6%
- Claude Sonnet 4.6: ~80%
- Gemini 3.0 Pro: ~75%
注意: ベンチマークはハーネス(エージェントの足場)込みのスコア。素のモデル力ではなく「ツール使用と組み合わせた結果」を見ている。
ローカル LLM¶
2026 年は 「ローカル LLM がコーディングに使える」 が現実視野に入った年。
| モデル | パラメータ | 使い所 |
|---|---|---|
| Qwen 3.6 27B / Qwen Coder | 27B | Reddit で「機内モードで Opus に肉薄」報告 |
| Llama 4 系 | 8B / 70B | 軽量タスク、ローカルファインチューン |
| DeepSeek-V4 (オープンウェイト版) | 大型 | 自前 GPU で本格運用するなら |
ハーネスは Ollama / llama.cpp / vLLM。Claude Code に繋ぐなら claude-code-router や Ollama 直結。
モデルを選ぶ実用基準¶
| 状況 | 推し |
|---|---|
| 設計・難所判断 | Claude Opus or GPT-5.5 |
| 日常コーディング | Claude Sonnet or GPT-5.5-Codex |
| 大規模コードベース要約 | Gemini 3.0 Pro (1M context) |
| 単純ルーチン (要約・コミットメッセージ) | DeepSeek-Flash or Haiku |
| 機密データ・オフライン | Ollama + Qwen Coder or Llama 4 |
| セカンドオピニオン | 「主用と別社のモデル」を1つ |
注意¶
- モデル切替で prompt cache が壊れる: メイン会話で
/modelを頻繁に切り替えるとキャッシュ再構築でかえって高くなる。切替は subagent 経由 hand-off で - コスト ≠ 品質: 用途次第。コードベース要約は Gemini が圧倒、難バグは Opus、安いルーチンは Haiku/DeepSeek
- ベンダーロックを避けるなら Anthropic API 形式と OpenAI Chat Completions 形式を相互変換できる Bifrost などのゲートウェイ経由が便利
出典¶
- SWE-bench Verified 公式リーダーボード
- Anthropic / OpenAI / Google DeepMind 各社公式
- 関連調査: methods/multi-llm/01-three-configs.md