LLM モデル¶

最終更新: 2026-05-11 — この領域は数週間で動く。古い情報の可能性あり。

フロンティアラボ¶

ラボ	旗艦モデル (2026-05)	強み	弱み	コーディング用途
Anthropic	Claude Opus 4.7 / Sonnet 4.6 / Haiku 4.5	コーディング・推論・長期タスク	単発精度では Codex に肉薄される	Claude Code の中心
OpenAI	GPT-5.5 / GPT-5.5-Codex	単発精度 (SWE-bench)・コンテナ実行	エコシステムが OpenAI 縛り	Codex CLI のバックエンド
Google DeepMind	Gemini 3.0 Pro (1M context) / Deep Think	長コンテキスト・マルチモーダル	ライブラリ APIの幻覚が出やすい	大規模コードベース要約・無料枠での探索
Meta	Llama 4 系 (オープンウェイト)	自前ホスト・改変可	単独だと最先端に劣る	ローカル / ZDR 要件向け
Mistral	Mistral Medium 3.5 / Vibe 連携	EU 拠点・軽量モデルの完成度	旗艦は控えめ	安価ルーチン処理
DeepSeek	DeepSeek V4 Pro / V4 Flash / Reasoner	Opus の 1/10 コストで高性能	中国拠点・データ流出懸念	コスト最適化、Claude Code バックエンド差替
xAI	Grok	リアルタイム検索・X 連携	業務利用は控えめ	速報性が要る調査

SWE-bench Verified (コーディング実務性能の事実上の指標):

注意: ベンチマークはハーネス(エージェントの足場)込みのスコア。素のモデル力ではなく「ツール使用と組み合わせた結果」を見ている。

2026 年は 「ローカル LLM がコーディングに使える」 が現実視野に入った年。

ハーネスは Ollama / llama.cpp / vLLM。Claude Code に繋ぐなら claude-code-router や Ollama 直結。

モデル切替で prompt cache が壊れる: メイン会話で /model を頻繁に切り替えるとキャッシュ再構築でかえって高くなる。切替は subagent 経由 hand-off で
コスト ≠ 品質: 用途次第。コードベース要約は Gemini が圧倒、難バグは Opus、安いルーチンは Haiku/DeepSeek
ベンダーロックを避けるなら Anthropic API 形式と OpenAI Chat Completions 形式を相互変換できる Bifrost などのゲートウェイ経由が便利