LLM比較【2026年6月版】ChatGPT・Claude・Gemini・Meta AIの違いと選び方

最終更新：2026年6月14日
※本記事は継続的に最新情報へアップデートしています。

2026年、LLM選定は「どのモデルが賢いか」ではなく、「どの知能を業務の指揮者に据えるか」を問う段階に入った。

ChatGPT、Claude、Gemini、Meta AIは、それぞれ異なる思想と配布経路を持ち、企業のAI導入戦略を大きく左右する存在である。

本記事では、2026年6月14日時点の主要LLMを、推論力、検索・SaaS連携、業務適性、配布チャネルの4軸で比較し、企業や個人がどう選ぶべきかを整理する。

📖 読了時間 15分｜🎯対象：経営者・技術戦略担当者・投資家・エンジニア｜🛠 難易度：★★★★☆

✅ 先に結論

2026年6月のLLM比較では、OpenAI・Anthropic・Google・Metaの4陣営を主軸に見るのが、実務上もっとも分かりやすい構図です。

ポイント1：GPT-5.5 / GPT-5.5 Instant、Claude Opus 4.8、Gemini 3.5 Flash、Meta Muse Sparkの登場により、LLMは「回答するAI」から「業務を指揮する知能」へ進化しつつあります。
ポイント2：企業導入では、単純なベンチマーク値よりも、SaaS連携・長文処理・エージェント実行・データ主権を軸に選ぶことが重要です。
ポイント3：Claude Fable 5 / Mythos 5は一時公開されましたが、米国政府の輸出管理指令により2026年6月14日時点ではアクセス停止中のため、本記事では補足扱いとします。

この記事の著者・監修者

ケニー狩野（Kenny Kano）

株式会社アープ取締役。AI開発に10年以上従事、特にディープラーニングや、LLMとDBを利用したRAG等の先端技術を用いた企業のAI導入を支援。

公的役職：一般社団法人Society 5.0振興協会にて、AI社会実装推進委員長を務める。中小企業診断士、PMP。著書に『リアル・イノベーション・マインド』

Toggle

序章：アプリの「UI」からの解放と、背後で進化する「指揮者」

かつての「アプリの機能を使いこなす」時代は終わり、LLMという「知能」が既存SaaSを背後で部品として操る「指揮者」へと進化した物語を解説します。

LLMは、アプリの画面を操作する道具から、SaaSを背後で組み合わせて業務を進める「指揮者」へ変わりつつある。

私たちの日常に、AIは急速に溶け込み始めています。2026年初頭、Mac/Windowsのデスクトップ環境で動き、法務を含む知識労働の具体ユースケースを前面に出したClaude Coworkが現れた瞬間、市場はひとつの事実を突きつけられました。――専門SaaSは、知能という巨大な重力に飲み込まれる「部品」へと姿を変えようとしている、ということです。

知能に語りかけると、AIが背後で複数のアプリやファイルを横断し、チェック・ドラフト作成から実行（承認・連携）までを担う。最後の一押しだけを人間が握る――そんな設計が現実味を帯びてきました。

本記事では、この「SaaSの透明化」を加速させる4つの主要な「指揮者」（GPT-5.5 / GPT-5.5 Instant、Claude Opus 4.8、Gemini 3.5 Flash / Gemini 3.1 Pro、Muse Spark / Meta AI）を徹底比較・解剖します。Grok 4.3は速報性・X連携・低価格APIに強い注目モデルですが、一般企業の標準LLM選定では補足扱いとし、本文末で整理します。

主要LLMの比較表

2026年6月14日時点の主要動向に基づき、OpenAI・Anthropic・Google・Metaの4陣営を一覧で比較する。

**主要LLM比較表** ※比較条件：2026年6月14日時点の各社公式発表ベース／データ源：各社公式サイト・公式ドキュメント。本表は一般ユーザーまたは一般企業が標準導入しやすいOpenAI・Anthropic・Google・Metaの主要モデルを対象とし、現在アクセス停止中のClaude Fable 5 / Mythos 5や、補足的に扱うGrok 4.3は比較表から外しています。
項目	GPT-5.5 / GPT-5.5 Instant OpenAI	Claude Opus 4.8 Anthropic	Gemini 3.5 Flash / Gemini 3.1 Pro Google	Muse Spark / Meta AI / Llama 4系 Meta
開発元	OpenAI（GPT-5.5で実務エージェント能力を強化し、GPT-5.5 InstantでChatGPTの日常利用モデルも刷新。Codexとの統合により、コーディング、調査、データ分析、コンピュータ操作を含む実行型ワークフローを強化）	Anthropic（Amazon・Google支援。Opus 4.8でコーディング、長期タスク、引用精度、トークン効率、誠実性を強化。Fable 5 / Mythos 5は6月9日に発表され一時利用可能でしたが、米国政府の輸出管理指令により6月14日時点ではアクセス停止中）	Google DeepMind（Gemini 3.5 Flashを公開し、Geminiアプリ、AI Mode in Google Search、Google Antigravity、Gemini API、Android Studio、Gemini Enterprise Agent Platform、Gemini Enterpriseへ展開。Workspaceと検索導線を軸に、エージェント型業務導線を強化）	Meta Superintelligence Labs（Meta AI app / meta.ai を起点に、WhatsApp・Instagram・Facebook・Messenger・AIグラスへ展開。Muse SparkはMeta製品群への配布力、Llama 4系はオープンウェイトによるデータ主権・セルフホスト選択肢として位置づけ）
最新モデル実績	GPT-5.5（Thinking / Pro）：2026/4/23（コーディング、調査、データ分析、コンピュータ操作を含む実務エージェント能力を強化） GPT-5.5 Instant：2026/5/5（ChatGPTの日常利用モデル。GPT-5.3 Instant比で幻覚を52.5%削減し、難しい会話での不正確な主張を37.3%削減。パーソナライズと簡潔さも改善）	Claude Opus 4.8：2026/5/28（Opus 4.7を土台に、コーディング、推論、引用精度、トークン効率、誠実性を改善。Dynamic workflows、Effort control、Messages API改善を追加。通常料金はOpus 4.7と同額：入力$5／出力$25 per 100万トークン） Claude Fable 5 / Mythos 5は2026/6/9に発表され一時利用可能でしたが、2026/6/14時点ではアクセス停止中のため補足扱い。	Gemini 3.5 Flash：2026/5/19（Gemini 3.5シリーズの先行モデル。Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%、CharXiv Reasoning 84.2%を公表。1,048,576入力トークン、最大65,535出力トークンに対応し、テキスト・コード・画像・音声・動画・PDFを入力可能） Gemini 3.1 Proは深い推論や既存実装で引き続き比較対象。Gemini 3.5 ProはGoogleが次期展開として予告しているため、正式GAまでは補足扱い。	Muse Spark：2026/4/8（Meta AI app / meta.ai を起点に、Meta製品群へ段階展開。巨大な配布チャネルとマルチモーダル推論が強み） Llama 4系は、企業のデータ主権、セルフホスト、オープンウェイト活用の文脈で補完的に評価。
強みの軸	総合。推論、日常利用、Codex連携、コンピュータ操作を統合し、実務エージェントとしての汎用性が高い。「社内標準エージェントの本命候補」	専門。長文理解、コードベース移行、引用精度、誠実性、長期エージェント実行に強い。「長文・専門職ワークと大規模コード移行の相棒」	統合。Google Search、Geminiアプリ、Antigravity、Gemini API、Android Studio、Gemini Enterprise系と結びついたエージェント実装力。「Google環境でエージェント業務を回す企業向け」	配布。Meta AI app、SNS、メッセージング、AIグラスなど巨大な日常接点へマルチモーダル推論を載せられること。Llama 4系はオープンウェイトの選択肢として補完。「日常接点とデータ主権の両面を押さえる知能」
コーディング評価	GPT-5.5はCodex連携を通じて、コード生成、レビュー、調査、ターミナル操作を含む実務エージェント用途に強み。	Opus 4.8で全体改善（Opus 4.7比でベンチマーク、実務タスク、コード欠陥の自己指摘、引用精度を改善。詳細な数値はClaude Opus 4.8 System Cardに基づき注記付きで扱う）	Terminal-Bench 2.1：76.2% GDPval-AA：1656 Elo MCP Atlas：83.6% ※以上はコーディング・エージェント系評価。CharXiv Reasoningはマルチモーダル理解指標のため、次の行で扱います。	Meta製品群への配布力が中心。Llama 4系はセルフホストや独自チューニングを重視する開発・研究用途で評価。
抽象推論・長文処理	高度な推論と実務タスクの統合に強み。GPT-5.5 Instantでは日常利用時の正確性・簡潔さも改善。	長文理解、引用精度、専門文書の読解、長期セッションの一貫性が強み。Fable 5 / Mythos 5はフロンティア到達点として重要だが、アクセス停止中。	Gemini 3.5 Flashは1Mトークン級の入力、最大65k級の出力、PDF・動画・音声を含むマルチモーダル入力に対応。CharXiv Reasoningでは84.2%を公表しています。Gemini 3.1 Proの深い推論に加え、3.5世代ではエージェント・コーディング性能を中心に強化。	マルチモーダル理解と巨大な日常接点が強み。オープンウェイト系は企業のデータ主権戦略と相性がよい。
料金・利用可能性	ChatGPT有料プラン・Codex・APIを中心に利用。GPT-5.5 InstantはChatGPTの日常利用モデルとして展開。	通常利用は入力$5／出力$25 per 100万トークン。Fast modeは入力$10／出力$50 per 100万トークン。Fable 5 / Mythos 5はアクセス停止中。	Gemini 3.5 Flashは、Gemini Developer APIの標準課金で入力$1.50／出力$9.00 per 100万トークン。高速・大規模コンテキスト・エージェント用途を重視する場合の有力候補。	Muse SparkはMeta製品群への組み込みが中心。Llama 4系は、商用クラウドAPIとは別に、セルフホストや独自運用を検討する企業の補完候補。
SaaS指揮・代替能力	汎用。GPT-5.5とCodex連携により、コーディング、調査、データ分析、文書・表計算処理、コンピュータ操作までを一体で担う実行エージェントとして導入が進み始めています。	専門。Opus 4.8は長文・法務・金融・コードベース移行など、文脈維持と引用精度が重要な業務に強い。Claude CodeのDynamic workflowsにより、大規模コード移行や並列サブエージェント実行にも対応。	統合。Gemini 3.5 FlashはGoogle Search、Geminiアプリ、Antigravity、Gemini API、Gemini Enterpriseに展開され、Google Workspaceや検索導線をまたぐエージェント型業務の中核候補になりつつあります。Googleは、Shopify、Macquarie Bank、Salesforce、Ramp、Xero、Databricksなどでの実導入例も挙げています（2026年5月19日のGoogle公式発表より）。	接点。Meta AIを通じてSNS、メッセージング、AIグラスなどの日常接点へ浸透。Llama 4系は、クラウド依存を避けたい企業のセルフホスト・データ主権の選択肢として補完。

Metaの最新動向：Muse SparkとLlama 4系をどう見るべきか

2026年4月、MetaはMeta Superintelligence Labsの新しいフラッグシップモデル「Muse Spark」を発表しました。Muse Sparkは Meta AI app と meta.ai を起点に、WhatsApp、Instagram、Facebook、Messenger、Ray-Ban Meta AI グラスなどMeta製品群へ段階展開されるモデルです。

一方、Llama 4系はオープンウェイトによるデータ主権・セルフホスト・独自チューニングの選択肢として重要です。Metaは、消費者接点に載るMuse Sparkと、企業・開発者が扱いやすいLlama系を組み合わせることで、配布力と自由度の両面からLLM市場に関与しています。

Metaの強みは、モデル単体の性能だけではありません。数十億人規模の接点を持つ配布チャネルに、マルチモーダル推論を直接載せられる点にあります。そのため、2026年6月時点では、Llama 4単体の性能をどう評価するかよりも、Llama系オープンウェイトとは別に、Meta製品向けへ purpose-built されたMuse Sparkを、Metaがどこまで日常導線へ浸透させるかを見るほうが実務上は重要です。

補足：Claude Fable 5 / Mythos 5はなぜ主要比較表に入れないのか

Anthropicは2026年6月9日、Mythos級能力を一般利用向けに安全化したClaude Fable 5と、より限定的な研究・防御用途を想定するClaude Mythos 5を発表しました。Fable 5は発表直後に一時利用可能となり、長期自律タスク、コーディング、知識労働、ビジョンを含む上位モデルとして注目されました。

しかし2026年6月12日、米国政府は国家安全保障上の権限に基づき、米国内外を問わず外国籍者によるFable 5 / Mythos 5へのアクセスを停止する輸出管理指令を出しました。Anthropicは、この指令に対応するため、全顧客向けにFable 5 / Mythos 5を急遽無効化しました。2026年6月14日時点では利用できないため、本記事の主要比較表には含めず、「公開されたが、規制により一時停止されたフロンティアモデル」として補足扱いにします。なお、Opus 4.8など他のAnthropicモデルへのアクセスは影響を受けないと説明されています。

Anthropicは、この指令に異議を公式声明で表明しており、アクセス復旧に向けて取り組んでいると説明しています。ただし、2026年6月14日時点では復旧の具体的な時期は公表されていません。

→ Claude Fable 5 / Mythos 5とProject Glasswingの位置づけを詳しく知る

📝 性能指標に関するポリシー

数値は「再現性と比較公平性」を担保するため、出典を明記しています。加えて、発表済みでも現在利用できないモデル、限定提供モデル、研究プレビュー、標準導入候補から外した補足モデルは、通常利用可能な主要モデルとは分けて扱います。

各社の公式公表値は、独自の実行基盤（Scaffold）を含んでいる場合があり、同一手順での再測定なしに断定はできません。arpable.comでは、単なる数値よりも、その知能がいかに既存のSaaSや専門業務を「肩代わり可能な精度」まで引き上げたかという実務インパクトを重視します。

※SWE-bench Verifiedはscaffold（エージェント実行基盤）・試行回数・プロンプト条件で結果が変わり得るうえ、2026年時点ではベンチマーク汚染も指摘されています。フロンティアモデルの比較では、SWE-bench ProやOSWorldのような、より新しい評価指標もあわせて見るのが実務上のスタンダードです。

LLMの未来予測｜「SaaSの透明化」と知能が既存アプリを指揮するインパクト

「心臓部（基盤モデル）」は推論力と運用効率の両輪で進化し、私たちの「身体（エージェント）」は自動化の範囲と信頼性を拡張します。

基盤モデルの進化は、単なる応答精度の向上ではなく、業務そのものの進め方を変え始めている。

AIの「心臓部」は今後どのように進化し、私たちの「身体（エージェント）」をどう変えていくのでしょうか。その本質は、単なる効率化を超えた「SaaSの透明化（Invisible SaaS）」にあります。

進化の方向性

マルチモーダル化の実務適用

テキスト×画像×音声×動画を前提に、PC操作・ブラウジング・ツール実行まで一連で扱えるようになりました。GPT-5.5とCodexの統合、Gemini 3.5 FlashとAntigravityの連携、Claude Opus 4.8とClaude CodeのDynamic workflowsにより、モデルは単に回答するだけでなく、複数のツールをまたいで計画・実行・検証する方向へ進んでいます。これにより、人間がアプリのUIを覚える必要性はさらに薄れていきます。

知識の構造化と推論の持続性

長時間・長文にわたる一貫した推論を安定化させる。Claude Opus 4.8は、Opus 4.7で強化された長文・ビジョン・専門業務能力を土台に、長時間セッションでの一貫性、引用精度、トークン効率、誤りを自ら指摘する誠実性をさらに改善しました。大規模なコードベース、契約書群、財務資料、PDF、図表を横断しながら、業務文脈を崩さずに分析を継続する力が重要になっています。

パーソナライズと自律的指揮

個人・組織プロファイルを安全に学習・反映。モデルが自ら複数のSaaSへアクセスし、情報を統合して「実行」まで責任を持つスタイルは、2026年春以降、先進チームから実装が進みつつあります。

説明可能性と信頼性

出力根拠の提示に加え、agentic workflow（計画→tool use→実行→検証）全体を対象とした自動評価基盤が統合。reasoning特化モデルは、この「実行プロセスの監査」とセットで導入されます。

進化が拓く可能性：SaaSが「知能の部品」になる日

研究・開発の加速

実験計画立案→文献要約→コード生成→結果解釈までを、LLMが自律的な指揮者として半自動でループ。

専門職SaaSの代替と現実味

2026年初頭、Claude Cowork（デスクトップエージェント）が、法務を含む知識労働の具体ユースケースを前面に出したことで、市場は「専門職SaaSの一部機能までLLMが踏み込める」という現実を突きつけられました。さらにOpus 4.8の引用精度・長期タスク性能の改善、Fable 5 / Mythos 5の一時公開とアクセス停止は、専門職SaaSが今後「知能の部品」として再編される可能性と、規制・安全性の壁が同時に高まっていることを示しています。

SaaSビジネスモデルの再構築

AIエージェントの浸透は、従来のSaaSが依拠してきた「シート課金」を根本から変え、アプリそのものを「知能の部品」へと再編する可能性を秘めています。この地殻変動の詳細は、以下の記事で詳説しています。
🔗 AIエージェントが引き起こす「シート圧縮」｜SaaSビジネスの危機と転換点
🔗 ポストSaaS時代の3つのモデル｜AIエージェントがアプリを「部品」に変える未来

教育の個別最適化

学習履歴に基づく出題・解説・口頭試問、学習計画の動的生成を、複数の教育SaaSを裏側で統合しながら実現。

業務のエージェント化

調査→資料作成→社内承認→発注・請求などの「アプリを跨ぐ作業」を、LLMが指揮する一気通貫オートメーションへ。

乗り越えるべき課題

バイアスと安全性

AIが自律的にツールを動かす際の責任分界点。出典トレーサビリティと、重要な判断における人間の最終承認（HITL）の制度化。

プライバシー・機密

社外送信の最小化、暗号化RAG、あるいはLlama 4 Scout / Maverickなどのオープンウェイト系モデルを活用したセルフホストの選択。

運用コストとSLA

100万トークン級の長文推論に伴うTCO最適化。プロンプトキャッシュや、推論コストの優先順位付けがCxOの新たな課題となります。

評価の標準化

SWE-bench等の外部ベンチに加え、自社KPI（SaaS操作成功率・業務短縮時間）での継続評価。

実務ではどう判断するか

LLM選定では、モデルの順位ではなく、自社業務にどの役割を担わせるかを決めることが重要である。

生成、要約、コード、分析、検索、SaaS操作などを分離し、マルチLLM（指揮者の使い分け）で最適配席します。例として、長文・専門知識・大規模コード移行はClaude Opus 4.8、Google環境統合と高速エージェント処理はGemini 3.5 Flash、汎用実行・日常利用・Codex連携はGPT-5.5 / GPT-5.5 Instant、日常接点と配布力はMuse Spark / Meta AI、データ主権やセルフホストはLlama 4系を候補にします。

測定すべきKPI

品質：正答率、出典一致率、SaaS操作成功率、人間による訂正率。
速度：初回応答時間、エンドツーエンドのタスク完了時間。
コスト：1000トークンあたり費用、キャッシュ命中率、API利用量。
採用：MAU/WAU、AIエージェントへの業務委任率、NPS/CSAT。
安全：PIIヒット率、ブロック/警告件数、監査ログ網羅率。

リスクと対策

幻覚・誤実行： 出典リンク必須／重要判断・実行（決済等）は人間最終承認（HITL）を必須化。
市場の変動と依存性： 特定モデルへの過度な依存を避け、OpenAI・Anthropic・Google・Metaに加え、Llama 4系などのオープンウェイトモデルも含めて冗長化。
データ漏えい： 機密ラベルの自動検出／外部送信禁止ルール／セルフホスト・暗号化RAGの選択。

補足：Grok 4.3はなぜ主要比較表から外したのか

Grok 4.3は、agentic tool calling、1Mトークンコンテキスト、入力$1.25／出力$2.50 per 100万トークンという低価格APIが特徴です。一方で、xAI公式は音声・画像・動画について専用APIを分けて案内しているため、本記事ではGrok 4.3を「速報性・X連携・低価格APIに強い補足モデル」として扱います。

一次情報からどこまで言えるか

本記事では、各社公式発表を一次情報とし、未確認情報や利用停止中のモデルは補足扱いとして整理している。

LLM市場では、モデル名やベンチマーク値だけが先行しがちです。しかし、企業導入で重要なのは、そのモデルが実際に利用できるか、どの料金体系で使えるか、どの業務に任せられるかです。

Claude Fable 5 / Mythos 5のように、発表直後にアクセス停止となるケースもあります。そのため本記事では、性能だけでなく、提供状況・規制・利用可能性を含めて比較対象を整理しています。

まとめ

OpenAI・Anthropic・Google・Metaの4陣営を軸に、LLMは「回答する道具」から「業務を指揮する知能」へ移行している。

本記事では、2026年6月14日時点の主要動向を反映し、AI進化を支える4つの主要な「指揮者」を解剖しました。OpenAIはGPT-5.5とGPT-5.5 Instantで実務エージェントと日常利用の両面を広げ、AnthropicはClaude Opus 4.8で長時間タスクの一貫性、引用精度、誠実性を高めました。GoogleはGemini 3.5 Flashでエージェント・コーディング領域を前進させ、MetaはMuse SparkとLlama 4系で巨大な配布面とオープンウェイトの両面から存在感を高めています。

「業務の主権が、アプリのUIから知能へと移る」という地殻変動は、現在進行形で進んでいます。専門職SaaSは「UIの王国」から、「知能の部品」へと再編されつつあります。この主導権交代の波が本格化する前に、自社の業務フローをどこまで知能中心に再構築するかが、これから数年の競争力を大きく左右するでしょう。

なお、AnthropicのClaude Fable 5 / Mythos 5は、Mythos級能力を一般利用または限定研究用途へ広げる試みとして発表されましたが、2026年6月12日、米国政府の輸出管理指令を受けてアクセスが停止されました。Anthropicはこの指令に異議を表明しており、今後の動向が注目されます。そのため、現時点では主要比較表に並べるよりも、「公開されたが、規制により一時的に閉じられたフロンティアモデル」として別枠で捉えるのが適切です。

専門用語まとめ

LLM比較で重要になる基礎用語を、業務導入の文脈で短く整理する。

大規模言語モデル（LLM）: AIの「心臓部（基盤モデル）」。2026年には、言葉の生成を超え、OSやSaaSを部品として指揮する知能へと進化。

Orchestration（指揮・統合）: LLMが自律的に複数のSaaSやファイルへアクセスし、情報を統合して実行に迫る能力。2026年の最重要指標。

Invisible SaaS（SaaSの透明化）: 人間がSaaSのUIを操作する必要がなくなり、LLMの背後でデータソース（部品）として機能する状態。

参考文献 / 出典

本記事では、各社公式発表・公式ドキュメントを中心に参照している。

一次情報

LLMの導入判断、検索との関係、AIエージェント実装を深掘りしたい方におすすめである。

補足Q&A

LLM選定・導入時によく出る疑問を、実務目線で整理する。

Q1.
Claude Opus 4.8やClaude Coworkの専門機能は、Windowsユーザーでも使えますか？

A1. Claude CoworkやOpus 4.8関連機能は、プランやOS、提供地域によって使える範囲が変わる可能性があります。導入前に公式ページで確認するのが安全です。なお、Fable 5 / Mythos 5は2026年6月14日時点でアクセス停止中です。

Q2.
自社で「指揮者（Orchestrator）」を1つ選ぶとしたら、何から試すべきですか？

A2. Google Workspaceや検索導線中心ならGemini 3.5 Flash、長文・専門業務中心ならClaude Opus 4.8、汎用エージェントとコーディング基盤を一体運用したいならGPT-5.5 / GPT-5.5 Instantをまず試すのが現実的です。

Q3.
ベンチマークの点数はそのまま業務性能に直結しますか？

A3. 直結はしません。ベンチマークは「知能の輪郭」を映しますが、業務の勝敗を決めるのは権限、ツール、監査、HITLを含めた実務代替率です。

更新履歴

主要モデルの更新、比較条件、参照情報の変更履歴を記録する。

2024年11月20日：初版公開
2025年12月24日：年末モデル刷新（GPT-5.2／Gemini 3／Claude 4.5）を反映。
2026年02月24日：Claude 4.6 / Gemini 3.1 Pro等を反映し、「SaaSの部品化と指揮能力」視点へ全面改訂。
2026年04月15日：Meta Muse Spark発表後の動向を反映し、Claude Mythos Preview / Project Glasswingへの補足を追加。
2026年04月27日：Claude Opus 4.7・GPT-5.5リリースを反映し、比較表・ベンチマーク値・序章・まとめを更新。
2026年05月14日：タイトル・比較条件を2026年5月版に更新し、Grok 4.20、Muse Spark、コーディング評価の表現を修正。
2026年06月14日：Claude Opus 4.8、Fable 5 / Mythos 5アクセス停止、GPT-5.5 Instant、Gemini 3.5 Flashを反映。4陣営比較へ整理。