ElcamyTECH
Articles
Qwen

Qwen3.6はM1 Mac 8GBで動かない——2026年春版:今選ぶべきローカルLLM 4選

TechQwenQwenOllamaOllama2026/05/12

Qwen3.6はM1 Mac 8GBで動かない——2026年春版:今選ぶべきローカルLLM 4選

2026年3月に公開したQwen3.5 M1 Mac検証記事には、多くのアクセスをいただきました。あれから数ヶ月、ローカルLLMの世界は大きく動いています。

Qwen3.6がリリースされ、「次の検証を」と思って調べたところ、最初の壁にぶつかりました。Qwen3.6にはQwen3.5のような小型モデル(4B・9B)が存在しないのです。

この記事では、その理由を整理した上で、「今のM1 Mac 8GBで本当に使えるモデルはどれか」を4モデルで再検証します。


なぜQwen3.6は8GBで動かないのか

Qwen3.5は 0.8B / 2B / 4B / 9B という豊富なサイズ展開があり、8GBマシンでも4Bまで動作しました。

ところがQwen3.6のオープンウェイトモデルは以下の2種類のみです。

モデルサイズアーキテクチャ最低推奨メモリ
Qwen3.6-27B27B(dense)通常のDense + Vision24GB
Qwen3.6-35B-A3B35B(MoE)Gated Delta Networks + sparse MoE16GB

最小が27B——8GBでは物理的に不可能です。

Qwen系モデルの最低メモリ要件と「M1 Mac 8GB の壁」の位置関係。Qwen3.5系(0.8B〜9B)は壁の内側、Qwen3.6系(27B / 35B-A3B)は完全に外側

なぜ小型モデルがないのか? Qwen3.6はマルチモーダル統合(早期融合)と201言語対応を標準搭載しており、モデル構造の最小単位がそれだけ大きくなっています。Alibabが小規模ユーザー向けには引き続きQwen3.5系を推奨している、という設計判断です。


検証環境

項目スペック
マシンMacBook Pro (2020)
チップApple M1
メモリ8GB(ユニファイドメモリ)
OSmacOS Sequoia
Ollamav0.23.2
検証日2026-05-12

前回(Qwen3.5検証)との変化点: Ollama が v0.17.6 → v0.23.2 に更新。v0.22.0でMLXバックエンドが本格稼働しており、Apple Siliconでの推論効率が向上しています。


検証対象モデル

モデルファイルサイズ開発元特徴
alibayram/smollm3:latest1.9GBHuggingFaceSmolLM3。超軽量が売り
gemma3:4b3.3GBGoogleGemma3シリーズの小型モデル
qwen3.5:4b3.4GBAlibaba前回検証済み。今回の比較ベースライン
gemma4:e2b7.2GBGoogleGemma4最小モデル(E2B = Efficient 2B)

検証方法

Qwen3.5記事と同じ3プロンプトを使用し、公平な比較を担保します。

テストプロンプト評価ポイント
日本語要約「量子コンピュータとは何か、小学生にもわかるように3行で説明してください」日本語の自然さ・指示遵守
コード生成「PythonでFizzBuzzを書いてください。コードのみ出力してください。」コードの正確性
論理推論「東京の人口が減少し続けた場合、最も影響を受ける産業を3つ挙げ、理由を述べてください」論理性・構成力

速度はOllama REST APIで計測(eval_count ÷ eval_duration)。


検証結果

パフォーマンス比較表

計測条件: Brave・Claude デスクトップ等を全て終了したクリーン環境で計測。

モデルメモリ使用量CPU/GPU比率推論速度(平均)体感
alibayram/smollm3~2GB~100% GPU27 tok/s最速・快適
gemma4:e2b7.8GB75% CPU / 25% GPU24 tok/s快適(クリーン環境限定)
gemma3:4b~4GBバランス20 tok/s快適
qwen3.5:4b6.0GB33% GPU / 67% CPU7 tok/sやや待つが実用範囲

4モデルの推論速度比較(M1 Mac 8GB クリーン環境)。smollm3が最速、qwen3.5:4bが最遅。色はメモリ占有量を示す

各プロンプト別の速度:

モデル日本語要約FizzBuzz論理推論
smollm326.3 tok/s27.2 tok/s27.7 tok/s
gemma4:e2b24.2 tok/s24.3 tok/s24.0 tok/s
gemma3:4b20.0 tok/s20.1 tok/s19.9 tok/s
qwen3.5:4b6.3 tok/s7.2 tok/s7.3 tok/s

⚠️ 他アプリ起動中は速度が急落します(後述)。


モデルごとの詳細レポート

alibayram/smollm3 — 速度は最速、日本語精度はやや不安定

日本語要約の応答(26.3 tok/s):

量子コンピュータは、通常のコンピュータよりも小さな粒子の状態を利用することで計算が高速に行える仕組みです。例えば、1つの電子を使って2つの情報を同時に処理できるという特性があります。これにより、大規模な計算問題を解くのに時間をかけることができます。

3行の指示を守れず1行になっており、「時間をかけることができます」は意味的に逆(速くなるはず)。内容に不正確さが残ります。

FizzBuzz(27.2 tok/s): 完璧に正しいコードを出力。

論理推論(27.7 tok/s): 飲食業・娯楽・ビジネスサービスを挙げ、論理は通る。ただし分析の深さはgemma3:4bより浅い。

総評: 4モデル中最速の27 tok/s。コード生成や英語タスクには十分実用的。日本語の指示遵守・精度は4モデル中最下位で、重要な業務用途には向かない。


gemma3:4b — 品質・速度・安定性のバランスが最良

日本語要約の応答(20.0 tok/s):

量子コンピュータは、普通のコンピュータとは違う、とても不思議な計算機です。 「0」と「1」を同時に使える「量子ビット」を使うので、普通のコンピュータでは答えが出ない問題を解ける可能性があります。 まだ開発途中で、将来、医療や材料開発など、色々な分野で活躍することが期待されています。

3行の指示を守り、小学生向けの表現も自然。4モデル中、指示遵守と品質のバランスが最も安定しています。

FizzBuzz(20.1 tok/s): 関数化されたきれいなコードを出力。ロジックも正確。

論理推論(19.9 tok/s): 不動産業界・サービス業(飲食・小売)を、東京固有の経済構造と絡めて詳述。構成力が高い。

総評: クリーン環境で20 tok/sを達成。日本語品質・指示遵守・速度のすべてでバランスが取れており、他アプリと並用しながらローカルLLMを使いたい場合の最推奨モデル。


qwen3.5:4b — 品質は高いが速度は他アプリの影響を受けない代わりに遅い

日本語要約の応答(6.3 tok/s):

普通のコンピュータは「0」か「1」のどちらかしか考えない。 量子コンピュータは「0」も「1」も「同時に」考えます。 これが力になって、とても難しい問題をすばやく解くことができます。

3行遵守、簡潔で正確。比喩は少ないが内容は明快。

FizzBuzz(7.2 tok/s): 完璧に正しいコードを出力。

論理推論(7.3 tok/s): 不動産業・小売商業を、空き家問題・消費人口減少という具体的な角度から詳述。4モデル中最も論理構成が丁寧。

速度の特性: クリーン環境でも6〜7 tok/sで変化なし。これは6GBのメモリ占有と67% CPUオフロードが固定のため、他アプリの影響を受けにくい反面、もともと遅い。

総評: Difyとの接続実績があり品質も高い。ただしクリーン環境でも7 tok/sと4モデル中最遅。gemma3:4bへの乗り換えを推奨。


gemma4:e2b — 「使える」か「使えない」かはメモリ次第

gemma4:e2bは今回の検証で最も劇的な結果を示したモデルです。

ollama ps で確認した実態:

NAME          SIZE      PROCESSOR          
gemma4:e2b    7.8 GB    75%/25% CPU/GPU

7.2GBのモデルが7.8GBを消費し、GPUに25%しか乗らず75%がCPUに押し出されます。この比率はクリーン環境でも変わりません。

しかし、速度はメモリの空き状況で天と地ほど変わります。

計測条件推論速度日本語の応答時間
Brave + Claude起動中(空きメモリ 60MB)1.3 tok/s8分15秒
Brave + Claude終了後(空きメモリ 210MB→)24.2 tok/s約20秒

差は18倍。原因はスワップです。8GBのRAMにgemma4:e2b(7.8GB)+他アプリ(計7GB超)を詰め込んだ結果、OSが激しくスワップを繰り返し、速度が壊滅的になっていました。

応答品質は4モデル中最高水準です。

日本語要約:

普通のコンピュータが「0」か「1」しか考えられないのに対し、量子コンピュータは「0」と「1」を同時に持てる不思議な力を使います。 この力のおかげで、とても複雑な問題も、たくさんの答えを同時に試して、一気に解くことができます。 まるで魔法みたいに、今まで解けなかった難問をあっという間に解決してくれる、すごい計算機です。

FizzBuzz:完璧に正しいコードを出力(24.3 tok/s)。

論理推論:不動産・建設業/オフィス・サービス産業/小売・消費関連産業を、それぞれ東京固有の経済構造と絡めて詳述。4モデル中最も分析が深い(24.0 tok/s)。

総評: クリーン環境(ほかのアプリを閉じた状態)なら24 tok/sで最速かつ最高品質。ただし**「ローカルLLM専用機として使う」覚悟が必要**。ブラウザやデスクトップアプリと並用すると即座に破綻します。8GBマシンでgemma4:e2bを選ぶなら、使用中は他アプリをすべて閉じることが前提条件です。


他アプリ起動中 vs クリーン環境:速度への影響

Brave + Claude 起動中 vs クリーン環境での推論速度比較。gemma4:e2b は 1.3 → 24.2 tok/s で 18倍差

今回の検証で最も重要な発見は、同じモデルでも計測環境で速度が最大18倍変わることでした。

モデルBrave+Claude起動中クリーン環境改善率
gemma4:e2b1.3 tok/s24.2 tok/s+18倍
smollm316.1 tok/s26.3 tok/s+1.6倍
gemma3:4b11.6 tok/s20.0 tok/s+1.7倍
qwen3.5:4b7.0 tok/s6.9 tok/sほぼ変化なし

Brave(複数タブ)+ Claude デスクトップが起動中、システムの空きメモリはわずか 60MB でした。gemma4:e2bの7.8GBを足すと合計15GB超を8GBへ詰め込む状態となり、OSが激しくスワップを繰り返した結果が1.3 tok/sです。

qwen3.5:4bだけが影響を受けていないのは、もともと67% CPUオフロード固定で7 tok/sが上限のため、スワップ追加ペナルティが相対的に小さいためです。

前回(Qwen3.5検証)との比較

指標qwen3.5:4b(前回)gemma3:4b(今回推奨)変化
推論速度(クリーン環境)7 tok/s20 tok/s+186%
メモリ使用量6.0GB~4GB-33%
日本語3行指示遵守同等
FizzBuzz正解同等
ファイルサイズ3.4GB3.3GBほぼ同等

結論:2026年春、M1 Mac 8GBでのベストチョイス

用途別ローカルLLM選択フローチャート — 「他アプリ並用するか」と「用途」の2問で最適モデルが決まる

用途おすすめモデル速度理由
LLM専用で使う(他アプリ全閉じ)gemma4:e2b24 tok/s最高品質+高速。ただし他アプリと共存不可
他アプリと並用しながら使うgemma3:4b20 tok/s品質・速度・安定性のバランスが最良
コード生成・英語タスク特化smollm327 tok/s最速だが日本語精度は低め
Dify連携・動作実績重視qwen3.5:4b7 tok/s前回検証済み。gemma3:4bへの移行を推奨

8GBマシンの鉄則:速度を決めるのはモデルの大きさではなく、空きメモリの量。

gemma4:e2bはクリーン環境で24 tok/sを出しましたが、Braveを開いた瞬間に1 tok/s台へ急落します。「何と並べて使うか」を先に決めてからモデルを選ぶのが8GBマシン攻略の鍵です。


補足:Qwen3.6を使いたい場合

8GBマシンではローカル実行は諦め、APIで使うのが現実的です。

python
# OpenAI互換APIでQwen3.6-Plusを呼ぶ例(Alibaba Cloud)
from openai import OpenAI
 
client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
 
response = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "量子コンピュータとは"}]
)

DifyはOpenAI互換APIに対応しているため、base_urlとモデル名を変えるだけでQwen3.6-PlusをDifyのバックエンドとして利用できます。


まとめ

  • Qwen3.6はM1 Mac 8GBでは動かない。最小モデルが27Bで、8GBの壁は越えられない。
  • gemma4:e2bはクリーン環境なら最速(24 tok/s)。ただし他アプリ起動中はスワップで1 tok/s台へ急落する。
  • 安定して他作業と並用するならgemma3:4b。11 tok/sで品質◎、メモリも余裕がある。
  • 8GBマシンの性能はモデルより「空きメモリ」が決める。これが今回の最大の発見。
  • Qwen3.6を使うならAPI。DifyのOpenAI互換設定なら数分で繋がる。

関連記事

関連記事

Solution

AIエージェント・Dify構築支援

AIエージェント開発・Dify構築・PoC・社内研修まで
ワンストップで支援。まずはお気軽にご相談ください。

Elcamy

Technology Partners

DifyGoogle Cloud Partner