Qwen3.5 4B vs SmolLM3 3B vs Gemma 3 4B：M1 Mac（8GB）ローカルLLM対決（Gemma 4も検証）

はじめに

「M1 Mac（メモリ8GB）でローカルLLMを動かすなら、2026年の今どれを選ぶべきか？」

前回のQwen3.5実機検証記事では、Qwen3.5単体の性能を検証した。今回はローカルLLMの定番・最新モデル3つを同一環境・同一プロンプトで横断比較し、用途別のおすすめを導き出す。さらに、2026年4月にリリースされたばかりのGemma 4 E2BもM1 8GBで動くか検証した。

結論：速度重視ならSmolLM3（24 tok/s）、日本語品質と回答の丁寧さならGemma 3（17 tok/s）、高度な推論とコード生成ならQwen3.5（6.5 tok/s）。新登場のGemma 4 E2Bは品質・速度ともに優秀だが、8GBには重すぎた。M1 8GBという制約下では、SmolLM3の圧倒的な速度とメモリ効率が最も実用的。

比較対象モデル

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
開発元	Alibaba（Qwen Team）	Hugging Face	Google DeepMind
パラメータ	4B	3B	4B
リリース	2026-03	2026	2025-03
コンテキスト長	262K	8K	128K
Vision	あり（内蔵）	なし	あり（4B以上）
多言語	201言語	多言語対応	140+言語
Thinking（推論）モード	あり	あり	なし
Ollamaモデルサイズ	3.4GB	1.9GB	3.3GB

選定理由:

Qwen3.5 4B — 2026年3月リリースの最新。Vision・Thinking・262Kコンテキストと全部入り
SmolLM3 3B — Hugging Face製。完全オープン・reasoning対応。Llama 3.2 3Bを上回ると公称
Gemma 3 4B — Google製。前世代Gemma 2 27Bを上回ると公称。マルチモーダル対応

検証環境

項目	スペック
マシン	M1 MacBook Pro
メモリ	8GB（統合メモリ）
OS	macOS Sequoia
推論エンジン	Ollama v0.20.0
コンテキスト長	4096（全モデル統一）
Temperature	0.7

bash

# モデルのダウンロード
ollama pull qwen3.5:4b        # 3.4GB
ollama pull alibayram/smollm3  # 1.9GB
ollama pull gemma3:4b          # 3.3GB

注意: SmolLM3はOllama公式ライブラリに未登録（2026年3月時点）のため、コミュニティ版 alibayram/smollm3 を使用。

ベンチマーク条件

前回のQwen3.5記事と統一条件を維持し、シリーズとしての比較可能性を確保。

テストプロンプト（3種）

テスト1: 日本語要約（入力約500字）

以下の文章を3行で要約してください。（日本の製造業の転換期に関する文章）

テスト2: コード生成（FizzBuzz）

Pythonで1から100までのFizzBuzzを実装してください。3の倍数でFizz、5の倍数でBuzz、両方の倍数でFizzBuzzを出力します。

テスト3: 推論・分析

売上が前年比20%減少した製造業の会社があります。原因として考えられることを3つ挙げ、それぞれの対策を提案してください。

結果

速度比較（全テスト平均）

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
生成速度	6.2 tok/s	24.3 tok/s	17.5 tok/s
プロンプト処理	72.7 tok/s	220.3 tok/s	176.5 tok/s
メモリ（ollama ps SIZE）	6.1 GB	2.4 GB	4.3 GB
Metal推論割合	67%	100%	100%

SmolLM3がQwen3.5の約4倍、Gemma 3の約1.4倍の生成速度。M1 8GBではSmolLM3が圧倒的に快適。

テスト1: 日本語要約

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
生成速度	6.5 tok/s	24.0 tok/s	16.8 tok/s
合計時間	22.8s	12.7s	12.1s
回答文字数	168字	275字	168字
日本語の自然さ	★★★★★	★★★☆☆	★★★★★
指示追従（3行）	★★★★★	★★☆☆☆	★★★★★

Qwen3.5の回答:

少子高齢化や高騰する原材料費による経営難から、日本製造業は大量生産からデジタル技術を活用したスマートファクトリーへ転換し始めている。大企業の進捗と政府支援策はあるが、中小企業には依然として人材不足や導入コストの壁が残っている。今後の競争力維持には、大・中・小企業の連携を強化しサプライチェーン全体でのデジタル化を推進することが不可欠だ。

Gemma 3の回答:

日本の製造業は、少子高齢化やグローバル競争などの要因により、従来の戦略が通用しなくなり、転換期を迎えている。大企業ではIoTやAIを活用したスマートファクトリーの導入が進む一方、中小企業では技術継承とDX推進が課題となっている。今後は大中小企業の連携強化とサプライチェーン全体のデジタル化が、日本の製造業の競争力維持に不可欠となる。

SmolLM3の回答:

（275字 — 「3行で」という指示に対し、段落形式で長めに回答。内容は正確だが指示追従に課題）

分析: Qwen3.5とGemma 3は指示通り「3行」で簡潔にまとめ、日本語も自然。SmolLM3は内容は押さえているが、文字数が多く指示追従度が低い。

テスト2: コード生成（FizzBuzz）

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
生成速度	5.4 tok/s	24.7 tok/s	17.1 tok/s
合計時間	158.1s	6.7s	34.6s
コード正確性	★★★★★	★★★★★	★★★★★
付加価値	3パターン提示	簡潔な解説付き	詳細な解説付き

全モデル正解。 FizzBuzzは3-4Bモデルでも余裕で解ける。差が出たのは回答のスタイル：

Qwen3.5 — Thinking（推論）モードで3パターン（基本・Pythonic・関数形式）を提示。最も教育的だが、内部推論に時間を使うため158秒かかった
SmolLM3 — シンプルな正解コード＋1文の解説。6.7秒で完了。実用上十分
Gemma 3 — 正解コード＋各行の丁寧な解説。教育的で分かりやすいが34.6秒

Qwen3.5のThinkingモードについて: Qwen3.5はデフォルトでThinkingモードが有効。内部で推論プロセスを実行してから回答を生成するため、品質は高いが速度が大幅に低下する。M1 8GBでは体感的にかなり遅い。

テスト3: 推論・分析（ビジネス課題）

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
生成速度	6.7 tok/s	24.2 tok/s	18.7 tok/s
合計時間	79.8s	21.7s	31.7s
論理性	★★★★★	★★★★☆	★★★★★
提案の具体性	★★★★★	★★★☆☆	★★★★☆
構造化	★★★★★	★★★★☆	★★★★★

分析:

Qwen3.5 — 「需要の減少」「生産能力不足による納期遅延」「価格競争力低下とマージン圧縮」の3点を挙げ、それぞれに複数の具体的対策を提示。3モデル中で最も構造化された回答で、ビジネス文脈の理解度が高い
Gemma 3 — 「需要の減少」「コストの増加」「販売・マーケティング戦略の失敗」の3点。各項目に詳細な分析と対策を構造化して提示。バランスの良い回答
SmolLM3 — 「原材料コスト増加」「需要の減少」「労働力の不足」の3点。方向性は正しいが、対策の具体性がやや浅い

メモリ使用量

ollama ps の SIZE（モデルロード時のメモリ使用量）で比較。num_ctx: 4096統一、他アプリを可能な限り閉じた状態で計測。

補足: M1のユニファイドメモリでは、CPUとGPUが同一のメモリプールを共有する。以下の「Metal推論割合」はメモリの場所ではなく、推論計算をMetal（GPU）とCPUのどちらで処理するかの割合。Metal 100%が最速で、CPU計算へのフォールバックが増えるほど速度が低下する。

	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
ollama ps SIZE	6.1 GB	2.4 GB	4.3 GB
Metal推論割合	67%（33% CPU）	100%	100%
M1 8GBに対する占有率	76.3%	30.0%	53.8%
安全マージン	× CPUフォールバック発生	◎ 余裕あり	△ やや余裕少

SmolLM3はメモリ使用量が最小でMetal 100%推論。 M1 8GBではブラウザやエディタとの共存が現実的なのはSmolLM3のみ。Gemma 3は4.3GBでMetal 100%だが余裕は少ない。Qwen3.5は6.1GBでMetal推論に収まりきらず、33%がCPU計算にフォールバックする。

総合評価

評価軸	Qwen3.5 4B	SmolLM3 3B	Gemma 3 4B
日本語品質	★★★★★	★★★☆☆	★★★★★
コード生成	★★★★★	★★★★☆	★★★★☆
推論力	★★★★★	★★★☆☆	★★★★☆
速度	★★☆☆☆	★★★★★	★★★★☆
メモリ効率	★★☆☆☆	★★★★★	★★★☆☆
総合	品質重視向け	速度・効率重視向け	バランス重視向け

用途別おすすめ

用途	おすすめ	理由
日本語チャット全般	Gemma 3 4B	Qwen3.5と同等の日本語品質で、速度が約2.6倍（17 vs 6.5 tok/s）。チャット用途ではレスポンスの差が体感に直結
コーディング補助	SmolLM3 3B	FizzBuzz程度なら十分。6.7秒で回答が返るレスポンスの良さ
ビジネス文書・分析	Qwen3.5 4B	推論の深さと具体性が頭一つ抜けている。待てるなら最良
メモリ節約重視	SmolLM3 3B	2.4GBで他アプリと共存可能
マルチモーダル	Gemma 3 4B	4Bでも画像入力に対応。Qwen3.5のVisionはM1 8GBでは不安定
速度最優先	SmolLM3 3B	24 tok/sはGemma 3の1.4倍、Qwen3.5の4倍

M1 8GBで快適に使うためのTips

コンテキスト長は4096に制限する — Qwen3.5のデフォルト262Kコンテキストはメモリを圧迫する。num_ctx: 4096 を明示指定
Qwen3.5のThinkingモードはOFFにできる — Ollama APIで "think": false を指定すると、推論プロセスをスキップして高速化（6.5 tok/s → ただし回答品質はやや低下）
ブラウザを閉じてからモデルをロード — Qwen3.5はメモリの76%を占有。ブラウザを閉じてから起動するのが安全
SmolLM3はOllama公式に未登録 — alibayram/smollm3 をpull。公式対応を待つのもあり
ollama ps でMetal推論割合を確認する — 100% GPUならMetal全活用で最速。CPU計算へのフォールバックが増えるほど速度が低下する

Thinkingモードの落とし穴

今回のベンチマークで判明した重要な注意点：Qwen3.5とSmolLM3はデフォルトでThinkingモードが有効。

	Thinkingあり	Thinkingなし
Qwen3.5 生成速度	5.4 tok/s	6.5 tok/s
Qwen3.5 合計時間（要約）	199.3s	22.8s
回答品質	高い（複数パターン提示）	やや低い（直接回答）

Thinkingモードでは内部推論トークンが生成上限を消費する。512トークン制限だと、推論だけで上限に達し回答が空になるケースがあった。Thinkingモードを使う場合は num_predict: 1024 以上を設定すること。

SmolLM3のThinkingは <think></think> タグが付くが中身は空（実質Thinkingなし）。速度への影響はほぼゼロ。

Gemma 4 E2B：期待の新星は8GBには重すぎた

2026年4月2日、Google DeepMindからGemma 4がリリースされた。最軽量のE2B（実効2.3Bパラメータ）をM1 8GBで検証した。

Gemma 4のラインナップ

モデル	実効パラメータ	総パラメータ	アーキテクチャ
E2B	2.3B	5.1B（PLE埋め込み含む）	Dense + PLE
E4B	4.5B	8B	Dense + PLE
26B	3.8B active	25.2B	MoE（128中8活性）
31B	30.7B	30.7B	Dense

M1 8GBで候補になるのはE2Bのみ。E4B以上は論外。

検証結果

bash

ollama pull gemma4:e2b  # 7.2GB（Q4_K_M量子化）

同じ3テストを同一条件で実行した結果：

テスト	Gemma 4 E2B	（参考）Gemma 3 4B
日本語要約	21.3 tok/s	16.8 tok/s
コード生成	19.2 tok/s	17.1 tok/s
推論・分析	19.8 tok/s	18.7 tok/s
平均生成速度	20.1 tok/s	17.5 tok/s

速度だけ見ればGemma 3より約15%高速。日本語品質も高く、3行要約は正確に指示に従い、ビジネス分析は構造化された丁寧な回答を返した。Gemma 3→4で順当に進化している。

しかし、メモリが致命的

	Gemma 4 E2B	Gemma 3 4B
ollama ps SIZE	8.0 GB	4.3 GB
Metal推論割合	24%（76% CPU）	100%

Gemma 4 E2Bはモデルロードだけで8.0GB — M1 8GBの物理メモリと同量を要求する。Metal推論に24%しか収まらず、76%がCPU計算にフォールバックする。

「実効2.3B」の名前に騙されてはいけない。Gemma 4はPLE（Per-Layer Embeddings）で埋め込み層が巨大で、総パラメータは5.1B。Q4_K_M量子化してもファイル7.2GB、ロード時8.0GBとなり、Gemma 3 4B（4.3GB）の約2倍。

実効パラメータ数ではGemma 4 E2B（2.3B）< SmolLM3（3B）< Gemma 3（4B）だが、メモリ使用量は逆転する：

メモリ順	モデル	ollama ps SIZE	実効パラメータ
1位（軽い）	SmolLM3 3B	2.4 GB	3B
2位	Gemma 3 4B	4.3 GB	4B
3位	Qwen3.5 4B	6.1 GB	4B
4位（重い）	Gemma 4 E2B	8.0 GB	2.3B

結論：8GBユーザーはGemma 3が正解

Gemma 4 E2Bは品質・速度ともに優秀だが、M1 8GBではメモリの制約で実用的ではない。8GBの物理メモリを丸ごと占有し、ブラウザやエディタとの共存は不可能。16GB以上のMacであれば検討に値する。

8GBユーザーにとって、Gemma 3 4B（4.3GB / Metal 100%）が引き続きGoogle製モデルの現実解だ。

まとめ

M1 Mac 8GBという最も制約の厳しい環境で、2026年の最新モデルを実機検証した結果：

結論	モデル
速度・メモリ効率で圧勝	SmolLM3 3B（24 tok/s / 2.4GB）
日本語品質・バランス最良	Gemma 3 4B（17 tok/s / 4.3GB）
回答品質・推論力トップ	Qwen3.5 4B（6.5 tok/s / 6.1GB）

M1 8GBでの実用性を考えると、SmolLM3が最も扱いやすい。 メモリ2.4GBで他アプリとの共存が可能、24 tok/sのレスポンスはチャットとして快適。日本語品質にこだわるならGemma 3、回答の深さを求めるなら時間を許容してQwen3.5という使い分けが現実的。

Gemma 4 E2Bの検証で分かったのは、「新しいモデル＝必ず軽い」わけではないということ。実効2.3Bパラメータでも、アーキテクチャ次第でロードサイズは8.0GBに膨らむ。メモリが限られた環境では、実効パラメータ数ではなく実際のロードサイズ（ollama ps SIZE）を確認するのが鉄則だ。

16GB以上のMacを持っているなら、Gemma 4 E2Bは有力な選択肢。8GBの制約下でこそSmolLM3の価値が際立つ。