はじめに
「M1 Mac(メモリ8GB)でローカルLLMを動かすなら、2026年の今どれを選ぶべきか?」
前回のQwen3.5実機検証記事では、Qwen3.5単体の性能を検証した。今回はローカルLLMの定番・最新モデル3つを同一環境・同一プロンプトで横断比較し、用途別のおすすめを導き出す。さらに、2026年4月にリリースされたばかりのGemma 4 E2BもM1 8GBで動くか検証した。
結論:速度重視ならSmolLM3(24 tok/s)、日本語品質と回答の丁寧さならGemma 3(17 tok/s)、高度な推論とコード生成ならQwen3.5(6.5 tok/s)。新登場のGemma 4 E2Bは品質・速度ともに優秀だが、8GBには重すぎた。M1 8GBという制約下では、SmolLM3の圧倒的な速度とメモリ効率が最も実用的。
比較対象モデル
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| 開発元 | Alibaba(Qwen Team) | Hugging Face | Google DeepMind |
| パラメータ | 4B | 3B | 4B |
| リリース | 2026-03 | 2026 | 2025-03 |
| コンテキスト長 | 262K | 8K | 128K |
| Vision | あり(内蔵) | なし | あり(4B以上) |
| 多言語 | 201言語 | 多言語対応 | 140+言語 |
| Thinking(推論)モード | あり | あり | なし |
| Ollamaモデルサイズ | 3.4GB | 1.9GB | 3.3GB |
選定理由:
- Qwen3.5 4B — 2026年3月リリースの最新。Vision・Thinking・262Kコンテキストと全部入り
- SmolLM3 3B — Hugging Face製。完全オープン・reasoning対応。Llama 3.2 3Bを上回ると公称
- Gemma 3 4B — Google製。前世代Gemma 2 27Bを上回ると公称。マルチモーダル対応
検証環境
| 項目 | スペック |
|---|---|
| マシン | M1 MacBook Pro |
| メモリ | 8GB(統合メモリ) |
| OS | macOS Sequoia |
| 推論エンジン | Ollama v0.20.0 |
| コンテキスト長 | 4096(全モデル統一) |
| Temperature | 0.7 |
# モデルのダウンロード
ollama pull qwen3.5:4b # 3.4GB
ollama pull alibayram/smollm3 # 1.9GB
ollama pull gemma3:4b # 3.3GB注意: SmolLM3はOllama公式ライブラリに未登録(2026年3月時点)のため、コミュニティ版 alibayram/smollm3 を使用。
ベンチマーク条件
前回のQwen3.5記事と統一条件を維持し、シリーズとしての比較可能性を確保。
テストプロンプト(3種)
テスト1: 日本語要約(入力約500字)
以下の文章を3行で要約してください。 (日本の製造業の転換期に関する文章)
テスト2: コード生成(FizzBuzz)
Pythonで1から100までのFizzBuzzを実装してください。3の倍数でFizz、5の倍数でBuzz、両方の倍数でFizzBuzzを出力します。
テスト3: 推論・分析
売上が前年比20%減少した製造業の会社があります。原因として考えられることを3つ挙げ、それぞれの対策を提案してください。
結果
速度比較(全テスト平均)
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| 生成速度 | 6.2 tok/s | 24.3 tok/s | 17.5 tok/s |
| プロンプト処理 | 72.7 tok/s | 220.3 tok/s | 176.5 tok/s |
| メモリ(ollama ps SIZE) | 6.1 GB | 2.4 GB | 4.3 GB |
| Metal推論割合 | 67% | 100% | 100% |
SmolLM3がQwen3.5の約4倍、Gemma 3の約1.4倍の生成速度。M1 8GBではSmolLM3が圧倒的に快適。
テスト1: 日本語要約
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| 生成速度 | 6.5 tok/s | 24.0 tok/s | 16.8 tok/s |
| 合計時間 | 22.8s | 12.7s | 12.1s |
| 回答文字数 | 168字 | 275字 | 168字 |
| 日本語の自然さ | ★★★★★ | ★★★☆☆ | ★★★★★ |
| 指示追従(3行) | ★★★★★ | ★★☆☆☆ | ★★★★★ |
Qwen3.5の回答:
少子高齢化や高騰する原材料費による経営難から、日本製造業は大量生産からデジタル技術を活用したスマートファクトリーへ転換し始めている。大企業の進捗と政府支援策はあるが、中小企業には依然として人材不足や導入コストの壁が残っている。今後の競争力維持には、大・中・小企業の連携を強化しサプライチェーン全体でのデジタル化を推進することが不可欠だ。
Gemma 3の回答:
日本の製造業は、少子高齢化やグローバル競争などの要因により、従来の戦略が通用しなくなり、転換期を迎えている。大企業ではIoTやAIを活用したスマートファクトリーの導入が進む一方、中小企業では技術継承とDX推進が課題となっている。今後は大中小企業の連携強化とサプライチェーン全体のデジタル化が、日本の製造業の競争力維持に不可欠となる。
SmolLM3の回答:
(275字 — 「3行で」という指示に対し、段落形式で長めに回答。内容は正確だが指示追従に課題)
分析: Qwen3.5とGemma 3は指示通り「3行」で簡潔にまとめ、日本語も自然。SmolLM3は内容は押さえているが、文字数が多く指示追従度が低い。
テスト2: コード生成(FizzBuzz)
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| 生成速度 | 5.4 tok/s | 24.7 tok/s | 17.1 tok/s |
| 合計時間 | 158.1s | 6.7s | 34.6s |
| コード正確性 | ★★★★★ | ★★★★★ | ★★★★★ |
| 付加価値 | 3パターン提示 | 簡潔な解説付き | 詳細な解説付き |
全モデル正解。 FizzBuzzは3-4Bモデルでも余裕で解ける。差が出たのは回答のスタイル:
- Qwen3.5 — Thinking(推論)モードで3パターン(基本・Pythonic・関数形式)を提示。最も教育的だが、内部推論に時間を使うため158秒かかった
- SmolLM3 — シンプルな正解コード+1文の解説。6.7秒で完了。実用上十分
- Gemma 3 — 正解コード+各行の丁寧な解説。教育的で分かりやすいが34.6秒
Qwen3.5のThinkingモードについて: Qwen3.5はデフォルトでThinkingモードが有効。内部で推論プロセスを実行してから回答を生成するため、品質は高いが速度が大幅に低下する。M1 8GBでは体感的にかなり遅い。
テスト3: 推論・分析(ビジネス課題)
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| 生成速度 | 6.7 tok/s | 24.2 tok/s | 18.7 tok/s |
| 合計時間 | 79.8s | 21.7s | 31.7s |
| 論理性 | ★★★★★ | ★★★★☆ | ★★★★★ |
| 提案の具体性 | ★★★★★ | ★★★☆☆ | ★★★★☆ |
| 構造化 | ★★★★★ | ★★★★☆ | ★★★★★ |
分析:
- Qwen3.5 — 「需要の減少」「生産能力不足による納期遅延」「価格競争力低下とマージン圧縮」の3点を挙げ、それぞれに複数の具体的対策を提示。3モデル中で最も構造化された回答で、ビジネス文脈の理解度が高い
- Gemma 3 — 「需要の減少」「コストの増加」「販売・マーケティング戦略の失敗」の3点。各項目に詳細な分析と対策を構造化して提示。バランスの良い回答
- SmolLM3 — 「原材料コスト増加」「需要の減少」「労働力の不足」の3点。方向性は正しいが、対策の具体性がやや浅い
メモリ使用量
ollama ps の SIZE(モデルロード時のメモリ使用量)で比較。num_ctx: 4096統一、他アプリを可能な限り閉じた状態で計測。
補足: M1のユニファイドメモリでは、CPUとGPUが同一のメモリプールを共有する。以下の「Metal推論割合」はメモリの場所ではなく、推論計算をMetal(GPU)とCPUのどちらで処理するかの割合。Metal 100%が最速で、CPU計算へのフォールバックが増えるほど速度が低下する。
| Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B | |
|---|---|---|---|
| ollama ps SIZE | 6.1 GB | 2.4 GB | 4.3 GB |
| Metal推論割合 | 67%(33% CPU) | 100% | 100% |
| M1 8GBに対する占有率 | 76.3% | 30.0% | 53.8% |
| 安全マージン | × CPUフォールバック発生 | ◎ 余裕あり | △ やや余裕少 |
SmolLM3はメモリ使用量が最小でMetal 100%推論。 M1 8GBではブラウザやエディタとの共存が現実的なのはSmolLM3のみ。Gemma 3は4.3GBでMetal 100%だが余裕は少ない。Qwen3.5は6.1GBでMetal推論に収まりきらず、33%がCPU計算にフォールバックする。
総合評価
| 評価軸 | Qwen3.5 4B | SmolLM3 3B | Gemma 3 4B |
|---|---|---|---|
| 日本語品質 | ★★★★★ | ★★★☆☆ | ★★★★★ |
| コード生成 | ★★★★★ | ★★★★☆ | ★★★★☆ |
| 推論力 | ★★★★★ | ★★★☆☆ | ★★★★☆ |
| 速度 | ★★☆☆☆ | ★★★★★ | ★★★★☆ |
| メモリ効率 | ★★☆☆☆ | ★★★★★ | ★★★☆☆ |
| 総合 | 品質重視向け | 速度・効率重視向け | バランス重視向け |
用途別おすすめ
| 用途 | おすすめ | 理由 |
|---|---|---|
| 日本語チャット全般 | Gemma 3 4B | Qwen3.5と同等の日本語品質で、速度が約2.6倍(17 vs 6.5 tok/s)。チャット用途ではレスポンスの差が体感に直結 |
| コーディング補助 | SmolLM3 3B | FizzBuzz程度なら十分。6.7秒で回答が返るレスポンスの良さ |
| ビジネス文書・分析 | Qwen3.5 4B | 推論の深さと具体性が頭一つ抜けている。待てるなら最良 |
| メモリ節約重視 | SmolLM3 3B | 2.4GBで他アプリと共存可能 |
| マルチモーダル | Gemma 3 4B | 4Bでも画像入力に対応。Qwen3.5のVisionはM1 8GBでは不安定 |
| 速度最優先 | SmolLM3 3B | 24 tok/sはGemma 3の1.4倍、Qwen3.5の4倍 |
M1 8GBで快適に使うためのTips
- コンテキスト長は4096に制限する — Qwen3.5のデフォルト262Kコンテキストはメモリを圧迫する。
num_ctx: 4096を明示指定 - Qwen3.5のThinkingモードはOFFにできる — Ollama APIで
"think": falseを指定すると、推論プロセスをスキップして高速化(6.5 tok/s → ただし回答品質はやや低下) - ブラウザを閉じてからモデルをロード — Qwen3.5はメモリの76%を占有。ブラウザを閉じてから起動するのが安全
- SmolLM3はOllama公式に未登録 —
alibayram/smollm3をpull。公式対応を待つのもあり ollama psでMetal推論割合を確認する — 100% GPUならMetal全活用で最速。CPU計算へのフォールバックが増えるほど速度が低下する
Thinkingモードの落とし穴
今回のベンチマークで判明した重要な注意点:Qwen3.5とSmolLM3はデフォルトでThinkingモードが有効。
| Thinkingあり | Thinkingなし | |
|---|---|---|
| Qwen3.5 生成速度 | 5.4 tok/s | 6.5 tok/s |
| Qwen3.5 合計時間(要約) | 199.3s | 22.8s |
| 回答品質 | 高い(複数パターン提示) | やや低い(直接回答) |
Thinkingモードでは内部推論トークンが生成上限を消費する。512トークン制限だと、推論だけで上限に達し回答が空になるケースがあった。Thinkingモードを使う場合は num_predict: 1024 以上を設定すること。
SmolLM3のThinkingは <think></think> タグが付くが中身は空(実質Thinkingなし)。速度への影響はほぼゼロ。
Gemma 4 E2B:期待の新星は8GBには重すぎた
2026年4月2日、Google DeepMindからGemma 4がリリースされた。最軽量のE2B(実効2.3Bパラメータ)をM1 8GBで検証した。
Gemma 4のラインナップ
| モデル | 実効パラメータ | 総パラメータ | アーキテクチャ |
|---|---|---|---|
| E2B | 2.3B | 5.1B(PLE埋め込み含む) | Dense + PLE |
| E4B | 4.5B | 8B | Dense + PLE |
| 26B | 3.8B active | 25.2B | MoE(128中8活性) |
| 31B | 30.7B | 30.7B | Dense |
M1 8GBで候補になるのはE2Bのみ。E4B以上は論外。
検証結果
ollama pull gemma4:e2b # 7.2GB(Q4_K_M量子化)同じ3テストを同一条件で実行した結果:
| テスト | Gemma 4 E2B | (参考)Gemma 3 4B |
|---|---|---|
| 日本語要約 | 21.3 tok/s | 16.8 tok/s |
| コード生成 | 19.2 tok/s | 17.1 tok/s |
| 推論・分析 | 19.8 tok/s | 18.7 tok/s |
| 平均生成速度 | 20.1 tok/s | 17.5 tok/s |
速度だけ見ればGemma 3より約15%高速。日本語品質も高く、3行要約は正確に指示に従い、ビジネス分析は構造化された丁寧な回答を返した。Gemma 3→4で順当に進化している。
しかし、メモリが致命的
| Gemma 4 E2B | Gemma 3 4B | |
|---|---|---|
| ollama ps SIZE | 8.0 GB | 4.3 GB |
| Metal推論割合 | 24%(76% CPU) | 100% |
Gemma 4 E2Bはモデルロードだけで8.0GB — M1 8GBの物理メモリと同量を要求する。Metal推論に24%しか収まらず、76%がCPU計算にフォールバックする。
「実効2.3B」の名前に騙されてはいけない。Gemma 4はPLE(Per-Layer Embeddings)で埋め込み層が巨大で、総パラメータは5.1B。Q4_K_M量子化してもファイル7.2GB、ロード時8.0GBとなり、Gemma 3 4B(4.3GB)の約2倍。
実効パラメータ数ではGemma 4 E2B(2.3B)< SmolLM3(3B)< Gemma 3(4B)だが、メモリ使用量は逆転する:
| メモリ順 | モデル | ollama ps SIZE | 実効パラメータ |
|---|---|---|---|
| 1位(軽い) | SmolLM3 3B | 2.4 GB | 3B |
| 2位 | Gemma 3 4B | 4.3 GB | 4B |
| 3位 | Qwen3.5 4B | 6.1 GB | 4B |
| 4位(重い) | Gemma 4 E2B | 8.0 GB | 2.3B |
結論:8GBユーザーはGemma 3が正解
Gemma 4 E2Bは品質・速度ともに優秀だが、M1 8GBではメモリの制約で実用的ではない。8GBの物理メモリを丸ごと占有し、ブラウザやエディタとの共存は不可能。16GB以上のMacであれば検討に値する。
8GBユーザーにとって、Gemma 3 4B(4.3GB / Metal 100%)が引き続きGoogle製モデルの現実解だ。
まとめ
M1 Mac 8GBという最も制約の厳しい環境で、2026年の最新モデルを実機検証した結果:
| 結論 | モデル |
|---|---|
| 速度・メモリ効率で圧勝 | SmolLM3 3B(24 tok/s / 2.4GB) |
| 日本語品質・バランス最良 | Gemma 3 4B(17 tok/s / 4.3GB) |
| 回答品質・推論力トップ | Qwen3.5 4B(6.5 tok/s / 6.1GB) |
M1 8GBでの実用性を考えると、SmolLM3が最も扱いやすい。 メモリ2.4GBで他アプリとの共存が可能、24 tok/sのレスポンスはチャットとして快適。日本語品質にこだわるならGemma 3、回答の深さを求めるなら時間を許容してQwen3.5という使い分けが現実的。
Gemma 4 E2Bの検証で分かったのは、「新しいモデル=必ず軽い」わけではないということ。実効2.3Bパラメータでも、アーキテクチャ次第でロードサイズは8.0GBに膨らむ。メモリが限られた環境では、実効パラメータ数ではなく実際のロードサイズ(ollama ps SIZE)を確認するのが鉄則だ。
16GB以上のMacを持っているなら、Gemma 4 E2Bは有力な選択肢。8GBの制約下でこそSmolLM3の価値が際立つ。