ElcamyTECH
Articles
Ollama

Qwen3.5 4B vs SmolLM3 3B vs Gemma 3 4B:M1 Mac(8GB)ローカルLLM対決(Gemma 4も検証)

TechOllamaOllamaAI2026/04/03

はじめに

「M1 Mac(メモリ8GB)でローカルLLMを動かすなら、2026年の今どれを選ぶべきか?」

前回のQwen3.5実機検証記事では、Qwen3.5単体の性能を検証した。今回はローカルLLMの定番・最新モデル3つを同一環境・同一プロンプトで横断比較し、用途別のおすすめを導き出す。さらに、2026年4月にリリースされたばかりのGemma 4 E2BもM1 8GBで動くか検証した。

結論:速度重視ならSmolLM3(24 tok/s)、日本語品質と回答の丁寧さならGemma 3(17 tok/s)、高度な推論とコード生成ならQwen3.5(6.5 tok/s)。新登場のGemma 4 E2Bは品質・速度ともに優秀だが、8GBには重すぎた。M1 8GBという制約下では、SmolLM3の圧倒的な速度とメモリ効率が最も実用的。

比較対象モデル

Qwen3.5 4BSmolLM3 3BGemma 3 4B
開発元Alibaba(Qwen Team)Hugging FaceGoogle DeepMind
パラメータ4B3B4B
リリース2026-0320262025-03
コンテキスト長262K8K128K
Visionあり(内蔵)なしあり(4B以上)
多言語201言語多言語対応140+言語
Thinking(推論)モードありありなし
Ollamaモデルサイズ3.4GB1.9GB3.3GB

選定理由:

  • Qwen3.5 4B — 2026年3月リリースの最新。Vision・Thinking・262Kコンテキストと全部入り
  • SmolLM3 3B — Hugging Face製。完全オープン・reasoning対応。Llama 3.2 3Bを上回ると公称
  • Gemma 3 4B — Google製。前世代Gemma 2 27Bを上回ると公称。マルチモーダル対応

検証環境

項目スペック
マシンM1 MacBook Pro
メモリ8GB(統合メモリ)
OSmacOS Sequoia
推論エンジンOllama v0.20.0
コンテキスト長4096(全モデル統一)
Temperature0.7
# モデルのダウンロード
ollama pull qwen3.5:4b        # 3.4GB
ollama pull alibayram/smollm3  # 1.9GB
ollama pull gemma3:4b          # 3.3GB

注意: SmolLM3はOllama公式ライブラリに未登録(2026年3月時点)のため、コミュニティ版 alibayram/smollm3 を使用。

ベンチマーク条件

前回のQwen3.5記事と統一条件を維持し、シリーズとしての比較可能性を確保。

テストプロンプト(3種)

テスト1: 日本語要約(入力約500字)

以下の文章を3行で要約してください。 (日本の製造業の転換期に関する文章)

テスト2: コード生成(FizzBuzz)

Pythonで1から100までのFizzBuzzを実装してください。3の倍数でFizz、5の倍数でBuzz、両方の倍数でFizzBuzzを出力します。

テスト3: 推論・分析

売上が前年比20%減少した製造業の会社があります。原因として考えられることを3つ挙げ、それぞれの対策を提案してください。

結果

速度比較(全テスト平均)

Qwen3.5 4BSmolLM3 3BGemma 3 4B
生成速度6.2 tok/s24.3 tok/s17.5 tok/s
プロンプト処理72.7 tok/s220.3 tok/s176.5 tok/s
メモリ(ollama ps SIZE)6.1 GB2.4 GB4.3 GB
Metal推論割合67%100%100%

SmolLM3がQwen3.5の約4倍、Gemma 3の約1.4倍の生成速度。M1 8GBではSmolLM3が圧倒的に快適。

テスト1: 日本語要約

Qwen3.5 4BSmolLM3 3BGemma 3 4B
生成速度6.5 tok/s24.0 tok/s16.8 tok/s
合計時間22.8s12.7s12.1s
回答文字数168字275字168字
日本語の自然さ★★★★★★★★☆☆★★★★★
指示追従(3行)★★★★★★★☆☆☆★★★★★

Qwen3.5の回答:

少子高齢化や高騰する原材料費による経営難から、日本製造業は大量生産からデジタル技術を活用したスマートファクトリーへ転換し始めている。大企業の進捗と政府支援策はあるが、中小企業には依然として人材不足や導入コストの壁が残っている。今後の競争力維持には、大・中・小企業の連携を強化しサプライチェーン全体でのデジタル化を推進することが不可欠だ。

Gemma 3の回答:

日本の製造業は、少子高齢化やグローバル競争などの要因により、従来の戦略が通用しなくなり、転換期を迎えている。大企業ではIoTやAIを活用したスマートファクトリーの導入が進む一方、中小企業では技術継承とDX推進が課題となっている。今後は大中小企業の連携強化とサプライチェーン全体のデジタル化が、日本の製造業の競争力維持に不可欠となる。

SmolLM3の回答:

(275字 — 「3行で」という指示に対し、段落形式で長めに回答。内容は正確だが指示追従に課題)

分析: Qwen3.5とGemma 3は指示通り「3行」で簡潔にまとめ、日本語も自然。SmolLM3は内容は押さえているが、文字数が多く指示追従度が低い。

テスト2: コード生成(FizzBuzz)

Qwen3.5 4BSmolLM3 3BGemma 3 4B
生成速度5.4 tok/s24.7 tok/s17.1 tok/s
合計時間158.1s6.7s34.6s
コード正確性★★★★★★★★★★★★★★★
付加価値3パターン提示簡潔な解説付き詳細な解説付き

全モデル正解。 FizzBuzzは3-4Bモデルでも余裕で解ける。差が出たのは回答のスタイル:

  • Qwen3.5 — Thinking(推論)モードで3パターン(基本・Pythonic・関数形式)を提示。最も教育的だが、内部推論に時間を使うため158秒かかった
  • SmolLM3 — シンプルな正解コード+1文の解説。6.7秒で完了。実用上十分
  • Gemma 3 — 正解コード+各行の丁寧な解説。教育的で分かりやすいが34.6秒

Qwen3.5のThinkingモードについて: Qwen3.5はデフォルトでThinkingモードが有効。内部で推論プロセスを実行してから回答を生成するため、品質は高いが速度が大幅に低下する。M1 8GBでは体感的にかなり遅い。

テスト3: 推論・分析(ビジネス課題)

Qwen3.5 4BSmolLM3 3BGemma 3 4B
生成速度6.7 tok/s24.2 tok/s18.7 tok/s
合計時間79.8s21.7s31.7s
論理性★★★★★★★★★☆★★★★★
提案の具体性★★★★★★★★☆☆★★★★☆
構造化★★★★★★★★★☆★★★★★

分析:

  • Qwen3.5 — 「需要の減少」「生産能力不足による納期遅延」「価格競争力低下とマージン圧縮」の3点を挙げ、それぞれに複数の具体的対策を提示。3モデル中で最も構造化された回答で、ビジネス文脈の理解度が高い
  • Gemma 3 — 「需要の減少」「コストの増加」「販売・マーケティング戦略の失敗」の3点。各項目に詳細な分析と対策を構造化して提示。バランスの良い回答
  • SmolLM3 — 「原材料コスト増加」「需要の減少」「労働力の不足」の3点。方向性は正しいが、対策の具体性がやや浅い

メモリ使用量

ollama ps の SIZE(モデルロード時のメモリ使用量)で比較。num_ctx: 4096統一、他アプリを可能な限り閉じた状態で計測。

補足: M1のユニファイドメモリでは、CPUとGPUが同一のメモリプールを共有する。以下の「Metal推論割合」はメモリの場所ではなく、推論計算をMetal(GPU)とCPUのどちらで処理するかの割合。Metal 100%が最速で、CPU計算へのフォールバックが増えるほど速度が低下する。

Qwen3.5 4BSmolLM3 3BGemma 3 4B
ollama ps SIZE6.1 GB2.4 GB4.3 GB
Metal推論割合67%(33% CPU)100%100%
M1 8GBに対する占有率76.3%30.0%53.8%
安全マージン× CPUフォールバック発生◎ 余裕あり△ やや余裕少

SmolLM3はメモリ使用量が最小でMetal 100%推論。 M1 8GBではブラウザやエディタとの共存が現実的なのはSmolLM3のみ。Gemma 3は4.3GBでMetal 100%だが余裕は少ない。Qwen3.5は6.1GBでMetal推論に収まりきらず、33%がCPU計算にフォールバックする。

総合評価

評価軸Qwen3.5 4BSmolLM3 3BGemma 3 4B
日本語品質★★★★★★★★☆☆★★★★★
コード生成★★★★★★★★★☆★★★★☆
推論力★★★★★★★★☆☆★★★★☆
速度★★☆☆☆★★★★★★★★★☆
メモリ効率★★☆☆☆★★★★★★★★☆☆
総合品質重視向け速度・効率重視向けバランス重視向け

用途別おすすめ

用途おすすめ理由
日本語チャット全般Gemma 3 4BQwen3.5と同等の日本語品質で、速度が約2.6倍(17 vs 6.5 tok/s)。チャット用途ではレスポンスの差が体感に直結
コーディング補助SmolLM3 3BFizzBuzz程度なら十分。6.7秒で回答が返るレスポンスの良さ
ビジネス文書・分析Qwen3.5 4B推論の深さと具体性が頭一つ抜けている。待てるなら最良
メモリ節約重視SmolLM3 3B2.4GBで他アプリと共存可能
マルチモーダルGemma 3 4B4Bでも画像入力に対応。Qwen3.5のVisionはM1 8GBでは不安定
速度最優先SmolLM3 3B24 tok/sはGemma 3の1.4倍、Qwen3.5の4倍

M1 8GBで快適に使うためのTips

  1. コンテキスト長は4096に制限する — Qwen3.5のデフォルト262Kコンテキストはメモリを圧迫する。num_ctx: 4096 を明示指定
  2. Qwen3.5のThinkingモードはOFFにできる — Ollama APIで "think": false を指定すると、推論プロセスをスキップして高速化(6.5 tok/s → ただし回答品質はやや低下)
  3. ブラウザを閉じてからモデルをロード — Qwen3.5はメモリの76%を占有。ブラウザを閉じてから起動するのが安全
  4. SmolLM3はOllama公式に未登録alibayram/smollm3 をpull。公式対応を待つのもあり
  5. ollama ps でMetal推論割合を確認する — 100% GPUならMetal全活用で最速。CPU計算へのフォールバックが増えるほど速度が低下する

Thinkingモードの落とし穴

今回のベンチマークで判明した重要な注意点:Qwen3.5とSmolLM3はデフォルトでThinkingモードが有効

ThinkingありThinkingなし
Qwen3.5 生成速度5.4 tok/s6.5 tok/s
Qwen3.5 合計時間(要約)199.3s22.8s
回答品質高い(複数パターン提示)やや低い(直接回答)

Thinkingモードでは内部推論トークンが生成上限を消費する。512トークン制限だと、推論だけで上限に達し回答が空になるケースがあった。Thinkingモードを使う場合は num_predict: 1024 以上を設定すること。

SmolLM3のThinkingは <think></think> タグが付くが中身は空(実質Thinkingなし)。速度への影響はほぼゼロ。

Gemma 4 E2B:期待の新星は8GBには重すぎた

2026年4月2日、Google DeepMindからGemma 4がリリースされた。最軽量のE2B(実効2.3Bパラメータ)をM1 8GBで検証した。

Gemma 4のラインナップ

モデル実効パラメータ総パラメータアーキテクチャ
E2B2.3B5.1B(PLE埋め込み含む)Dense + PLE
E4B4.5B8BDense + PLE
26B3.8B active25.2BMoE(128中8活性)
31B30.7B30.7BDense

M1 8GBで候補になるのはE2Bのみ。E4B以上は論外。

検証結果

ollama pull gemma4:e2b  # 7.2GB(Q4_K_M量子化)

同じ3テストを同一条件で実行した結果:

テストGemma 4 E2B(参考)Gemma 3 4B
日本語要約21.3 tok/s16.8 tok/s
コード生成19.2 tok/s17.1 tok/s
推論・分析19.8 tok/s18.7 tok/s
平均生成速度20.1 tok/s17.5 tok/s

速度だけ見ればGemma 3より約15%高速。日本語品質も高く、3行要約は正確に指示に従い、ビジネス分析は構造化された丁寧な回答を返した。Gemma 3→4で順当に進化している。

しかし、メモリが致命的

Gemma 4 E2BGemma 3 4B
ollama ps SIZE8.0 GB4.3 GB
Metal推論割合24%(76% CPU)100%

Gemma 4 E2Bはモデルロードだけで8.0GB — M1 8GBの物理メモリと同量を要求する。Metal推論に24%しか収まらず、76%がCPU計算にフォールバックする。

「実効2.3B」の名前に騙されてはいけない。Gemma 4はPLE(Per-Layer Embeddings)で埋め込み層が巨大で、総パラメータは5.1B。Q4_K_M量子化してもファイル7.2GB、ロード時8.0GBとなり、Gemma 3 4B(4.3GB)の約2倍

実効パラメータ数ではGemma 4 E2B(2.3B)< SmolLM3(3B)< Gemma 3(4B)だが、メモリ使用量は逆転する:

メモリ順モデルollama ps SIZE実効パラメータ
1位(軽い)SmolLM3 3B2.4 GB3B
2位Gemma 3 4B4.3 GB4B
3位Qwen3.5 4B6.1 GB4B
4位(重い)Gemma 4 E2B8.0 GB2.3B

結論:8GBユーザーはGemma 3が正解

Gemma 4 E2Bは品質・速度ともに優秀だが、M1 8GBではメモリの制約で実用的ではない。8GBの物理メモリを丸ごと占有し、ブラウザやエディタとの共存は不可能。16GB以上のMacであれば検討に値する。

8GBユーザーにとって、Gemma 3 4B(4.3GB / Metal 100%)が引き続きGoogle製モデルの現実解だ。

まとめ

M1 Mac 8GBという最も制約の厳しい環境で、2026年の最新モデルを実機検証した結果:

結論モデル
速度・メモリ効率で圧勝SmolLM3 3B(24 tok/s / 2.4GB)
日本語品質・バランス最良Gemma 3 4B(17 tok/s / 4.3GB)
回答品質・推論力トップQwen3.5 4B(6.5 tok/s / 6.1GB)

M1 8GBでの実用性を考えると、SmolLM3が最も扱いやすい。 メモリ2.4GBで他アプリとの共存が可能、24 tok/sのレスポンスはチャットとして快適。日本語品質にこだわるならGemma 3、回答の深さを求めるなら時間を許容してQwen3.5という使い分けが現実的。

Gemma 4 E2Bの検証で分かったのは、「新しいモデル=必ず軽い」わけではないということ。実効2.3Bパラメータでも、アーキテクチャ次第でロードサイズは8.0GBに膨らむ。メモリが限られた環境では、実効パラメータ数ではなく実際のロードサイズ(ollama ps SIZE)を確認するのが鉄則だ。

16GB以上のMacを持っているなら、Gemma 4 E2Bは有力な選択肢。8GBの制約下でこそSmolLM3の価値が際立つ。

参考リンク

関連記事

Elcamyについて

AI・データエンジニアリング・クラウドを中心に、技術で事業課題を解決しています。 お気軽にご相談ください。