TECH BLOG

エルカミーの技術ブログです

🦙 Qwen3.5の小型モデルをM1 Mac(8GB)で実機検証:どのサイズまで快適に動くのか

はじめに

「最新のオープンウェイトAIを、自分のPCで動かしたい」。エンジニアなら誰もが一度は考えることではないでしょうか。

2026年2月、Alibaba Cloudが公開した Qwen3.5-397B-A17B は「GPT-5やClaude Opus 4.5と互角以上」という性能で話題になりました。しかし、フルサイズでは約807GB、最小の4bit量子化でも214GBのRAMが必要で、「すごいのはわかったけど、一般人のPCでは動かないよね」という声が大半でした。

ところが2026年3月現在、Qwen3.5の小型モデル(0.8B / 2B / 4B / 9B)がOllamaで利用可能になっています。

この記事では、M1 MacBook Pro(メモリ8GB) という一般的な開発マシンで、Qwen3.5の小型モデルを0.8Bから順にサイズを上げながら実機検証し、「どのサイズまで快適に使えるのか」を明らかにします。さらに、AIオーケストレーションプラットフォーム Dify との接続手順も紹介します。


Qwen3.5とは?30秒でわかる概要

Qwen3.5は、Alibaba Cloudが2026年2月にオープンソース公開したフラグシップAIモデルです。

項目 内容
フルモデル Qwen3.5-397B-A17B(MoEアーキテクチャ)
小型モデル 0.8B / 2B / 4B / 9B / 27B / 35B / 122B
コンテキスト長 256K(全サイズ共通)
ライセンス Apache 2.0(商用利用可)

フルモデルは「巨大な図書館に4,000人の専門家がいるが、実際に動くのはいつも170人だけ」というMoE構造ですが、小型モデルは通常のDenseモデルで、Ollamaでサクッとpullして使える手軽さが魅力です。


検証環境
項目 スペック
マシン MacBook Pro (2020)
チップ Apple M1
メモリ 8GB(ユニファイドメモリ)
OS macOS Sequoia
Ollama v0.17.6

メモリ8GBは、現行Macの最小構成です。「最も厳しい条件で、どこまでいけるか」を検証する狙いがあります。


検証方法

Ollamaの Chat API 経由で、以下の3つの同一プロンプトを全モデルに投入しました。

テスト プロンプト 評価ポイント
日本語要約 「量子コンピュータとは何か、小学生にもわかるように3行で説明してください」 日本語の自然さ、正確性
コード生成 「PythonでFizzBuzzを書いてください。コードのみ出力してください。」 コードの正確性
推論・分析 「東京の人口が減少し続けた場合、最も影響を受ける産業を3つ挙げ、理由を述べてください」 論理性、構成力

Thinking(内部推論)モードはOFFに統一しています。小型モデルではThinkingをONにすると、思考トークンだけでnum_predictの上限を使い切ってしまい、実際の応答が空になるケースが確認されたためです。


検証結果
パフォーマンス比較表
モデル ファイルサイズ メモリ使用量 GPU/CPU比率 推論速度 体感
qwen3.5:0.8b 1.0GB 2.1GB 100% GPU 22 tok/s 即座にレスポンス
qwen3.5:2b 2.7GB 4.1GB 100% GPU 16 tok/s 快適
qwen3.5:4b 3.4GB 6.0GB 33% GPU / 67% CPU 7 tok/s やや待つが実用範囲
qwen3.5:9b 6.6GB 8.8GB 57% GPU / 43% CPU タイムアウト 10分経過しても応答なし
モデルごとの詳細レポート
qwen3.5:0.8b — 速いが品質は厳しい

日本語要約の応答:

量子コンピュータは電子が波状として情報を重ね合わせのことで高速計算できる「原子をコピーできない超細粒子」という仕組みです。

日本語として不自然で、内容も不正確です。

FizzBuzz:

def fizzbuzz():
    return "Hello" * 100

FizzBuzzになっていません。完全に不正解です。

推論・分析: 「バイン業(バナーの販売・製造・配送)」など、存在しない産業を挙げるなど、信頼性に欠けます。

総評: 速度は抜群(22 tok/s)ですが、日本語タスクには力不足。英語の簡単なタスクや、レスポンス速度が最優先の場面のみ。


qwen3.5:2b — コスパ最強の候補

日本語要約の応答:

量子コンピュータは「0 と 1 の二進数を使う従来のコンピュータ」と全く同じですが、「スピン(回転)」という不思議な力を借りて同時に多くの計算を同時に行う超高速コンピューターです。

3行という指示は守れていませんが、説明の方向性は合っています。

FizzBuzz:

for i in range(1, 101):
    if i % 15 == 0:
        print(f"{i} is a FizzBuzz number", sep='', flush=True)
        continue
    elif i % 3 == 0:
        print(f"{i} is a fizz number", sep='', flush=True)
        continue
    elif i % 5 == 0:
        print(f"{i} is a buzz number", sep='', flush=True)
        continue
    else:
        print(i, end="")

ロジックは正しいですが、出力形式が通常のFizzBuzzと異なります(数字付きの説明文になっている)。

推論・分析: 製造・自動車産業、スタートアップ・IT、高級住宅・飲食業を挙げ、理由も論理的です。0.8Bと比べて格段に実用的。

総評: 16 tok/sで快適、品質も「使える」レベル。8GBマシンでの日常的な検証用途なら、このサイズがコスパ最強です。


qwen3.5:4b — 品質最高だが速度にトレードオフ

日本語要約の応答:

普通のパソコンは絵画に色がついたパズルを一つずつ見るけれど、量子コンピュータは絵画全体の色が同時に見える特別な眼です。
そのため、巨大な計算問題を瞬時に解くことができます。
とても速くて賢い未来のコンピューターですね。

3行の指示を守り、小学生向けの比喩も自然。全モデルで最高品質の回答です。

FizzBuzz:

for i in range(1, 101):
    output = ""
    if i % 3 == 0:
        output += "Fizz"
    if i % 5 == 0:
        output += "Buzz"

    if not output:
        output = str(i)

    print(output)

完璧に正しいFizzBuzzです。コードスタイルも良好。

推論・分析: 建設・住宅業、観光・宿泊業、商業・百貨店業を挙げ、それぞれ具体例を交えた論理的な説明。補足として教育・保育、医療・介護にも言及するなど、構成力が高い。

総評: 品質は文句なし。ただし7 tok/sで、メモリの67%がCPUオフロードされている状態。「最高品質が必要な場面で待てるなら」 選択肢になります。8GBマシンの実質的な上限です。


qwen3.5:9b — 8GBでは動作不能

メモリ使用量8.8GBで物理メモリを超過。GPU 57% / CPU 43%の状態で、10分経過しても1トークンも生成されずタイムアウト。

8GBマシンでは実用不可能です。動かすには最低16GBのメモリが必要でしょう。


結論:M1 Mac 8GBでのベストチョイス
用途 おすすめモデル 理由
日常的な検証・チャット qwen3.5:2b 16 tok/sで快適、品質も実用レベル
品質重視の生成タスク qwen3.5:4b 品質最高、7 tok/sで待てる場面向き
速度最優先(英語タスク) qwen3.5:0.8b 22 tok/sだが日本語品質は低い

M1 Mac 8GBでの現実的な上限は qwen3.5:4b です。9B以上は物理メモリを超過し、事実上動作しません。

メモリ16GB以上のマシンであれば9Bも選択肢に入りますし、24GB以上なら27Bも視野に入ります。メモリ容量がそのまま「使えるモデルサイズの上限」を決めます。


Difyとの接続手順(5分で完了)

検証で「これなら使える」と判断したモデルを、AIオーケストレーションプラットフォーム Dify に接続してみましょう。

Step 1: Ollamaをインストールする
brew install ollama
brew services start ollama
Step 2: モデルをPullする
# 8GBマシンなら2bか4bを推奨
ollama pull qwen3.5:4b
Step 3: Ollamaの起動を確認する

ブラウザで http://localhost:11434 にアクセスし、Ollama is running と表示されれば準備完了です。

Step 4: Difyでモデルプロバイダーを設定する

Difyの管理画面 → 設定モデルプロバイダーOllama を選択します。

Step 5: 接続情報を入力する
設定項目 入力値
Base URL http://localhost:11434(Docker使用時は http://host.docker.internal:11434
モデル名 qwen3.5:4b
Step 6: 保存して動作テスト

「テスト送信」ボタンをクリックし、レスポンスが返ってくれば接続成功です。あとはワークフローのLLMノードにこのモデルを指定するだけです。


まとめ

Qwen3.5の小型モデル登場により、メモリ8GBの一般的なMacでも最新のQwen3.5ファミリーを体験できるようになりました。

ただし、実機検証で明らかになったのは「小型モデルには明確な限界がある」ということです。日本語タスクで実用的な品質を出すには最低2B、できれば4Bが必要で、8GBマシンではそこが天井です。

本番環境で大規模モデルを活用するには、Google Cloud(旧GCP)インフラの設計、vLLMの運用、セキュリティ対策、コスト最適化など、接続手順とは別次元の工数が発生します。「やってみたら想像の3倍大変だった」というご相談を、私たちは日常的に受けています。


参考リンク
Dify構築運用のご相談