Unsloth StudioをM1 Mac（8GB）で試してみた — どこまで動く？

はじめに

Unsloth Studioは、ローカルでLLMのファインチューニング・推論・データセット作成ができるGUIツール。Google Colabなしでローカル完結できるのが売り。本記事では**M1 MacBook Pro（メモリ8GB）**という最低スペック環境で、Unsloth Studioがどこまで使えるかを検証した。結論：1.7Bモデルなら約43 tok/sで推論可能。Data Recipes（データセット作成）もMac版で利用可能になった。ただし4B+Visionはメモリ不足でOS強制再起動。Training/ExportはMac版では無効（MLX Training対応は「coming soon」）。

環境

項目	スペック
マシン	M1 MacBook Pro
メモリ	8GB（統合メモリ）
OS	macOS Sequoia
Unsloth Studio	v0.1.25-beta（2026-03-27リリース）
推論エンジン	llama.cpp b8508（llama-server）

インストール

bash

curl -fsSL https://unsloth.ai/install.sh | sh
unsloth studio -H 0.0.0.0 -p 8888

所要時間：約2分。公式スクリプトがuv仮想環境の作成、依存関係のインストール、llama.cppプリコンパイルバイナリの配置まで自動で行う。初回起動時にパスワード設定を求められる。 ポイント:

Python 3.11以上が必要（公式スクリプトがuvで自動管理）
M1 Macでは device_type: "mac", chat_only: true として検出される
Chat（GGUF推論）とData Recipes（データセット作成）が利用可能
Studio（Training）/ Export はMac版では無効（Chatにリダイレクト）

検証1: Qwen3.5-4B-GGUF + Vision（2.7GB）→ OS強制再起動

やったこと

モデル選択で unsloth/Qwen3.5-4B-GGUF の UD-Q4_K_XL（2.7GB）を選択
Vision用mmproj（BF16）も自動ダウンロード開始

サーバーログから分かったこと

GGUF metadata: context_length=262144
GGUF metadata: model supports reasoning (enable_thinking)
GGUF metadata: model supports tool calling
GGUF size: 2.7 GB, GPUs free: [], selected: None, fit: True
Starting llama-server ... --flash-attn on --fit on --mmproj ...

コンテキスト長262Kトークン
Reasoning（thinking）/ Tool calling / Vision 対応
llama-serverでCPU推論、flash-attn有効

結果

llama-server health check timed out after 120.0s
Error loading model: llama-server failed to start.

120秒のヘルスチェックでタイムアウト → その後OSが強制再起動（メモリ不足によるカーネルパニック） 2.7GBモデル + mmproj Vision + llama-server + Unsloth Studio本体 + OS + ブラウザ = 8GBでは収まらなかった。

検証2: SmolLM2-1.7B-Instruct（1GB）→ 成功（ただしUI経由は失敗）

モデル選択

量子化	サイズ	備考
Q4_K_M	1007 MB	recommended、採用
Q5_K_M	1.1 GB
Q6_K	1.3 GB
Q8_0	1.7 GB
F16	3.2 GB

Unsloth Studio UIでのロード → 失敗

llama-server exited with code -11 (SIGSEGV)
ggml_metal_init: the device does not have a precompil...

Unsloth Studioは --flash-attn on オプションを付けてllama-serverを起動するが、M1のMetal GPUではflash-attnがクラッシュ（セグフォ）する。これはBeta版のバグ。

llama-server直接起動 → 成功

bash

~/.unsloth/llama.cpp/build/bin/llama-server \
  -m SmolLM2-1.7B-Instruct-Q4_K_M.gguf \
  --port 58888 -c 4096 --parallel 1 --jinja

-flash-attnを外して起動すると問題なく動作。

推論結果

テスト1: 日本語の簡単な質問

質問：「日本の首都はどこですか？一文で答えてください。」
回答：「日本の首都は、東京です。」 ✅ 正確
プロンプト処理：149 tok/s
生成速度：42.7 tok/s
レイテンシ：約0.5秒 テスト2: コード生成
質問：「Pythonでフィボナッチ数列を再帰で実装してください」
回答：動くコードを出力したが「再帰」ではなくループで実装（指示に従えていない。1.7Bモデルの限界）
プロンプト処理：195 tok/s
生成速度：45.9 tok/s（200トークン）
レイテンシ：約4.4秒

補足: Beta初期版（3/17）では35 tok/s前後だったが、v0.1.25（3/27）のllama.cpp更新で20-30%高速化された。公式によると、以前は起動時間を推論速度に誤算入していた問題も修正されている。

メモリ使用量

プロセス	RSS
llama-server	1.8 GB
Unsloth Studio（Python）	約300 MB
合計（OS・ブラウザ除く）	約2.1 GB

M1 8GBの統合メモリのうち約26%を使用。OS・ブラウザ分を考えると余裕はあまりない。

Mac版の機能制限まとめ

タブ	利用可否	備考
Chat	⭕ 利用可	GGUF推論。flash-attnバグあり（手動起動で回避可）
Recipes（Data Recipes）	⭕ 利用可	v0.1.2-beta（3/25）で有効化。PDF/DOCX/TXT/MDアップロード対応
Studio（Training）	❌ 無効	Chatにリダイレクト。MLX Training対応は「coming soon」
Export	❌ 無効	Chatにリダイレクト

API /api/health では chat_only: true が返されるが、実際にはData Recipesも利用可能。

Data Recipesで使えるテンプレート（6種）

テンプレート	難易度	用途
Instruction from Answer	Easy	回答からSFT用の指示文を自動生成
PDF Document QA	Easy	PDFからQAペアを生成
OCR Document Extraction	Starter	画像からOCR抽出データを生成
Text to Python	Intermediate	自然言語→Pythonコードのペア生成
Text to SQL	Intermediate	自然言語→SQLクエリのペア生成
Structured Outputs + Jinja	Advanced	構造化JSON出力+Jinjaテンプレート

GPU環境でのTrainingは不可だが、ファインチューニング用データセットの準備はMac単体で完結できる。作成したデータセットをGoogle ColabやGPUマシンに持ち込んでTrainingする運用が可能。

M1 8GBでのモデルサイズ目安

モデル	サイズ	結果
Qwen3.5-4B + Vision (Q4)	2.7GB + mmproj	❌ OS再起動
SmolLM2-1.7B (Q4_K_M)	1.0GB	✅ 43 tok/s
SmolLM2-360M	~300MB	未検証（さらに軽量）

目安：M1 8GBではモデルサイズ1.5GB以下が安全圏。2GB超はリスクあり。

発見したバグ・注意点

flash-attn M1クラッシュ: Unsloth Studio UIが -flash-attn on でllama-serverを起動するが、M1ではSIGSEGV。回避策：llama-serverを手動起動（-flash-attnなし）。v0.1.25時点でも未修正
4B+Visionでカーネルパニック: メモリ不足でOS強制再起動。事前警告なし
chat_only APIの不整合: /api/healthはchat_only: trueを返すが、実際にはData Recipesも利用可能。APIレスポンスが実態と合っていない

まとめ

観点	評価
インストール容易性	⭕ 公式スクリプト一発、約2分で起動
1.7Bモデルの推論	⭕ 約43 tok/s、実用レベル
4Bモデルの推論	❌ メモリ不足でOS再起動
Data Recipes	⭕ Mac対応済。6種のテンプレートで学習データ作成可能
Training	❌ Mac未対応（MLX対応 coming soon）
M1での安定性	△ flash-attnバグあり（手動起動で回避可能）

Unsloth StudioをM1 8GBで使うなら、1-2Bクラスの小モデルでChat推論 + Data Recipesでデータセット作成が現実的な活用法。Trainingは素直にGoogle Colab（またはGPU搭載マシン）で行い、データ準備だけMacで完結させるワークフローが組める。「M1 Macで手軽にローカルLLM推論だけしたい」なら、LM StudioやOllamaの方が安定している（flash-attnバグもない）。ただしData Recipesによるファインチューニング用データセット作成はUnsloth Studio固有の強みであり、この機能のためにインストールする価値はある。MLX Training対応が実装されれば、Mac完結のファインチューニング環境としてさらに化ける可能性がある。

Unsloth StudioをM1 Mac（8GB）で試してみた — どこまで動く？

はじめに

環境

インストール

検証1: Qwen3.5-4B-GGUF + Vision（2.7GB）→ OS強制再起動

やったこと

サーバーログから分かったこと

結果

検証2: SmolLM2-1.7B-Instruct（1GB）→ 成功（ただしUI経由は失敗）

モデル選択

Unsloth Studio UIでのロード → 失敗

llama-server直接起動 → 成功

推論結果

メモリ使用量

Mac版の機能制限まとめ

Data Recipesで使えるテンプレート（6種）

M1 8GBでのモデルサイズ目安

発見したバグ・注意点

まとめ

参考リンク

関連記事

Qwen3.5 4B vs SmolLM3 3B vs Gemma 3 4B：M1 Mac（8GB）ローカルLLM対決（Gemma 4も検証）

画像や表も知識にできる！新たなRAG構築フレームワーク「RAG-Anything」を試してみる

Googleノーコードアプリ開発ツール「Opal」が日本で使えるようになったので調査

Claude Context MCP導入ガイド｜Cursor標準機能との違いを検証

AIエージェント・Dify構築支援