CORE SPEC
公開: 2026.03.20
COLUMN — ローカルAI

ローカルLLMに
必要なPCスペックは?

Llama 3.1・DeepSeek・Gemma — モデル規模別の必要VRAM・GPU・メモリを完全網羅。

ローカルLLMに必要なPCスペック — GPU・VRAM・メモリ完全ガイド

2026年、ローカルLLM(大規模言語モデル)は一部の技術者だけのものではなくなりました。ChatGPTのAPIコストを避けたい開発者、プライバシーを重視するクリエイター、オフライン環境でAIを活用したいプロフェッショナル——「自分だけのAI」を手元に置く時代が到来しています。

しかし、ローカルLLMはStable Diffusion以上にVRAM(GPU専用メモリ)を大量消費します。この記事では、主要モデル別の必要スペックからGPUベンチマーク、量子化技術、Mac vs Windows比較、運用コストまで——ローカルLLMのためのPC選びを完全ガイドします。


1. モデル規模別:必要スペック早見表

FP16(無圧縮)では10億パラメータあたり約2GBのVRAMが必要。4bit量子化で約1/4に削減可能です。

モデル サイズ FP16 VRAM 4bit VRAM 推奨メモリ 推奨GPU
Phi-4 Mini3.8B8 GB3 GB16 GBRTX 5060
Llama 3.1 / Gemma 38-12B18 GB5 GB16-32 GBRTX 5060-5070
Qwen 2.5 / DeepSeek-R132B66 GB20 GB32-64 GBRTX 5080-5090
Llama 3.170B148 GB45 GB64-128 GBRTX 5090×2 or Mac
Mixtral 8x22B (MoE)141B281 GB85 GB128 GB+マルチGPU / Mac 128GB
Llama 3.1405B824 GB230 GB1 TB+エンタープライズ

💡 現実的な選択基準

「趣味で試したい」→ 8Bモデル + 4bit量子化 = VRAM 5GBでOK(RTX 5060で十分)

「仕事で使いたい」→ 32Bモデル + 4bit = VRAM 20GB必要RTX 5090の32GBが活きる)

「最強を動かしたい」→ 70B+ = VRAM 45GB以上(マルチGPUかMac 128GB


2. GPU別ベンチマーク:トークン生成速度

LLMの推論速度はメモリ帯域幅で決まります。RTX 5090のGDDR7は1,792 GB/sと、前世代RTX 4090を78%上回ります。

GPU 8B (Q4) 70B (Q4) 帯域幅
RTX 5090 (32GB)213 tok/s35-42 tok/s (2枚)1,792 GB/s
RTX 5080 (16GB)170 tok/s2.4 (オフロード)960 GB/s
RTX 5070 Ti (16GB)110 tok/s1.5 (オフロード)896 GB/s
RTX 4090 (24GB)128 tok/s20-25 (2枚)1,008 GB/s
M4 Max (128GB)45-60 tok/s14-17 tok/s546 GB/s
M4 Ultra (192GB)55-70 tok/s18-22 tok/s819 GB/s

注目ポイント: RTX 5080は16GB止まりのため、32B以上のモデルではCPUオフロードが発生し速度が1/70に激減。ローカルLLMをやるなら5090の32GBが決定的に有利です。


3. 量子化とは?— VRAMを1/4にする魔法

量子化は、モデルの重み(パラメータ)を低精度で表現し、VRAMと引き換えに品質をわずかに犠牲にする技術です。

手法 VRAM削減 品質保持 速度 対応ツール
GGUF (Q4_K_M)75-85%良好Ollama, llama.cpp
GPTQ (4bit)70-75%良好vLLM, AutoGPTQ
AWQ70-75%非常に高いvLLM, LM Studio
EXL260-90%最高ExLlamaV2

4bit量子化(Q4_K_M)は精度劣化わずか2-5%で、人間の対話評価ではほとんど判別不能。実用上は量子化一択です。ただし3bit以下は論理的整合性が崩れ始めるため推奨しません。


4. 推論 vs ファインチューニング — 必要スペックが全く違う

「動かす(推論)」と「教える(学習)」では、必要なVRAMが2-10倍違います。

処理内容 7Bモデル VRAM 70Bモデル VRAM
推論(4bit量子化)~5 GB~40 GB
QLoRA学習(4bit)12-16 GB60-80 GB
LoRA学習24-32 GB200 GB+
フルファインチューニング100-120 GB1,000 GB+

QLoRAは救世主的技術です。RTX 5090(32GB)1枚でLlama 3.1 8Bの本格的なLoRA学習が可能。2枚構成(64GB)なら70Bの低ランク学習も視野に入ります。


5. おすすめツール6選

🥇 Ollama — 最も簡単

コマンド一つでモデル起動。NVIDIA/AMD/Apple Silicon対応。ollama run llama3.1 だけで動く。

🥈 LM Studio — 最高のGUI

Hugging Faceのモデルを検索→ダウンロード→チャットまでGUIで完結。初心者に最適。

🥉 llama.cpp — 最も柔軟

GGUFフォーマットの総本山。CPU推論も高速。GPUとRAMの配分を細かく制御可能。

vLLM — プロダクション向け

継続的バッチングで複数人同時アクセスに強い。APIサーバー構築のデファクト(Linux推奨)。


6. Mac vs Windows — どちらがLLMに強い?

2026年のローカルLLMは「速度のNVIDIA vs 容量のApple」という構図です。

比較項目 Windows + RTX 5090 Mac M4 Max (128GB)
8Bモデル速度213 tok/s 🏆45-60 tok/s
70BモデルVRAM不足(1枚では不可)14-17 tok/s 🏆
ファインチューニングCUDA + QLoRA 🏆MLX対応途上
静音性ファン高負荷ほぼ無音 🏆
電力600-800W30-60W 🏆

🎯 選択の指針

Mac → 70B超の巨大モデルを省電力・静音で1台にまとめたい人

Windows → 8-32Bモデルを超高速で動かしたい人、ファインチューニングしたい人、APIサーバーを立てたい人


7. 運用コスト:API vs ローカル

RTX 5090システムを24時間稼働すると月額約13,400円の電気代。これは「月1,000万トークン以上(本100冊分)」使うなら、OpenAI APIより安くなります。


おすすめ構成3パターン

入門(15-20万円)
RTX 5060-5070

VRAM 12-16GB / RAM 32GB

8Bモデル推論に最適

Ollama + LM Studio

実用(50-70万円)
RTX 5090

VRAM 32GB / RAM 64-128GB

32Bモデル推論 + QLoRA学習

サイコム水冷BTO推奨

最強(100万円+)
RTX 5090 × 2

VRAM 64GB / RAM 128GB

70Bモデル推論 + 学習

100万円PC記事参照


結論:ローカルLLM時代のPC選び

「AIと対話するだけ」→ RTX 5060 + 32GB RAMで十分。8Bモデルが100tok/s超で動く

「仕事の相棒にしたい」→ RTX 5090 + 64GB RAMが最適解。32Bモデルが高速動作

「AIを育てたい(学習)」→ RTX 5090 + 128GB RAM。QLoRAで8-13Bモデルの学習が1枚で完結

「巨大モデルを静かに」→ Mac M4 Max 128GB。70Bモデルを省電力で運用

SPEC ANALYZER
あなたに最適な1台を見つける

用途×レベルで、推奨スペックとおすすめBTOメーカーを即診断

スペック診断を試す →

このページをシェアする