BTOが届いたその日にローカルLLMを動かす完全手順【2026年版】

この記事では、WindowsのBTOパソコンが届いてからローカルLLMで「こんにちは」と会話するまでの全手順を、コピペだけで完結するレベルで解説します。所要時間は約15分（モデルダウンロード時間を除く）。

GPUやVRAMの基礎知識についてはローカルLLM完全ガイドで詳しく解説しています。

Step 1：GPUの動作確認（所要2分）

BTOが届いたら、まずGPUが正しく認識されているかを確認します。

🔍 タスクマネージャーで確認

Ctrl + Shift + Esc → 「パフォーマンス」タブ → 左側に「GPU 0」「GPU 1」が表示されていればOK。GPU名（例: NVIDIA GeForce RTX 5090）とVRAM容量（例: 専用GPUメモリ 32.0 GB）が表示されます。

💻 PowerShellで正確に確認

⚠️ nvidia-smiが動かない場合

「認識されません」エラー → NVIDIAドライバが未インストール。NVIDIA公式から最新ドライバをダウンロード＆インストール後、PCを再起動してください。

BTOなら通常は不要: サイコム等の主要BTOメーカーは出荷時にドライバをインストール済みです。

Step 2：Ollamaをインストール（所要3分）

Ollamaは、ローカルLLMを動かすための最もシンプルなツールです。コマンド1行でモデルのダウンロードから起動まで完結します。

📥 インストール手順

ollama.com/download にアクセス
「Download for Windows」をクリック
OllamaSetup.exe を実行（インストーラーが自動でセットアップ）
タスクバーの通知領域（右下）にOllamaのアイコンが表示されたら完了

✅ インストール確認

新しいPowerShellを開いて以下を入力：

PS > ollama --version
ollama version 0.6.x

バージョン番号が表示されれば成功です。

Step 3：最初のモデルを起動する（所要10分）

いよいよ、AIと会話します。たった1行のコマンドで。

PS > ollama run gemma3:4b
pulling manifest...
pulling 2a6240e4a4e1... 100% ▕████████████████▏ 3.3 GB
...
success

>>> こんにちは。あなたは何ができますか？
こんにちは！私はGemmaです。テキスト生成、質問への回答、要約、
翻訳、コードの作成など、さまざまなタスクをお手伝いできます。
何かお手伝いできることはありますか？

これだけです。ollama run は、モデルが未ダウンロードなら自動でダウンロードし、GPU上にロードし、対話セッションを開始します。終了は /bye と入力するだけ。

💡 GPUが使われているか確認する方法

モデル実行中に別のPowerShellで以下を実行：

PS > ollama ps
NAME SIZE PROCESSOR UNTIL
gemma3:4b 3.3 GB 100% GPU 4 minutes from now

PROCESSOR 欄に「GPU」と表示されていれば、CUDAで高速推論中です。

Step 4：あなたのGPUに最適なモデルを選ぶ

Ollamaが動くことを確認したら、次はあなたのGPUのVRAMに合わせて最適なモデルを選びましょう。VRAM早見表の詳細はこちら。

あなたのVRAM	おすすめモデル	コマンド	得意なこと
8 GB RTX 5060	Gemma 3 4B	`ollama run gemma3:4b`	日常会話・要約・翻訳
12 GB RTX 5070	Gemma 3 12B	`ollama run gemma3:12b`	高品質な日本語・多言語
16 GB RTX 5070Ti/5080	Qwen 3 14B	`ollama run qwen3:14b`	日本語最強クラス・コード
32 GB RTX 5090	DeepSeek-R1 32B	`ollama run deepseek-r1:32b`	論理的推論・数学・コード

🧠 「考える」AIを試す — DeepSeek-R1

DeepSeek-R1は「思考プロセス」を表示する推論特化モデルです。数学の問題やロジカルな質問を投げると、人間のように段階的に考えてから回答します。

PS > ollama run deepseek-r1:32b
>>> 1000以下の素数は何個ありますか？
<think>
1000以下の素数の個数を求めます。
素数定理の近似値を使うと...
π(1000) ≈ 1000/ln(1000) ≈ 145
しかし正確には168個です...
</think>

1000以下の素数は **168個** です。

Step 5：GUIで使いたい人へ — LM Studio

「コマンドラインはちょっと…」という方にはLM Studioがおすすめです。ChatGPTのような美しいインターフェースで、ローカルLLMと会話できます。

lmstudio.ai からインストーラーをダウンロード
アプリを起動 → 検索バーでモデル名を入力（例: gemma-3）
ワンクリックでダウンロード → 「Chat」タブで会話開始

LM Studioの強み: 2つのモデルを横並びで比較できる機能があり、「Gemma 3 vs Qwen 3、どっちが日本語が上手い？」を自分の目で確かめられます。

Step 6：「動いた！」のその先へ

ローカルLLMが動いたら、次のステップに進みましょう。

📁 自分のドキュメントと会話する（RAG）

Open WebUIを導入すれば、PDFやテキストファイルをアップロードして「この資料の要点は？」と質問できます。社内文書の検索エンジンを自作できる時代です。

🔌 APIとして使う

Ollamaは http://localhost:11434 でOpenAI互換APIを自動提供。PythonスクリプトやVSCode拡張から、ローカルAIをバックエンドとして呼び出せます。

🎨 画像生成AIも動かす

LLMが動くGPUなら、Stable Diffusion系やFLUXの画像生成もローカルで動かせます。ただし長時間稼働時は熱対策が必須です。

トラブルシューティング早見表

症状	原因	解決策
ollama が認識されない	PATHが未反映	PowerShellを閉じて新しく開き直す
GPUが使われない（CPU動作）	NVIDIAドライバが古い	最新ドライバに更新 → PC再起動
モデルが途中で止まる	VRAM不足	より小さいモデルを選ぶ（32B→12B）
日本語が文字化けする	ターミナルのエンコーディング	Windows Terminalを使用, UTF-8に設定
生成が遅い（2 tok/s以下）	CPUオフロード発生中	VRAM内に収まるモデルサイズに変更