前回の記事で「どのGPUが必要か」「どのモデルが動くか」を理解した。
では次のステップに進みましょう。「実際に動かす」です。
この記事では、BTOパソコンが届いてからローカルLLMで「こんにちは」と会話するまでの全手順を、コピペだけで完結するレベルで解説します。所要時間は約15分(モデルダウンロード時間を除く)。
Step 1:GPUの動作確認(所要2分)
BTOが届いたら、まずGPUが正しく認識されているかを確認します。
🔍 タスクマネージャーで確認
Ctrl + Shift + Esc → 「パフォーマンス」タブ → 左側に「GPU 0」「GPU 1」が表示されていればOK。GPU名(例: NVIDIA GeForce RTX 5090)とVRAM容量(例: 専用GPUメモリ 32.0 GB)が表示されます。
💻 PowerShellで正確に確認
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 572.xx Driver Version: 572.xx CUDA Version: 12.8 |
|-------------------------------+----------------------+----------------------+
| GPU Name | Driver-Model | GPU-Util |
| 0 GeForce RTX 5090 | WDDM | 0% |
+-------------------------------+----------------------+----------------------+
⚠️ nvidia-smiが動かない場合
「認識されません」エラー → NVIDIAドライバが未インストール。NVIDIA公式から最新ドライバをダウンロード&インストール後、PCを再起動してください。
BTOなら通常は不要: サイコム等の主要BTOメーカーは出荷時にドライバをインストール済みです。
Step 2:Ollamaをインストール(所要3分)
Ollamaは、ローカルLLMを動かすための最もシンプルなツールです。コマンド1行でモデルのダウンロードから起動まで完結します。
📥 インストール手順
- ollama.com/download にアクセス
- 「Download for Windows」をクリック
OllamaSetup.exeを実行(インストーラーが自動でセットアップ)- タスクバーの通知領域(右下)にOllamaのアイコンが表示されたら完了
✅ インストール確認
新しいPowerShellを開いて以下を入力:
ollama version 0.6.x
バージョン番号が表示されれば成功です。
Step 3:最初のモデルを起動する(所要10分)
いよいよ、AIと会話します。たった1行のコマンドで。
pulling manifest...
pulling 2a6240e4a4e1... 100% ▕████████████████▏ 3.3 GB
...
success
>>> こんにちは。あなたは何ができますか?
こんにちは!私はGemmaです。テキスト生成、質問への回答、要約、
翻訳、コードの作成など、さまざまなタスクをお手伝いできます。
何かお手伝いできることはありますか?
これだけです。ollama run は、モデルが未ダウンロードなら自動でダウンロードし、GPU上にロードし、対話セッションを開始します。終了は /bye と入力するだけ。
💡 GPUが使われているか確認する方法
モデル実行中に別のPowerShellで以下を実行:
NAME SIZE PROCESSOR UNTIL
gemma3:4b 3.3 GB 100% GPU 4 minutes from now
PROCESSOR 欄に「GPU」と表示されていれば、CUDAで高速推論中です。
Step 4:あなたのGPUに最適なモデルを選ぶ
Ollamaが動くことを確認したら、次はあなたのGPUのVRAMに合わせて最適なモデルを選びましょう。VRAM早見表の詳細はこちら。
| あなたのVRAM | おすすめモデル | コマンド | 得意なこと |
|---|---|---|---|
| 8 GB RTX 5060 | Gemma 3 4B | ollama run gemma3:4b | 日常会話・要約・翻訳 |
| 12 GB RTX 5070 | Gemma 3 12B | ollama run gemma3:12b | 高品質な日本語・多言語 |
| 16 GB RTX 5070Ti/5080 | Qwen 3 14B | ollama run qwen3:14b | 日本語最強クラス・コード |
| 32 GB RTX 5090 | DeepSeek-R1 32B | ollama run deepseek-r1:32b | 論理的推論・数学・コード |
🧠 「考える」AIを試す — DeepSeek-R1
DeepSeek-R1は「思考プロセス」を表示する推論特化モデルです。数学の問題やロジカルな質問を投げると、人間のように段階的に考えてから回答します。
>>> 1000以下の素数は何個ありますか?
<think>
1000以下の素数の個数を求めます。
素数定理の近似値を使うと...
π(1000) ≈ 1000/ln(1000) ≈ 145
しかし正確には168個です...
</think>
1000以下の素数は **168個** です。
Step 5:GUIで使いたい人へ — LM Studio
「コマンドラインはちょっと…」という方にはLM Studioがおすすめです。ChatGPTのような美しいインターフェースで、ローカルLLMと会話できます。
- lmstudio.ai からインストーラーをダウンロード
- アプリを起動 → 検索バーでモデル名を入力(例:
gemma-3) - ワンクリックでダウンロード → 「Chat」タブで会話開始
LM Studioの強み: 2つのモデルを横並びで比較できる機能があり、「Gemma 3 vs Qwen 3、どっちが日本語が上手い?」を自分の目で確かめられます。
Step 6:「動いた!」のその先へ
ローカルLLMが動いたら、次のステップに進みましょう。
📁 自分のドキュメントと会話する(RAG)
Open WebUIを導入すれば、PDFやテキストファイルをアップロードして「この資料の要点は?」と質問できます。社内文書の検索エンジンを自作できる時代です。
🔌 APIとして使う
Ollamaは http://localhost:11434 でOpenAI互換APIを自動提供。PythonスクリプトやVSCode拡張から、ローカルAIをバックエンドとして呼び出せます。
トラブルシューティング早見表
| 症状 | 原因 | 解決策 |
|---|---|---|
| ollama が認識されない | PATHが未反映 | PowerShellを閉じて新しく開き直す |
| GPUが使われない(CPU動作) | NVIDIAドライバが古い | 最新ドライバに更新 → PC再起動 |
| モデルが途中で止まる | VRAM不足 | より小さいモデルを選ぶ(32B→12B) |
| 日本語が文字化けする | ターミナルのエンコーディング | Windows Terminalを使用, UTF-8に設定 |
| 生成が遅い(2 tok/s以下) | CPUオフロード発生中 | VRAM内に収まるモデルサイズに変更 |
もっと大きなモデルを動かしたくなったら
8Bモデルで「動いた!」を体験すると、必ず次のステップが欲しくなります。32B→70Bクラスのモデルは、日本語の自然さと推論精度が別次元。そのためにはVRAM 32GBのRTX 5090と、24時間回しても壊れない冷却が必要です。
よくある質問
ローカルLLMを動かすのにインターネット接続は必要ですか? +
OllamaとLM Studioはどちらがおすすめですか? +
RTX 5060(8GB)でもローカルLLMは動きますか? +
このページをシェアする