【Gemma 4 26B】ミドルスペックPCをお持ちの方におすすめなローカルLLM!

はじめに

ローカルLLMの進化は目覚ましく、これまで高性能GPUが必須とされていた
大規模モデルもCPU+メモリ環境で動作するケースが増えてきました。
今回はOllama で動作する「Gemma 4 26B」をGPUなし環境で検証した結果を紹介します。

Gemma 4について

Gemma 4はGoogleによる、Apache 2.0ライセンスで使えるオープンLLMです。
Gemma 4 26Bは推論のたびに必要な部分だけを呼び出すため、実質3.8B分の
パラメータしか利用しないバランスの取れたモデルとなっています。

検証環境

今回試した構成は以下の通りです。

  • CPU:Ryzen 7 260
  • メモリ:32GB
  • GPU:未使用(CPU推論)
  • 実行環境:Ollama v0.20.3

導入方法

導入は簡単です。

Ollama GUI版アプリを導入・起動します。

モデル一覧プルダウンから gemma4:26b を選択します。

適当なプロンプトを入力して送信します。

自動的にモデルダウンロードが開始され、初回応答まで進みます。

実際の動作・性能

応答時間

Thinkingで毎回30秒~120秒程度かかり、その後
10~20トークン/秒で出力される印象でした。

チャット利用でのスピードは申し分ない印象でした。
※出力スピードはハードウェア性能により異なります。

応答品質

以下のような印象です。
メモリ32GBのマシンで動作可能な前世代のモデルとして
Gemma 3 4Bと比較できる表にしました。

項目Gemma 4 26Bの評価(前世代)Gemma 3 4Bの評価
スピードやや遅い(10~20トークン/秒)やや早い(約20トークン/秒)
一般知識そこそこ浅め
コード生成小規模なら可簡単なコード補完レベル
正確性やや弱いハルシネーション強い
安定性低め(たまに無限ループ発生)比較的安定(無限ループ少ない)
総合GPT-4系にやや劣るレベル軽量・入門レベル

応答例(コーディング)

出力されたスクリプトで動作確認ができました。

$bash calc_pi.sh 1000
計算中… (桁数: 1000)
結果:
3.141592653589793238462643383279502884197169399375105820974944592307\
81640628620899862803482534211706798214808651328230664709384460955058\
22317253594081284811174502841027019385211055596446229489549303819644\
28810975665933446128475648233786783165271201909145648566923460348610\
45432664821339360726024914127372458700660631558817488152092096282925\
40917153643678925903600113305305488204665213841469519415116094330572\
70365759591953092186117381932611793105118548074462379962749567351885\
75272489122793818301194912983367336244065664308602139494639522473719\
07021798609437027705392171762931767523846748184676694051320005681271\
45263560827785771342757789609173637178721468440901224953430146549585\
37105079227968925892354201995611212902196086403441815981362977477130\
99605187072113499999983729780499510597317328160963185950244594553469\
08302642522308253344685035261931188171010003137838752886587533208381\
42061717766914730359825349042875546873115956286388235378759375195778\
18577805321712268066130019278766111959092164201989

応答例(コーディング・失敗)

難しめなタスクを依頼すると無限ループを起こしてしまうケースがありました。

(省略)

(これ以降、「Final!」が無限ループしました。)

■応答例(マルチモーダル)

Ollama GUIで画像をアップロードし、所感を述べさせることができました。

まとめ

Gemma 4 26Bは、GPUなしでも動く、前世代の商用モデルに近い品質を持つLLMです。
現時点で「32GBメモリ環境で動作するモデルの中ではトップクラスの性能」を持つオープンソースLLMと言えると思います。

特にミドルスペックPCでローカルAIを試してみたい層にオススメです!

以下のような応用方法が考えられます。

  • OpenClawのバックエンドLLMとして利用
  • RAGシステム(ローカルドキュメントとの連携で正確性向上)

OpenClawのバックエンドLLMとして利用してみたところ
ギリギリ実運用できそうな結果が得られました。

ただし応答が非常に遅く、タイムアウト設定の修正が必要でした。
(下記スクリーンショットの例ではツール実行を含めて応答に11分かかっています……)

向いている用途(オープンソースLLM別比較)

Gemma 4 26B:ローカルAIエージェント(文章生成・軽めのコード補助・オフライン運用)

Llama 3系:汎用用途(チャット・文章生成・軽めのコーディング)

Mistral系:高速推論用途(軽量・レスポンス重視・エッジ環境)

Qwen系:コーディング/多言語用途(コード生成・日本語性能・バランス型)

Phi系:超軽量用途(低スペック環境・高速応答・簡易タスク)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です