ローカルで生成AI(LLM)を動かすならどのツールを選ぶ？

概要

近年、生成AIはすごい盛り上がりを見せています。生成AIの導入を検討する企業が増える一方、「何から始めるべきか」「クラウドサービスの利用は情報漏洩が不安だ」「継続的な利用コストが見えない」といった声も多く聞かれます。実は、これらの課題の多くは、外部のサービスに依存しない「ローカル環境」で生成AIを動かすことで解決の糸口が見えてきます。

本コラムでは、その「ローカル環境」を実現するための代表的なツールを紹介し、みなさまがAI活用の第一歩を踏み出すための具体的なイメージを提供します。

もともとセキュリティ(情報漏洩)の観点、ランニングコストの観点でローカル環境で動かしたいというニーズはありましたが、少し前まで、ローカル環境で実用的な生成AIを動かすのは難しいという現実がありました。しかし今年に入って高性能なモデルが次々と登場し、

セキュリティ上の安心感
ランニングコストの最適化
サービスの変更の影響を受けない(利用料/モデル変更など)

といった利点も相まって、PoC（概念実証）や社内システムでの活用に注目が集まっています。

そこで今回はローカルで生成AIを動かすための代表的なツールである Ollama と LM Studio をご紹介します。

LM Studio：とにかく手軽に、誰でも使えるローカルLLM体験

LM Studio は、デスクトップアプリとして「モデルを手元で簡単に試す」ことに優れています。 GUIでモデルのダウンロード・切替・パラメータ調整・チャットが可能です。 LM Studio は、「LLMを試したいユーザー」 に向いたスタンドアロンのアプリケーションです。まるでWebブラウザを開くように、GUIでモデルを選んでチャットを楽しむことが目的です。

PC上でLLMを試してみたい、という(どちらかといえば)一般ユーザを対象にしたスタンドアロンのアプリケーションというイメージです。そのため当初はAPIの提供等はありませんでしたが、最近は OpenAI 互換のAPIモードや独自のREST APIを導入しているようです。詳細は公式サイトをご確認ください。

Ollama：開発者が自動化や組み込みに使いやすい、強力で軽量なLLMエンジン

一方の Ollama は、CLI／軽量サーバを通じてモデルを実行し、プログラムから呼べることを前提に作られています。操作の基本はターミナル（コマンドプロンプト）でのコマンド実行です。これは、APIサーバーとしての機能が強く、他のアプリケーションやツールから呼び出して利用することを想定しているからだと思われます。

LangChainという、LLMを利用したアプリケーション開発で代表的なオーケストレーションツールがありますが、Ollamaと連携するためのAPIも公式に提供されています。詳細は公式サイトをご確認ください。

両者の方向性

LM StudioとOllamaはどちらもローカル環境でLLMを動かすツールなのですが、方向性が異なっております。

特徴	LM Studio	Ollama
主要インターフェース	グラフィカル(GUI)	コマンドライン(CLI)
ターゲットユーザー	一般ユーザー、初心者	開発者、研究者、技術者
使い方	アプリを起動してクリック操作	ターミナルでコマンドを実行
強み	わかりやすさ、手軽さ	自動化、他のツールとの連携
役割	それ自体が完成品のアプリ	背後で動くエンジン(インフラ)

簡単に言うと：

LM Studio は、PCアプリのように手軽にLLMと対話したいユーザー向けのオールインワン・アプリケーションです。
Ollama は、自作のアプリケーションや業務システムにLLMの能力を組み込みたい開発者向けのエンジン兼ツールキットです。

例えば、Ollamaをインストールした上で、OllamaのAPIを呼び出すことで美しいUIを提供する 「Open WebUI」 といったソフトウェアを組み合わせる使い方が一般的です。この場合、Ollamaは「エンジン」、Open WebUIは「ダッシュボード」の役割を果たします。

LM Studioはこの「エンジン」と「ダッシュボード」が最初から一体化した、全てを含んだオールインワンパッケージと言えるでしょう。

最近はLM StudioがAPIを用意したり、OllamaもGUI画面を用意するなど、お互いそれぞれ弱みとしている部分を補強しようとしている感はありますが、基本的な方向性は変わらないと思っています。

私たちの「ローカルLLM PoCサービス」ではOllamaを中核技術として採用しているため、本コラムでも以降はOllamaを中心に解説します。

当コラムで利用するLLM

私たちのPoCサービスでは、2025年9月現在、主に以下の2つのモデルを中心に検証や開発を行っています。

Qwen3 (Ollama)

Qwen3は、Alibaba Cloudによって開発された大規模言語モデル「Qwen」ファミリーの最新版です。

2025年4月29日にリリースされ、その高度な推論能力と日本語処理性能の高さから注目を集めています。このモデルの登場で、ローカル環境における生成AIの利用の実現性が高まったと感じました。

特徴的なのはハイブリッド推論 (Hybrid Reasoning)で、複雑なタスクに対応する「思考モード」と、迅速な応答を提供する「非思考モード」を切り替えられる設計思想を持っています。これは、より複雑な推論能力を必要とする処理に適しています。

モデルサイズは0.6Bから235Bまで多岐にわたりますが、8Bモデルでも実用レベルの推論能力があると私たちは評価しています。 8Bであれば、ミドルレンジのゲーミングノートでもGPUでぎりぎり動作可能です。

> ollama ps
NAME         ID              SIZE      PROCESSOR    CONTEXT    UNTIL
qwen3:8b     500a1f067a9f    7.5 GB    100% GPU     8192       4 minutes from now

ただし、当然ながら32Bモデルの方が性能は高いため、実行可能な環境であれば32Bモデルの利用を推奨します。

> ollama ps
NAME         ID              SIZE     PROCESSOR    CONTEXT    UNTIL
qwen3:32b    030ee887880f    25 GB    100% GPU     8192       4 minutes from now

GPT-OSS (Ollama)

GPT-OSSは、OpenAIが2025年8月5日にリリースしたオープンソースの大規模言語モデルです。 OpenAIが6年ぶりに主要なオープンソースのLLMをリリースしたこともあり、大きな話題となりました。

gpt-oss-120bとgpt-oss-20bという2つの主要なモデルサイズで提供されています。

gpt-oss-20bはVRAMが24Gあれば動作します。

> ollama ps
NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    f2b8351c629c    14 GB    100% GPU     8192       4 minutes from now

一方、gpt-oss-120bはサイズが大きいため、GPUだけで実行するのは普通のPCでは難しいです。

> ollama ps
NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    f7f8e2f8f4e0    66 GB    54%/46% CPU/GPU    8192       4 minutes from now

ただ、CPUでも動作はするので、例えば即時性を求めない処理であればこのモデルの利用も可能です。

Pythonからローカル環境のLLMを呼び出してみる

ここまでのまとめとして

Ollamaは開発者向けのツールでプログラムからLLMを呼び出すことができる
当コラムで使用するモデル(おすすめ)はqwen3とgpt-oss

です。

それでは、実際にPythonを使ってLLMを呼び出してみましょう。といってもわずか5行のプログラムです。環境が構築されていれば、驚くほど簡単に呼び出せることがわかると思います。

from langchain_ollama import OllamaLLM

llm = OllamaLLM(model="gpt-oss:20b") #qwen3の場合はここをqwen3:8bに変える
response = llm.invoke("自己紹介してください")
print(response)

実際には、これをベースにRAG（Retrieval-Augmented Generation）の技術を組み合わせることで、社内文書の問い合わせなど、実用的なシステムを構築していきます。

では早速、qwen3とgpt-ossを呼び出してみましょう。

qwen3:8b

> python main.py
<think>
Okay, the user asked me to introduce myself. Let me start by explaining my name, Qwen, and my role as a large language model. I should mention my capabilities in areas like answering questions, creating content, and having conversations. It's important to highlight that I can assist with various tasks such as writing, coding, and problem-solving. I need to keep the tone friendly and approachable, making sure the user feels comfortable asking for help. Also, I should invite them to ask any questions they have. Let me structure this in a clear and concise way without using markdown.
</think>

こんにちは！私はQwenと申します、アリババグループが開発した大規模言語モデルです。私は質問への回答、コンテンツの作成、会話のサポートなど、さまざまなタスクを手伝うことができます。文章の作成、プログラミングの補助、問題の解決、情報の整理など、幅広い分野でご支援いたします。何でもお気軽にお尋ねください！😊

<think></think> で囲まれた部分は推論部分です。qwen3はハイブリッド思考モードの機能を持っており、特に指定が無い場合は推論モードが使用されます。

gpt-oss:20b

> python main.py
こんにちは！
私は ChatGPT、OpenAI が開発した大型言語モデルです。
「AIアシスタント」として、質問に答えたり、情報を整理したり、文章を書いたり、さまざまなトピックでお手伝いします。

- **学習データ**：2023年までの膨大なテキストを元に学習しています。
- **得意分野**：技術・科学・歴史・文学、旅行・料理のレシピ、プログラミングサポートなど、幅広いジャンルに対応。
- **制限**：リアルタイムの情報や個人情報は持っていません。最新のニュースや特定の人物の詳細は確認できない場合があります。

何か質問や相談があれば、遠慮なくどうぞ！
あなたのプロジェクトや学習、日常の小さな疑問でも、できる限りサポートします。

終わりに：ローカルLLM活用の次の一歩へ

本コラムでは、ローカル環境で生成AIを動かすためのツールとしてOllamaとLM Studioを紹介し、特に開発者やシステム連携に適したOllamaに焦点を当てて解説しました。 Pythonコードの例を見ていただいた通り、Ollamaを使えば、驚くほど簡単にローカルLLMをプログラムから呼び出すことができます。

これにより、クラウドサービス利用時の「情報漏洩」や「高額なランニングコスト」といった懸念を払拭し、セキュアかつコスト効率の高いAI活用が視野に入ってきます。

しかし、いざ自社で活用しようとすると、次のような新たな疑問が生まれるのではないでしょうか。

「どのLLMモデルが、うちの業務に最適なんだろう？」
「社内文書を読み込ませるRAGという技術、具体的にどうやるの？」
「そもそも、どの業務に適用すれば一番効果が出るのか、専門家の意見が聞きたい」

これらの実践的な課題に対し、専門家がお客様と伴走しながら最適な解を見つけ出していくのが、私たちの「ローカルLLM PoCサービス」です。本サービスでは、オープンな技術を中心に活用するため、ベンダーロックインの心配がありません。PoCを通じて、お客様自身がAI技術を理解し、将来的に内製化していくための第一歩を力強く支援します。

コラムでご紹介した技術をベースに、お客様専用の環境を構築し、実際の業務データを使ってその効果を直接体感いただけます。

「まず一歩を踏み出してみたい」とお考えでしたら、ぜひお気軽にご相談ください。

▶ ローカルLLM PoCサービスの詳細はこちら