Intel 内蔵GPUで 120B の大規模言語モデルは本当に動くのか?実機で徹底検証してみた
はじめに:なぜ今、この検証なのか
こんにちは、**大路(Dalu)**です。
2025年11月20日、インテル主催の「テクノロジー・イノベーション&産業エコシステム大会」にて、
Intel 内蔵GPU(iGPU)だけで 120B(1200億パラメータ)級の大規模言語モデルを動かすという、非常に衝撃的なデモが行われました。
私自身も現地でこのセッションを見ていましたが、正直に言って——
**情報量・技術レベルともに“爆発的”**でした。

インテルが示したメッセージは明確です。
Intel プロセッサを搭載したあらゆるデバイスで、AI は動く。
これはノートPCやミニPCだけでなく、NAS などの エッジデバイスにも当てはまります。

「不可能」だったことが、日常の生産性に変わった
Intel® Core™ Ultra AI プロセッサの登場により、これまで想像すらできなかったことが現実になりました。
例えば:
-
会議録音の自動文字起こし+タイムライン表示
-
音声データの要約・検索
-
画像・動画・音声を横断したコンテンツ理解
-
数秒の音声サンプルからの多言語音声クローン(TTS)
正直に言うと、これは 従来の声優業界にとっては脅威です。

私自身が音声クローンを使う理由
私の動画制作フローはこうです:
-
台本なしで一気に話す(結果、動画が長くなりがち)
-
AI で字幕とタイムラインを生成
-
構成を整理・編集
-
自分の声を AI TTS で再生成
-
短く、論理的で、完成度の高い動画に仕上げる

AI を使わない長尺動画は、再生数が伸びにくい。
AI を活用すると、結果がまったく変わります。
AI は単なる効率化ツールではなく、
制作スタイルそのものを変える存在です。

問題は「どう現実に使えるか」
多くの人にとって AI は「見たことはあるが、使ったことがない」存在です。
-
ショート動画のナレーション
-
顔入れ替え動画
-
声マネ AI
日常的に目にしていても、「自分には無理」「難しそう」と感じてしまう。
でも、それはもう過去の話です。
-
2023年:AI 元年(主に商用)
-
2025年:AI 応用元年(一般ユーザー向け)
Intel Core Ultra の内蔵GPUにより、
AI の敷居は劇的に下がりました。
なぜ内蔵GPUで大規模モデルが動くのか?
まず基本的な演算性能の関係は以下です:
dGPU(外部GPU) > iGPU ≒ NPU > CPU
これまで iGPU では:
-
最大 14B モデルが限界
-
共有メモリ不足
-
推論速度が 10 token/s 以下になると実用不可
という制約がありました。

ポイント①:共有メモリの大幅拡張
最新の Intel ドライバでは、
iGPU / NPU 用の共有メモリを大幅に動的割当できるようになりました。
例:
-
96GB メモリ構成 → 最大 90.7GB を AI 用に利用可能
-
しかも 専有ではなく動的共有
これは、他社の「統合メモリ(専有)」方式よりも柔軟で、
コストパフォーマンスに優れています。

ポイント②:モデル構造の進化(MoE / A3B)
現在主流になりつつあるのが 疎(Sparse)モデル、
特に A3B(Active 3B) と呼ばれる構造です。
例:Qwen3-30B-A3B
-
総パラメータ:約300億
-
実際に有効化されるのは約30億
-
Mixture of Experts(MoE)構造
つまり:
-
モデルは巨大(知識が豊富)
-
推論時は必要な部分だけ動く
-
高速・省電力
本記事の実測では、
すべてのケースで 10 token/s 以上を維持しています。

実測範囲について
今回の検証は以下を含みます:
-
大規模言語モデル(20B〜120B)
-
テキスト生成
-
画像生成(Z-Image)
-
OCR
-
TTS(音声生成)
※ テキスト→動画(T2V)は、現時点では iGPU では非現実的なため対象外です。

使用したテスト環境
-
CPU:Intel® Core™ Ultra 9 285H
-
メモリ:96GB(48GB ×2)
-
デバイス:GMKtec EVO-T1 ミニPC
選定理由:
-
高いコストパフォーマンス
-
PCIe 4.0 NVMe スロット ×3
-
Thunderbolt 4 + OCuLink 対応
-
高性能冷却(VC + デュアルファン)
-
AI モデルストア内蔵ツール
LLM 実測結果:20B 〜 120B
20B GPT-OSS(Q4)
-
出力:約 2380 トークン
-
速度:約 17 token/s
-
Markdown・表生成も問題なし
120B GPT-OSS(Q4)
-
VRAM 使用量は大きいが安定
-
約 11 token/s を最後まで維持
-
出力トークン数が増えても速度低下ほぼなし
正直、これは 1年前なら信じられない結果です。
A3B モデル(30B〜80B)
-
30B A3B Q4:約 15 token/s
-
80B A3B Q4:約 11 token/s 以上
PDF 読解、思考マップ生成、創作系タスクも問題なし。
画像生成:Z-Image-TurBo × Intel iGPU
Z-Image-TurBo は:
-
約 6B パラメータ
-
テキスト理解力が非常に高い
-
中国語・文字入り画像に強い
OpenVINO™ を用いた実測結果:
| 解像度 | 生成時間 |
|---|---|
| 1024×1024 | 約70秒 |
| 1024×768 | 約52秒 |
| 600×900 | 約35秒 |
消費電力を考えると、非常に優秀です。
OCR:実用レベルに到達
AI OCR は従来方式とは別物です。
-
小さい文字・複雑な配置にも対応
-
Markdown / Text 出力
-
大量処理向き
精度は 100% ではありませんが、
従来より確実に一段上です。
TTS(音声生成・クローン)
fireredTTS2 を使用:
-
複数話者対応
-
音声サンプルは 5 秒以内推奨
-
36 秒音声 → 約 100 秒で生成
RTX 5090D(400W 超)と比べても、
20W 程度の iGPU でここまで出るのは驚異的です。
まとめ:不可能を可能にした Intel iGPU
実測まとめ
-
20B OSS Q4:~17 token/s
-
30B A3B Q4:~15 token/s
-
80B A3B Q4:~11 token/s+
-
120B OSS Q4:~11 token/s+
-
Z-Image 1024²:約70秒
-
TTS:生成比 約 1:2.8
Intel Core Ultra の内蔵GPUは、
AI を「使える存在」に引き上げました。
最後に
すでに Core Ultra 200H 搭載 PC を持っているなら、
今すぐ AI を触ってみるべきです。
まだなら、次の買い替え候補として十分価値があります。
AI はもう未来の話ではありません。
今、あなたの PC の中で動き始めています。
最後までお読みいただき、ありがとうございました。
皆さまの成功と、素晴らしい一年をお祈りします 🚀
https://zhuanlan.zhihu.com/p/1983964097180620690?share_code=rDDs5TkXj4ds&utm_psn=1983983895553802759