Intel 内蔵GPUで 120B の大規模言語モデルは本当に動くのか?実機で徹底検証してみた

Intel 内蔵GPUで 120B の大規模言語モデルは本当に動くのか?実機で徹底検証してみた

はじめに:なぜ今、この検証なのか

こんにちは、**大路(Dalu)**です。

2025年11月20日、インテル主催の「テクノロジー・イノベーション&産業エコシステム大会」にて、
Intel 内蔵GPU(iGPU)だけで 120B(1200億パラメータ)級の大規模言語モデルを動かすという、非常に衝撃的なデモが行われました。

私自身も現地でこのセッションを見ていましたが、正直に言って——
**情報量・技術レベルともに“爆発的”**でした。

インテルが示したメッセージは明確です。

Intel プロセッサを搭載したあらゆるデバイスで、AI は動く。

これはノートPCやミニPCだけでなく、NAS などの エッジデバイスにも当てはまります。


「不可能」だったことが、日常の生産性に変わった

Intel® Core™ Ultra AI プロセッサの登場により、これまで想像すらできなかったことが現実になりました。

例えば:

  • 会議録音の自動文字起こし+タイムライン表示

  • 音声データの要約・検索

  • 画像・動画・音声を横断したコンテンツ理解

  • 数秒の音声サンプルからの多言語音声クローン(TTS)

正直に言うと、これは 従来の声優業界にとっては脅威です。

私自身が音声クローンを使う理由

私の動画制作フローはこうです:

  1. 台本なしで一気に話す(結果、動画が長くなりがち)

  2. AI で字幕とタイムラインを生成

  3. 構成を整理・編集

  4. 自分の声を AI TTS で再生成

  5. 短く、論理的で、完成度の高い動画に仕上げる

AI を使わない長尺動画は、再生数が伸びにくい。
AI を活用すると、結果がまったく変わります。

AI は単なる効率化ツールではなく、
制作スタイルそのものを変える存在です。


問題は「どう現実に使えるか」

多くの人にとって AI は「見たことはあるが、使ったことがない」存在です。

  • ショート動画のナレーション

  • 顔入れ替え動画

  • 声マネ AI

日常的に目にしていても、「自分には無理」「難しそう」と感じてしまう。

でも、それはもう過去の話です。

  • 2023年:AI 元年(主に商用)

  • 2025年:AI 応用元年(一般ユーザー向け)

Intel Core Ultra の内蔵GPUにより、
AI の敷居は劇的に下がりました。


なぜ内蔵GPUで大規模モデルが動くのか?

まず基本的な演算性能の関係は以下です:

dGPU(外部GPU) > iGPU ≒ NPU > CPU

これまで iGPU では:

  • 最大 14B モデルが限界

  • 共有メモリ不足

  • 推論速度が 10 token/s 以下になると実用不可

という制約がありました。


ポイント①:共有メモリの大幅拡張

最新の Intel ドライバでは、
iGPU / NPU 用の共有メモリを大幅に動的割当できるようになりました。

例:

  • 96GB メモリ構成 → 最大 90.7GB を AI 用に利用可能

  • しかも 専有ではなく動的共有

これは、他社の「統合メモリ(専有)」方式よりも柔軟で、
コストパフォーマンスに優れています。


ポイント②:モデル構造の進化(MoE / A3B)

現在主流になりつつあるのが 疎(Sparse)モデル
特に A3B(Active 3B) と呼ばれる構造です。

例:Qwen3-30B-A3B

  • 総パラメータ:約300億

  • 実際に有効化されるのは約30億

  • Mixture of Experts(MoE)構造

つまり:

  • モデルは巨大(知識が豊富)

  • 推論時は必要な部分だけ動く

  • 高速・省電力

本記事の実測では、
すべてのケースで 10 token/s 以上を維持しています。


実測範囲について

今回の検証は以下を含みます:

  • 大規模言語モデル(20B〜120B)

  • テキスト生成

  • 画像生成(Z-Image)

  • OCR

  • TTS(音声生成)

※ テキスト→動画(T2V)は、現時点では iGPU では非現実的なため対象外です。


使用したテスト環境

選定理由:

  • 高いコストパフォーマンス

  • PCIe 4.0 NVMe スロット ×3

  • Thunderbolt 4 + OCuLink 対応

  • 高性能冷却(VC + デュアルファン)

  • AI モデルストア内蔵ツール


LLM 実測結果:20B 〜 120B

20B GPT-OSS(Q4)

  • 出力:約 2380 トークン

  • 速度:約 17 token/s

  • Markdown・表生成も問題なし

120B GPT-OSS(Q4)

  • VRAM 使用量は大きいが安定

  • 約 11 token/s を最後まで維持

  • 出力トークン数が増えても速度低下ほぼなし

正直、これは 1年前なら信じられない結果です。


A3B モデル(30B〜80B)

  • 30B A3B Q4:約 15 token/s

  • 80B A3B Q4:約 11 token/s 以上

PDF 読解、思考マップ生成、創作系タスクも問題なし。


画像生成:Z-Image-TurBo × Intel iGPU

Z-Image-TurBo は:

  • 約 6B パラメータ

  • テキスト理解力が非常に高い

  • 中国語・文字入り画像に強い

OpenVINO™ を用いた実測結果:

解像度 生成時間
1024×1024 約70秒
1024×768 約52秒
600×900 約35秒

消費電力を考えると、非常に優秀です。


OCR:実用レベルに到達

AI OCR は従来方式とは別物です。

  • 小さい文字・複雑な配置にも対応

  • Markdown / Text 出力

  • 大量処理向き

精度は 100% ではありませんが、
従来より確実に一段上です。


TTS(音声生成・クローン)

fireredTTS2 を使用:

  • 複数話者対応

  • 音声サンプルは 5 秒以内推奨

  • 36 秒音声 → 約 100 秒で生成

RTX 5090D(400W 超)と比べても、
20W 程度の iGPU でここまで出るのは驚異的です。


まとめ:不可能を可能にした Intel iGPU

実測まとめ

  • 20B OSS Q4:~17 token/s

  • 30B A3B Q4:~15 token/s

  • 80B A3B Q4:~11 token/s+

  • 120B OSS Q4:~11 token/s+

  • Z-Image 1024²:約70秒

  • TTS:生成比 約 1:2.8

Intel Core Ultra の内蔵GPUは、
AI を「使える存在」に引き上げました。


最後に

すでに Core Ultra 200H 搭載 PC を持っているなら、
今すぐ AI を触ってみるべきです。

まだなら、次の買い替え候補として十分価値があります。

AI はもう未来の話ではありません。
今、あなたの PC の中で動き始めています。

最後までお読みいただき、ありがとうございました。
皆さまの成功と、素晴らしい一年をお祈りします 🚀

 

Sumber:

コメントを残す

0 件のコメント

コメントは公開前に承認が必要です。