なぜ今、ソフトマックス(Softmax)なのか?
LLMのコンテキスト長が爆発的に増加する中、Multi-Head Latent Attention (MLA) や Grouped Query Attention (GQA) のような複雑なアテンション機構が標準となりつつあります。これにより、AIの「思考速度」を決定づけるのは、もはや膨大な行列乗算(MATMUL)のスループットではなく、**ソフトマックス関数を構成する超越関数(Transcendental Math)**の性能となっています。
超越関数(指数関数、対数関数など)は、Tensor Coreが特化した基本的な代数演算とは異なり、特殊機能ユニット(SFU)で処理されます。アテンションブロック内で強力な行列エンジンが、SFUデータパスがアテンションスコアを正規化するのを待機してアイドル状態になる瞬間、これがまさに 「ソフトマックス・ボトルネック」 です。NVIDIA Blackwell Ultraは、標準Blackwellに対してSFUのスループットを2倍に高めることで、このボトルネックを解消します。本記事ではそのメカニズムと性能向上について詳しく解説します。詳細な根拠資料はNVIDIA技術ブログでご確認いただけます。
![]()
ソフトマックスボトルネックとBlackwell Ultraの解決策
アテンションメカニズムは、クエリ(Query)、キー(Key)、バリュー(Value)の相互作用で動作します。クエリとキーの類似度(内積)を計算した後、この「ロジット(Logits)」をソフトマックス関数を通じて合計が1となる確率値に変換することが核心です。
問題はこのソフトマックス演算にあります。8,192トークンのシーケンスは[8,192 x 8,192]サイズのアテンション行列を作成し、これを正規化するには数十億回の指数関数計算が必要となります。この計算量はシーケンス長の二乗に比例して増加します。
Blackwell Ultraは、この指数関数計算を担当するSFUのスループットを2倍に高めました。これは単にSFUが速くなったことを意味するのではなく、アテンションループのパイプラインストール(Pipeline Stall)を最小化することを意味します。
以下は、改善されたパイプラインを概念的に示したものです。
[従来のBlackwell]
BMM1(行列積) -> | 長い待機時間 | -> Softmax(SFU) -> | 長い待機時間 | -> BMM2(行列積)
↑ Tensor Core アイドル ↑ Tensor Core アイドル
[Blackwell Ultra]
BMM1(行列積) -> Softmax(SFU) -> BMM2(行列積)
↑ 待機時間 最小化
Softmax処理時間が短縮されると、BMM1とBMM2の間隔が狭まり、Tensor Coreがより高い稼働率で連続的に作業できるようになります。これは最終的には、全体の推論スループット(Throughput)向上につながります。

ベンチマークで確認した性能向上
理論的な説明を超え、実際のMUFU.EX2(指数関数)命令のスループットを測定したマイクロベンチマーク結果がこれを実証しています。GB300(Blackwell Ultra)は、すべてのデータタイプにおいてGB200(Blackwell)に対して約2倍高い演算性能を示しました。
| 演算 (DataType) | Blackwell (GB200) | Blackwell Ultra (GB300) | 向上率 |
|---|---|---|---|
| exp2 BF16x2 | 4,908 GFLOPS | 9,992 GFLOPS | ~2.03倍 |
| exp2 BF16 | 4,938 Gop/s | 9,738 Gop/s | ~1.97倍 |
| exp2 FP32 | 4,943 Gop/s | 10,024 Gop/s | ~2.03倍 |
このようなSFU性能の向上は、実際のモデル推論速度にも直結します。DeepSeek-V3モデルの順伝播(FPROP)性能を測定した結果、FP8演算で約35%のスループット向上を確認できました。低精度(FP8)では行列演算自体が非常に高速であるため、相対的にソフトマックス演算が占める比重が大きくなり、性能向上効果がより顕著に現れます。
このようにハードウェア最適化は、ソフトウェアアーキテクチャの変化と相まって相乗効果を生み出します。例えば、Vercel AI GatewayでRecraft画像モデルを使用するような高品質生成AI統合の事例においても、バックエンドインフラの効率性はエンドユーザー体験に直結する重要な要素です。

実務的な示唆と注意点
この技術の限界または注意点 Blackwell Ultraの性能向上は、ソフトマックスボトルネックが顕著なワークロードで最も効果的です。モデルのアテンションメカニズムが単純であったり、コンテキスト長が極端に短い場合には、期待ほどの性能差が出ない可能性があります。したがって、ベンチマークによる実際のワークロード検証が必須です。
次のステップの学習方向の提示
- NVIDIA trtllm-genリポジトリの探索: 実際のベンチマークコードと最適化手法を学ぶことができます。
- アテンションメカニズムの深化学習: ソフトマックスボトルネックをソフトウェア的に緩和する手法(例:FlashAttention)との関連性を理解しましょう。
- インフラ最適化のトレンド把握: ハードウェアアクセラレーションの流れは続いています。CSS corner-shapeのようなフロントエンド技術の進化と同様に、バックエンドインフラも継続的な注目が必要な分野です。
まとめると、現代の高度に最適化されたAIアーキテクチャにおいて、より高速な推論への道は、単にTensor Coreをより速くすることだけにあるのではありません。非線形数学演算ユニット(SFU)が行列エンジンの速度に追いつけるようにする、バランスの取れた設計が核心です。Blackwell Ultraは、こうした洞察をハードウェアとして実現した重要な前進と言えます。
一緒に読むと良い記事