さくらガジェット情報局

最新ガジェットのニュース、比較レビュー他、様々な情報を発信していくブログです。

NVIDIA GeForce RTX 4070ファーストレビュー:低価格で新時代を享受できる万人向けの40シリーズグラボ

NVIDIAのGeForce RTX 4070がついに発売されました!RTX 40シリーズの中堅製品がリリースされることで、今世代のグラフィックカードのサイズと価格がさらに低下し、多くのユーザーにとって魅力的な選択肢となっています。もちろん、性能も徐々に向上していますが、今回は実際のテストでその性能を詳しく見ていきましょう。

70レベルのグラフィックカードは、毎世代の一般的な3Aゲームプレイヤーが最も期待する製品であり、適度な性能、中程度のサイズ、および比較的安価な価格を兼ね備えています。今回のRTX 4070は、NVIDIA公式が発表した位置付けでは、レイトレーシングとDLSSを有効にした状態で、3Aゲームが2Kの100fps以上を達成することができます。

公式情報によれば、今回のRTX 4070の価格は約47,000円で、すでに50,000円を下回っています。RTX 3070 Tiの発売価格と同じで、国内でも一部のリファレンスモデルが販売される予定です。興味のあるプレイヤーは、ぜひお気に入りに追加して購入を検討してください。

また、今回のMSRP RTX 4070は4月12日の21:00に解禁され、各OC版グラフィックカードは4月13日の21:00に解禁される予定です。詳細な評価についても、今後の記事にご注目ください。

 

1 NVIDIA GeForce RTX 4070の概要

まずは外観を見てみましょう。今回のRTX 40シリーズのグラフィックカードのパッケージは、すべて黒色のフタ付きのギフトボックススタイルで、外装はマットブラックの硬質紙箱が引き続き採用されています。また、「GeForce RTX 4070」という文字の変化も明確に確認でき、GeForce RTXの英字は丸みを帯び、数字はより「厚み」があります。

RTX 4070グラフィックカードの周囲の装飾パターンは、開封すると"衝撃"効果があります。また、性能が一般向けに戻ることから、既にリリースされているハイエンドモデルと比較して、RTX 4070ははるかに小さく、サイズはRTX 3060に似ており、小型ケースや小型カードを好むユーザーにはうれしいことです。

今回のRTX 4070には、16ピンから8ピン*2への変換ケーブルが同梱されており、カード全体の消費電力は200Wで、推奨電源は650Wです。旧型のパソコンのアップグレードに非常に親切で、実際には200W未満の消費電力で、ほとんどの電源でサポートできます。ただし、RTX 40シリーズのグラフィックカードはすべて16ピンの外部電源を採用しているため、変換が必要です。もちろん、条件が許す限り、最新のATX 3.0電源の使用がお勧めです。

NVIDIA GeForce RTX 4080 FEグラフィックカードの全体的なサイズは約240×97×40mm(ブラケットは除く)、2スロットのスペースを占め、重さは約1kgです。以前リリースされたRTX 4080は、304×137×61mmで、3スロットのスペースを占めています。

RTX 4070 Tiやそれ以上のモデルと比較すると、消費電力が大幅に低下したため、内部のヒートシンクも簡略化されており、この新しいミドルレンジのグラフィックカードは小さなものと言っても過言ではありません。

このRTX 4070は、RTX 30シリーズのグラフィックカードの外観を引き続き採用しており、ファンサイズがRTX 30シリーズと比較して大きくなっていることがわかります。ファンは、グラフィックカードの全体的なフレームの直径にほぼ達しています。また、散熱ファンが大型化したことで、最大気流は20%増加し、同一ノイズレベルでの気流は15%増加しています。

内部の散熱に関しては、RTX 4070は8層PCBを採用しており、内部の電源は合計8相です。そのうち6相はコア電源で、2相はメモリ電源です。また、全体的なヒートシンクには4つのヒートパイプが組み込まれています。

ビデオ出力インターフェイスでは、HDMI 2.1 + DP 1.4a*3の4つのインターフェイスデザインが引き続き採用されています。HDMI 2.1は、4K 120Hz HDRおよび8K 60Hz HDRに対応しています。また、公式版ではデュアルアクシスフロー冷却システムが採用されているため、ビデオ出力インターフェイスの位置には多くの散熱フィンが見られます。これは前世代と同様です。

今回のRTX 4070は全体的な消費電力が200Wで、16ピンの補助電源を1つ使用しています。以前の最も過激な8ピン*4から16ピンへの変換と比較して、今回はダブル8ピンで、端子の電力が大幅に低下しています。

なお、現在RTX 30シリーズ用の12ピンコネクタと電源アダプタは、RTX 40シリーズのグラフィックカードと互換性がありません。

さらに、RTX 40シリーズのグラフィックカードでは、最初に登場するフラッグシップGeForce RTX 4090でさえNVLinkに対応していないため、かつての4Wayタイタンを再現することは不可能です。

 


GeForce RTX4070の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


GeForce RTX4090の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


2  NVIDIA GeForce RTX 4070 アーキテクチャ解析

今回発表されたGeForce RTX 40シリーズのグラフィックカードは、新たなNVIDIA Ada Lovelaceアーキテクチャで構築され、TSMC 4N NVIDIAカスタムプロセスが採用されています。フラグシップコアであるAD102はなんと760億個のトランジスタを備えており、RTX 30シリーズでは280億個でした。

前世代のNVIDIA Ampereと比較して、NVIDIA Ada Lovelaceは同等の消費電力で性能が2倍以上向上し、最大で90-TFLOPSのシェーディングデータ処理能力が得られます。

今回発表されたRTX 4070は、5888個のCUDAコアを搭載し、29-TFLOPSの算術演算能力を提供します。また、46個の第3世代Ada RT Coreは67 RT-TFLOPSを、184個の第4世代Tensor Coreは466 Tensor-TFLOPSを提供します。

従来のラスター性能だけを比較すると、RTX 4070の進化はそれほど大きくはありませんが、AIが徐々に発展する現在、論理推論演算が大量に必要になるため、30シリーズと比較してTensor演算能力が約2.7倍に向上していることがわかります。

フルスペックのAD102コア

RTX 4070 Tiが使用するAD104コア

RTX 4070が使用するAD104コア

今回のRTX 4070は、AD104チップを使用し、4つのGPCグループのうち1つが1つのTPCを欠いており、NVENCユニットも2つになっています。また、今回のRTX 40シリーズのグラフィックスカードのL2キャッシュが大きくなっていることがわかりますが、これは意図的なものです。

このRTX 4070のL2キャッシュは36MBで、前世代のRTX 3070 Tiは4MBであり、9倍の差があります。L2キャッシュのサイズを増やすことで、パフォーマンスが向上し、遅延が低減し、バッテリー持ちが向上し、GPU上でデータアクセスが完了できます(そうでなければ、GPUは頻繁にメモリからデータを読み取る必要があり、メモリ帯域幅に過度に依存します)。これが、RTX 40シリーズのグラフィックスカードで、幅広い帯域が一般的に小さい理由です。

実際、完全なアーキテクチャ図からもわかるように、今回のAdaアーキテクチャ全体の構造的変更はそれほど大きくありません。これは、SMユニットから明確に確認できます。同じFP32 CUDAコア、同じFP32/INT32混合CUDAコア、同じL1キャッシュなどがあります。もちろん、各SMユニット内のTensor Coreは第4世代にアップグレードされています。

ただし、最も顕著な変化は、第3世代のレイトレーシングコアです。2世代目のアーキテクチャを比較してみましょう。第2世代のレイトレーシングコアには、境界交差テストを担当するBox Intersection Engineと、三角形交差テストを担当するTriangle Intersection Engineが含まれています。

第3世代のレイトレーシングコアでは、さらに2つの新しいエンジンが追加されました。Opacity Micro-Map Engines(OMM)およびDisplaced Micro-Mesh Engines(DMM)です。これら2つの新しいハードウェアユニットにより、レイトレーシング性能が大幅に向上します(詳細な原理は後述)。

これまで、2つのSMユニットが1つのTPCユニットを構成し、6つのTPCユニットが1つの完全なGPCトップレベルユニットを構成しています(一部のコアでは、5つのTPCが1つのGPCユニットを構成する場合もあります)。各GPCユニットには、独立したラスターエンジンと2つのROPパーティション(各8つのROPユニットを含む)が搭載されています。

全体的なアーキテクチャの解析が長いため、この記事ではNVIDIA Adaアーキテクチャの他の新機能については紹介しません。記事の最後に付録として説明されていますので、興味のあるユーザーはそちらを参照してください。

 

3 テストプラットフォームの紹介

まずテストプラットフォームについて紹介します。RTX 4070の性能を確保するため、当社のプラットフォームも全面的に更新されました。現在のGPU-Zバージョンはまだ更新されておらず、正確なハードウェア情報を識別できないため、誤解を招く情報は掲載しません。

NVIDIA GeForce RTX 4070はAD104コアを採用し、CUDAは5888を搭載しています。これに対して、以前テストしたRTX 4070 Tiは7680のCUDAを搭載していました。同じシリーズのグラフィックスカードでは、CUDAの数が性能の高さを比較的反映しているので、簡単に計算すると、RTX 4070の性能はRTX 4070 Tiの約77%となります。これについては後ほど検証します。

RTX 4070のBoost周波数は2475MHzで、RTX 3070 Tiは1770MHzで、大幅な向上が見られます。12GBのGDDR6Xメモリを搭載し、幅は192ビット、メモリ帯域幅は504 GB/sに達し、ラスタユニットとテクスチャユニットは64および184です。

今回のテストプラットフォームでは、最新のIntel 13世代i9-13900Kプロセッサを採用しており、非常に強力な性能を発揮しています。また、電源とディスプレイのアップグレードにも力を入れています。

RTX 4070の推奨電源は650Wですが、将来のアップグレードや次世代製品に備えるために、電源ユニットはPCケース内の他の部品に比べて長持ちするため、ハイチャージャーのMVP K850 PCIe 5.0電源を選択することができます。この電源は、850Wの定格出力と80PLUSゴールド認証を持っており、12VHPWRインターフェースにより、グラフィックカードに安定した電力供給が可能です。

高性能のCPUと高性能のグラフィックカードを搭載する場合、ケースの冷却性能も重要です。ハイチャージャーのMVP Apollo Maxアポロ・マックスケースは、ATXマザーボードと360mmの水冷クーラーに対応しており、幅広いデザインとデュアルチャンバーの内部構造で優れた冷却性能を発揮します。前面と側面の強化ガラスを使用して「海の見える部屋」を作り、技術的な美しさを楽しみながら、ハードウェアの動作状況をリアルタイムで監視することができます。

 

4 理論性能テスト

まず、グラフィックカードのDX11理論性能を測定する3DMARKFSスイートを使用しています:FS、FSE、FSUはそれぞれ、1080p、2K、4Kでのグラフィックカードの性能を表しています。実際のスコアは以下の通りです:

DX11性能向けの3DMARKFSスイートテストでは、RTX 4070は前世代のRTX 3070 Tiと主に比較されます。FSでは24%向上、FSEでは20%向上、FSUでは9%向上し、RTX 3070 Tiと比較して性能が約18%向上しています。また、新しくリリースされたRTX 4070 Tiと比較して、総合スコアは約20%差があります。

DX12環境下のTime SpyおよびTime Spy Extremeテストでは、RTX 4070はRTX 3070 Tiに対して、TSで24%向上、TSEで18%向上し、総合的に約21%向上しています。

PortRoyalは3DMARKでレイトレーシング性能を専門的にテストする項目であり、RTX 4070はRTX 3070 Tiに比べて約29%の向上が見られます。

全体として、RTX 4070の理論的性能は、RTX 3070 Tiと比較して約23%向上しています。

Speed Wayテストは、3DMARKが最新のDirectX12 Ultimate性能をテストするために更新したグラフィックカードの基本テストです。このテストを実行するには、グラフィックカードはDirectX 12 Ultimateをサポートし、6GB以上のビデオメモリが必要です。

このテストでは、リアルタイムのレイトレーシングと伝統的なレンダリング技術を組み合わせて、グラフィックカードの性能を測定します。シーンには、レイトレーシングの反射、リアルタイムのグローバルイルミネーション、メッシュシェーダー、ボリューム照明、パーティクル、および後処理効果が含まれます。また、Speed Wayテストでは、シーンを自由に探索でき、照明とカメラの設定の変更が視覚効果にどのように影響するかを確認できます。

RTX 3070 Tiグラフィックカードと比較して、1080p解像度から4Kへの向上は、それぞれ28%/22%/28%です。

また、3DMARKが最近更新したDLSS 3で関連するパフォーマンステストを実施しました。ただし、RTX 3070 Tiでは有効にできないため、RTX 4070 Tiとの比較のみ行います。

 

5 通常のゲーム性能テスト

今回のRTX 40シリーズには、DLSS 3という新技術が追加されたため、後で個別にテストを行います。ここでは、主流のいくつかの3Aタイトルを選んで、ゲーム性能を比較します。

「Forza Horizon 5」では、DLSS 3が追加されましたが、ここでは通常の比較のみを見ます。

性能面で、RTX 4070はRTX 3070 Tiと比較して、1080pで23%、2Kで27%、4Kで29%向上し、総合的に26%向上しています。

『アサシンクリード:ヴァルハラ』では、RTX 4070はRTX 3070 Tiと比較して、1080pで15%向上、2Kで14%向上、4Kで19%向上し、全体的に16%向上しました。

『ボーダーランズ3』では、RTX 4070はRTX 3070 Tiと比較して、1080pで26%向上、2Kで21%向上、4Kで14%向上し、全体的に20%向上しました。


GeForce RTX4070の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


GeForce RTX4090の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


『ブライトメモリー:インフィニット』のレイトレーシングテストソフトウェアは、ゲームとは別のテストツールであり、ゲーム内で使用されているレイトレーシング技術よりも多くの技術が使用されています。テスト条件は「RTX最高/DLSS品質」です。そのため、テストフレーム数は比較的低いですが、実際のゲーム設定は非常に使いやすいです。

性能面では、RTX 4070はRTX 3070 Tiと比較して、1080pで29%向上、2Kで24%向上、4Kで15%向上し、全体的に23%向上しました。

もう一つの中国製ゲーム『フロンティア』のベンチマークソフトウェアでは、『ブライトメモリー:インフィニット』と同様の状況が見られ、テスト条件はすべて「RTX最高/DLSS品質」で行われました。

『フロンティア』では、RTX 4070はGeForce RTX 3070 Tiと比較して、1080pで39%向上、2Kで39%向上、4Kで28%向上し、全体的に35%向上しました。

『サイバーパンク2077』では、ゲームは超高画質とレイトレーシング超高画質の2つの最高画質に分かれています。

超高画質では、RTX 4070はRTX 3070 Tiと比較して、1080pで28%向上、2Kで29%向上、4Kで30%向上し、全体的に29%向上しました。レイトレーシング超高画質では、1080pで37%向上、2Kで35%向上、4Kで35%向上し、全体的に36%向上しました。

 

6 DLSS 3性能テスト、6つのゲームで評価

これまでに280を超えるゲームやアプリがDLSSに対応し、そのうち30を超えるゲームが最新のDLSS 3に対応しています。これには、「逆水寒」、「マイクロソフトフライトシミュレーター」、「Destroy All Humans! 2: Reprobed」、「A Plague Tale: Requiem」、「Bright Memory: Infinite」、「暗影火炬城」、「F1 22」、「生死轮回」、「Marvel's Spider-Man Remastered」、「超级人类」、「Forza Horizon 5」、「サイバーパンク2077」、「Red Tide」、「Diablo IV」、「Jurassic World Evolution 2」などが含まれます。

次に、DLSS 3を搭載したゲームのフレームレートを実際にテストしてみましょう。

今回のDLSS 3のテストチャートは複雑で、1% Low FPSと遅延のテストも追加されています。FPSは一般的に理解されていますが、1% Low FPSとは何でしょうか。

まず、ゲームのベンチマークは、一定期間の平均フレームレートを測定することが一般的です。一方、1% Low FPSは、一定期間のフレーム数を大きい順に並べ、最小の1%を取り出して、その1%の平均値を求めます。

簡単に言えば、これらの値はどちらも、ゲームプレイ中の特定の瞬間の感覚を表すものではありませんが、FPSは全体的なパフォーマンスに重点を置いているのに対して、1% Low FPSは最悪の状況から平均を求めるため、より慎重なアプローチをとっています。

1% Low FPSを理解したところで、次に遅延(低いほど良い)を左軸、フレームレート(高いほど良い)を右軸に持つグラフを見てみましょう。また、正負の座標が関係しているため、両側の値が異なる可能性があります。

「ジュラシックワールド:エボリューション2」では、DLSS 3の性能が非常に優れています。このようなシミュレーション経営ゲームの特徴は、多数のユニットが同時に画面内に存在するため、CPUリソースをより多く消費することです。しかし、DLSS 3はフレーム生成を行うことで、CPUのボトルネック制限を突破することができます。

しかし、フレーム生成には欠点もあり、これが今回のテストで遅延が導入された理由です。そして、DLSS 3を有効にすると、NVIDIA Reflexも自動的に有効になります。ただし、ほとんどの非競技ゲームと比較して、26ミリ秒の遅延は実際の体験ではあまり強く感じられません。

『サイバーパンク2077』では、データがかなり現実的に反映されています。DLSSがオフの状態で最高レベルのレイトレーシングを行うと、RTX 4070グラフィックカードでもわずか39フレームで、遅延は107.1ミリ秒に達します。

DLSS 3を有効にすると、フレーム数は104になり、167%向上します。DLSS 2と比較して遅延が約13ミリ秒高いものの、まだ低い水準に維持されています。

『フォルツァ・ホライゾン5』は最近DLSS 3に対応したゲームで、DLSS 2を有効にしても、フレーム数はCPUのボトルネック制限を受けて、DLSSを無効にした場合とほぼ同じです。DLSS 3を有効にすると、一気に161フレームに跳ね上がり、26%向上します。

『暗影火炬城』は、レイトレーシングを有効にすると性能要件が大幅に上昇します。DLSS 3は、DLSSオフ時のフレーム数に比べて83%向上し、DLSS 2では61%向上しています。

ただし、今回の『暗影火炬城』は、リリース直後と比べて1%Lowフレーム数が大幅に低下し、実際のプレイ中でも通常よりも突然のカクつきを明らかに感じることができます。おそらく、ゲームのバージョンアップに伴い、最適化が追いついていないのでしょう。

UE5のテストゲームでは、DLSSの便利なショートカットテストが提供されており、DLSSオフ(スーパーリゾリューションオフ+フレーム生成オフ+Reflexオフ);DLSS 2(スーパーリゾリューション性能+フレーム生成オフ+Reflexオン);DLSS 3(スーパーリゾリューション性能+フレーム生成オン+Reflexオン)の3段階のテストが行われています。

また、Lyraのフレーム数はすべて静的であるため、1% Lowのスコアは他のゲームよりも高いです。

 


GeForce RTX4070の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


GeForce RTX4090の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


7 Stable Diffusion AI画像生成テスト

ゲームのほかにも、AIは現在大変人気のある分野であり、特にStable Diffusionが最も注目を集めています。現在、多くのAI生成画像は偽物と見分けがつかないほどリアルです。以下では、RTX 4070の性能をテストしてみます。

Stable Diffusionは非常に手軽に利用できますが、ローカル環境への導入が面倒で多くのユーザーが挫折しています。上記画像は操作画面で、ユーザーは自分の希望する画像の詳細や豊かさをキーワードで指定できます。

 

NVIDIAが提供するキーワードに従って、10セットの合計20枚の画像を生成しました。上記は、細部がリアルな2枚を選んで展示しています。

RTX 4070の計算時間は2分24.79秒で、おおよそ1枚あたり7.2秒です。

RTX 3070 Tiの計算時間は2分54.34秒で、おおよそ1枚あたり8.7秒です。

Stable Diffusionは、グラフィックカードに高いTensor演算能力を要求します。

また、ビデオメモリの要求も非常に高く、条件が許す限り大容量のビデオメモリを搭載したグラフィックカードを選択することが望ましいです。

我々は、同じ設定でのRTX 4070とRTX 3070 Tiの計算時間を比較しました。2つのグラフィックカードは、20枚の画像を生成する際に、30秒の大きな差がありました。

また、CPUを使用して同じ設定で画像を生成するテストも行いましたが、画像に示されているように、慎重に見積もって約3時間30分かかると予想されました。

さらに、CPUでレンダリングを行う際には、頻繁にメモリ不足の警告が表示されました。しかし、我々のテストプラットフォームは、最先端のi9-13900K、メモリはD5 7200MHz 32G(16G * 2)であったことから、適切なグラフィックカードの重要性が分かります。

PS:現在、AMDグラフィックカードではStable Diffusionで画像を生成できず、今後の最適化を期待するしかありません。

 

8 AV1エンコーディングテスト

今回のAV1エンコーディングテストでは、Videoleap Pro版を選択しました。一定の編集スキルを持つ人にとっては、あまり興味がないかもしれませんが、全体的なテストの感想は非常に使いやすいというものでした。

普段の編集では、PR、AEなどのAdobe製品を使用していますが、Videoleapの最大の魅力は、よりインテリジェントで、プリセットが一般的な用途に適しており、スマートな字幕認識ツールなどが利用できることです。

例えば、VideoleapとPRは、MeituとPhotoshopのようなもので、Adobeの利点は、操作範囲が広いことです。しかし、日常的な使用においては、Videoleapのようなソフトウェアに全く問題はなく、より使いやすいです。

Videoleap Pro版は、現在AV1エンコード出力を標準搭載しており、実際のテストで約2分間のビデオをエクスポートしたところ、2つのファイルの容量差は124MBでした。

AV1コーデックの特性により、生成されるファイルのビットレートが低くなりますが、ビデオの解像度は全く同じです。したがって、同じビットレート、同じ容量のファイルを生成する場合、AV1の方がより高い解像度になります。

NVIDIA ICATを使用して、2つのビデオクリップの画質を比較してみました。画像の左側がAV1コーデック、右側がH264コーデックです。200%の拡大で見ても、ほとんど違いがわからないほどです。

 

9 RTX VSR(RTX Video Super Resolution)のテスト

現在、RTX VSR(RTX Video Super Resolution)は一部のブラウザでテストが行われています。まず、ユーザーはNVIDIAの最新ドライバに更新し、NVIDIAコントロールパネルの【ビデオイメージ設定の調整】で最新のRTXビデオスーパーリゾリューションを確認できます。

RTX VSRはAI画像処理の革新であり、従来のエッジ検出や特徴シャープ化技術を超え、ライブビデオコンテンツの品質を大幅に向上させています。

RTX VSRを有効にするには、最新のドライバをインストールするだけでなく、RTX 40または30シリーズのGPUが必要です。さらに、ほぼすべてのビデオコンテンツに対応したGoogle ChromeやMicrosoft Edgeブラウザ(ブラウザも最新バージョンに更新する必要があります)でも利用できます。

有効化後、現在はYouTubeやBilibiliでRTX VSRの効果を実感できます。

有効化が確認できない場合は、ビデオを全画面再生しながらタスクマネージャを開き、GPU負荷が増加していることを確認できます。

YouTubeで適当なビデオを視聴してみると、RTX VSRを有効化した後、水中のサンゴの品質がはっきりと向上し、エッジが鮮明になり、歪みが大幅に減少することが確認できます。

 

10 温度および消費電力テスト

消費電力テストでは、FurMarkソフトウェアを使用してストレステストを実施し、GPU-Zで温度を検出しました。消費電力はグラフィックカード自体のものだけを計算しています。

RTX 4070の温度制御も驚くべきもので、ヒートシンクが縮小されているにもかかわらず、約30分のストレステストで温度は常に67℃前後に抑えられ、ホットスポットの温度は80℃前後でした。特筆すべきは、通常グラフィックカードのメモリ温度も高いものですが、RTX 4070のメモリ温度は64℃にすぎませんでした。

 

ゲームの動的消費電力テスト

今回のストレステストでは、最大の消費電力はおおよそ200Wで、TDPは100%に達しました。しかし、実際のゲームテストでは、ほとんどの3Aゲームが170-180Wで、非常にパフォーマンスが要求される3Aゲームで190Wに達する程度で、定格消費電力よりもはるかに低いです。

実際の使用過程で、異なるゲームの負荷によって、GPUの実際の消費電力は動的に変化します。FPSが時間とともに変化するのと同じで、RTX 40シリーズは消費電力の壁に達することが難しいです。

 

平均消費電力

実際のゲームの消費電力テストでは、『サイバーパンク2077』の標準ベンチマークを使用し、画面設定をレイトレーシングウルトラ、4K解像度にして、2枚のグラフィックカードの性能限界を引き出し、実際の使用シーンでの消費電力を検出しました。

二つのグラフィックカードはどちらも70レベルでありますが、先日発表されたRTX 4070は平均消費電力が184Wで、RTX 3070 Tiは288Wであり、100Wも低いという驚くべき成果です。この100Wは、すでにi5-13600KFの消費電力とほぼ同等です。

 


GeForce RTX4070の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


GeForce RTX4090の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


11 若者たちの最初のRTX 40シリーズグラフィックカード

今回のRTX 4070の発表により、RTX 40シリーズグラフィックカードの価格が初めて5000元を下回り、数年間ゲーミングPCを組みたかったシングルプレイヤーゲーム愛好家にとって、絶好のニュースです。

性能面では、RTX 4070は3Aゲームで2K解像度で100フレームを達成できます。テストしたゲームのグラフィックはすべて中上級です。4Kに関しては、現在のほとんどのインディーゲームやオンラインゲームにも問題ありません。ただし、テストはフレームレートの限界を探求するためではなく、代表的なゲームを選ぶだけです。

私はRTX 4070、またはRTX 40シリーズグラフィックカードにおいて、最も意味のあるアップグレードは消費電力の低下だと考えます。同レベルの製品で消費電力が100W減り、総合性能が約20%向上することが、GPUアップグレードの意味です。ただ性能向上のために消費電力を増やすだけでは意味がありません。

また、RTX 40シリーズグラフィックカードは設計初期から、ゲームだけでなく多分野での利用にも重点を置いています。誰もが自分のメディアであるこの時代には、エンコード/デコード、AI演算などが非常に重要です。

ビデオ編集はソフトウェアの普及により、ほぼすべての人が手に入れています。より小さい容量でより高い解像度のAV1エンコードが徐々に人気になっています。したがって、RTX 4070はゲーム向けに位置付けられていても、生産性ツールにおいても重要な役割を果たしています。

最後に、皆さんは新しくリリースされたRTX 4070とRTX 4070 Tiを比較し、どちらがコスパが良いのかを検討するでしょう。

今回リリースされたRTX 4070は、レイトレーシングゲームの性能において、2Kの100フレームを達成でき、これは大多数のプレイヤーにとって十分です。

また、両製品の性能差は約23%で、RTX 4070 Tiの公式販売価格は6499元、RTX 4070は4799元であり、1700元の価格差で約23%の性能向上が得られることは、非常にお得です。

最終的にどのレベルの製品を購入するかは、ユーザーのニーズによるところですが、1万円以内でレイトレーシング3Aゲームを快適に楽しみたい方や、DLSSの最新技術を享受したい方にとって、このRTX 4070は最適です。

 

12 付録1-NVIDIA Ada Lovelaceアーキテクチャ解説

Shader Execution Reordering(SER) シェーダー実行の再順序付け

SERの主な機能は、シェーダー性能を向上させることであり、効率の低いワークロードを、動的により効率的なワークロードに再構成することができます。特に、レイトレーシング性能の向上が非常に大きいです。

簡単に言うと、GPUは同様の作業を実行する際に効率が最も高いです。しかし、レイトレーシング効果が強化されるにつれて、各シーンでは何百万もの光線が異なる材質に当たる可能性があり、異なる材質には異なる反射率や反射効果があることがわかります。これにより、シェーダーに対して多くの発散し、効率の低いワークロードが生成されます。

SERは、これらの混乱した命令を再分類し、動的により効率的なワークロードに再構成することができます。NVIDIAによると、SERはシェーダー性能を最大2倍に向上させ、ゲームフレームレートを最大25%向上させることができます。

簡単な例として、光線が発信元から衝突先まで非常に規則正しい線で移動し、物体と衝突した後の二次レイトレーシングでは、多数の発散する無秩序な反射が生じ、これがレイトレーシングの負荷を非常に高くします。しかし、図からわかるように、SERはこれらの命令を二次的に並べ替えて、シェーダーの性能を最大限に引き出すことができます。

幸いなことに、このような実用的な機能はRTX 40シリーズの特許ではなく、簡単に統合できるSDKです。現在はゲーム開発者がゲームに統合する必要があります。さらに、これは汎用的なロジックであり、将来的にはWindowsのAPIに直接統合される可能性があり、ゲーム開発者は特別な参照を必要とせず、システムAPIを直接呼び出すことができます。

言ってみれば、SERはRTX 20シリーズ以上(レイトレーシングを有効にできる)のNカードユーザーにとって、大変ありがたいものです。何しろ、無料でレイトレーシング性能が向上するので、誰もが喜びます。

 

第三世代 RT Cores

RT Coreの目的は、より高速なレイトレーシング計算能力を実現することです。RTX 30シリーズのグラフィックスカードでは4K高フレームレートのゲームを楽しむのが難しいかもしれませんが、RTX 40シリーズでは簡単にできるようになります。

GeForce RTX 4090では、191 RT-TFLOPsの処理能力が実現されており、RTX 30シリーズの最速処理能力は78 RT-TFLOPsで、2.4倍もの速さです。また、NVIDIAの公式発表によれば、第三世代RT CoreのピークRT-TFLOPsは前世代と比較して2.8倍向上しています。これは、この4090がAda Lovelaceアーキテクチャの最終形態ではないことを意味しています。

 

Opacity Micro-Map Engines

例えば、葉などの複雑な物体は、異なる光源がその表現状態に影響を与え、葉同士の光の反射も考慮しなければならないため、レイトレーシングの計算量は膨大である。

しかし、Opacity Micro-Map Enginesはレイトレーシング特性を不透明マスクに焼き付けることができるため、不規則な形状や半透明なオブジェクトをより高速かつ正確にレンダリングでき、シェーダの負担を大幅に軽減する。

 

Displaced Micro-Mesh Engines(DMM)

Displaced Micro-Mesh Enginesは、マイクロメッシュディスプレイスメントエンジンとして理解でき、レイトレーシングのBVH(Bounding volume hierarchy)の構築速度が10倍向上し、使用するビデオメモリが20倍減少する。

DMMは第3世代RTコアでネイティブに処理され、基本的な三角形を使用して複雑なジオメトリをレンダリングし、ストレージと処理の要求を大幅に削減する。

具体的な動作原理は図から一目瞭然で、新しいDMMは非常に多くの面を持つ複雑な形状を単純化し、シンプルなモデルを作成しながら、全体的なレイトレーシング効果は変わらない。

いくつかのモデルデータを通じて、新しいDMMがモデルをどれだけ単純化したか具体的に確認できる。元々1100万の三角面を持つモデルが、単純化されて15万程度のマイクロメッシュになり、BVHの構築速度が8.5倍向上し、容量が6.5倍小さくなった。

そして、これはまだ最も驚くべき結果ではない。複雑なモデルほど最適化効果が高まり、公式に示されたいくつかの比較例では、速度が15倍以上向上し、容量が20倍簡略化されたモデルもある。

 

第四世代のTensor Cores

レイトレーシングユニットのアップグレードに加え、第四世代のTensorコアの進化も驚異的です。新しいFP8Tensorエンジンを採用し、フラッグシップモデルのRTX 4090グラフィックカードでは、1.32 Tensor petaFLOPsの処理能力を実現し、5倍の向上が見られます。

ここでの単位はpetaFLOPsに注意してください。従来のTFLOPsは1兆回の浮動小数点演算でしたが、petaFLOPsは1京回の浮動小数点演算に相当します。

また、ミッドレンジのRTX 4070では、驚くべき466 Tensor-TFLOPSを達成し、前世代のRTX 3070 Tiと比較して約2.7倍の性能向上があります。

 

DLSS 3

今回のRTX 40シリーズの大きなセールスポイントであるDLSS 3も登場し、DLSS 2.3から直接DLSS 3に移行し、このアップグレードの規模が大きいことがわかります。DLSS 3はNVIDIA公式によって、ニューラルネットワークレンダリングの新時代と称されています。

新しいDLSS 3は、従来のDLSS超解像技術に加えて、光学的なマルチフレーム生成技術を追加し、新しいフレームを生成できるようになりました。これまでのようにピクセルだけを生成することはありません。

DLSS 3は、DLSS超解像、DLSSフレーム生成、およびNVIDIA Reflexの3つの技術を組み合わせて、7/8のピクセルを再構築し、パフォーマンスを大幅に向上させます。

GPU制約のあるゲームでは、2K解像度やそれ以上の高解像度など、DLSS 2ではフレームレートを2倍に向上させることができますが、DLSS 3では4倍に向上させることができます。

今回のDLSS 3は、大きなバージョンを超えており、アイデアや原理も再びアップグレードされています。完全に「推測」された1フレームの技術は、私たちが説明するのは簡単ですが、実装するには大量の推論と計算、そして先進的なアイデアが必要です。

 

DLSS 3とNVIDIA Reflexが新時代の神経ネットワークレンダリングをリード

DLSS 3は、遅延がDLSS 2よりも高いことを認めつつ、NVIDIA Reflexと組み合わせることで、遅延を効果的に減らすことができます。これにより、NVIDIAはDLSSを「神経ネットワークレンダリングの新時代」と呼んでいます。市場にはXeSSやFSR技術もありますが、DLSSはまさに「巨人の肩」に相応しいと言えます。しかし、これにより、旧世代のグラフィックカードを持っているプレイヤーには、DLSS 3のフレーム生成を体験する唯一の方法は、RTX 40シリーズのグラフィックカードを購入することです。

 

New Optical Flow Accelerator

New Optical Flow Accelerator(新光流加速器)は、第4世代のTensor Coresに最新の機能として追加されたもので、これがDLSS 3のフレーム生成がRTX 40シリーズのグラフィックカードで独占されている理由です。光流加速器は、DLSS 2の基本機能に加えて、2つの連続したフレーム間の光流場を計算することができ、第1フレームから第2フレームへの方向と速度を捉え、粒子、反射、照明などのピクセル情報を捉えることができます。さらに、運動ベクトルと光流をそれぞれ計算し、精密なシャドウ再構築効果を得ることができます。

例えば、『サイバーパンク2077』では、第1フレームで光流加速器が各ピクセルの粒子、反射、照明などの情報を捉え、第2フレームでマッチングするピクセル領域を探し、フレーム間の差分を計算します。

DLSS 2が1つの画像の残りのピクセルを「推測」できるとすれば、DLSS 3はそれに加えて、次のフレームの画像も「推測」することができます。

DLSS 3のフレーム生成はGPU内で処理され、実行されるため、CPUのボトルネックがあるゲームでもAIによってフレームレートを向上させることができます。これが、今回の発表会でDLSS 3がCPUの制約を突破してフレーム数を向上させると述べられた理由です。

 

AV1エンコーダ

今回のアップグレードされた第8世代のNVENCエンコーダは、ライブ配信、ビデオ、ポストプロダクションの専門家にとって大きな恩恵と言えます。AV1エンコードへのサポートが初めて追加され、ライブ配信で最も顕著な効果が得られます。

従来のH.264エンコーディングと比較して、AV1エンコーディングの効率は平均で40%向上し、同じビットレートでAV1エンコーディングの画質がより良くなります。現在、ほとんどのライブ配信の解像度と画質は、プラットフォームが定める最大ビットレートに制限されています。例えば、Twitchが制限する8Mbpsの場合、同じ帯域幅で、2K 60fpsの画面をAV1エンコーディングで表示すると、H.264よりも明らかに解像度が高くなります。

ライブ配信と言えば、OBSは皆さんにとって馴染みのあるもので、10月にリリース予定のパッチで、OBSはNVENCのAV1エンコーディングをサポートするようになります。

もちろん、ライブ配信はAV1の利点が最もわかりやすい例ですが、ビデオ制作のあらゆる段階で、AV1エンコーディングは大幅な向上をもたらすことができます。

つまり、NVIDIAは、エンコードAPI、ソフトウェア、プラットフォーム、プレイヤーからAV1エンコーディングを完全にサポートする一連のエコシステムを、幅広いユーザーに展開しています。

NVIDIAは、RTX 4070 Tiおよびそれ以上のモデルで強調しているデュアルAV1エンコーディングについてもう少し説明します。その名の通り、一部のグラフィックカードには2つのエンコーダが搭載されており、その効果は明白です。

まず、公式発表によれば、4K H.265のエクスポート速度では、RTX 4090はRTX 3090 Tiの2.2倍であり、8K H.265のエクスポート速度ではなんと2.5倍に達します。この向上は、よく使われる映像編集ソフトにも適用されるため、興味のあるユーザーはぜひ体験してみてください。

エクスポート速度だけでなく、8K 60fpsのビデオ録画は以前は考えられなかったものですが、デュアルエンコーダの利点は、画像を二分し、2つのエンコーダがそれぞれ7680×2160の画像情報を処理し、最後に結合します。

エンコードに関しては、多くのユーザーにとって感覚が深くないかもしれませんが、ある日、画面を録画したいと思ったら、グラフィックカードがサポートしていないことに気付いた時、その重要性がわかります。

高解像度時代に入るにつれて、ハードウェアエンコードとレンダリングは欠かせない助けとなっています。品質に関しては、ハードウェアエンコードはまだCPUソフトウェアエンコードには及びませんが、ソフトウェアエンコードが極限画質に達した場合、時間が無限に長くなります。8Kレンダリング画像だけでも、2つのエンコード方法の時間差は数時間に達し、10秒のCGアニメーションではもっと顕著です。進化し続けるハードウェアエンコードでは、品質と時間が絶えずチャレンジされ、更新されています。

 


GeForce RTX4070の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする


GeForce RTX4090の価格を今すぐチェック!

>>>楽天市場でチェックする
>>>Amazonでチェックする