RTX3090リグをAMD EPYCプラットフォームに換装する(ベンチマーク編)

  • OSやライブラリ等のセットアップはネット上に公式含めいくらでもあるので省略することにしたが、いくつか気になった点についてはベンチマーク結果に行く前にここについでに記しておく.
  • ベースシステムはこちら. GPURTX3090 を4台. 

 

  • セットアップ時に気になった点についてのメモ
    • OSはUbuntu 20.04LTSを選択 
    • Server版において、起動時にデフォルトで入っているCloud-Initの立ち上がりが非常に遅い
      • デスクトップ版に入れ替えることで解決.
      • 下記にもあるように結局GUI環境が必要なので、Server版にするメリットがなかった.
    • 冷却ファンが常に100%で動作、または0%と100%を数秒おきに繰り返して不快な騒音が生じる
      • ipmitoolで50%に固定する設定を行うことで解決
    • GPUのPerformance Stateが常にP0になって100W前後の無駄な電力を食う
      • nvidia-settingにおけるPowerMizerによる適応的制御が有効化されていないのが原因の模様.
      • なので、デスクトップ環境の導入(Sever版の場合)と、NVIDIAドライバインストール時にGUI周りのソフトウェアのインストールを有効にすることで解決.
    • NVIDIAドライバインストール後にディスプレイ出力がGPUになってしまう
      • ドライバインストール時にxorg.confに自動で書き出されるパラメータが原因の模様.
      • DeviceセクションにオンボードVGAについてのものを追加し、ScreenセクションでGPUのDeviceから差し替えることで解決.

 

  • ベンチマーク結果
      • 以下、ベンチマーク結果をCPUおよびGPUの対象別に表で示す.
      • 単位の青いハイライトは低いほど高性能、緑のハイライトは高いほど高性能であることを表す.
    • CPUのみ
    • カテゴリ
      種別
      タスク
      スコア
      単位
      Blender Blender Blender 3.blend 118 sec
      Creator Blender BMW27 - Compute: CPU-Only 58.45 sec
      Creator Blender Classroom - Compute: CPU-Only 152.15 sec
      Creator Blender Fishy Cat - Compute: CPU-Only 76.44 sec
      Creator Blender Pabellon Barcelona - Compute: CPU-Only 602.63 sec
      Creator Blender Barbershop - Compute: CPU-Only 187.83 sec
      Creator FFmpeg H.264 HD To NTSC DV 7.39 sec
      HPC NAMD ATPase Simulation - 327506 Atoms 0.8275 days/ns
      HPC Graph500 Scale 26 - bfs median_TEPS 0.3495 GTEPS
      HPC Graph500 Scale 26 - bfs max_TEPS 0.3559 GTEPS
      HPC Graph500 Scale 26 - sssp median_TEPS 0.1238 GTEPS
      HPC Graph500 Scale 26 - sssp max_TEPS 0.1646 GTEPS
      HPC OpenFOAM Motorbike 30M 34.92 sec
      HPC OpenFOAM Motorbike 60M 436.51 sec
      HPC FFTW Stock - 1D FFT Size 1024 11.06 GFLOPS
      HPC FFTW Stock - 1D FFT Size 2048 10.37 GFLOPS
      HPC FFTW Stock - 1D FFT Size 4096 10.02 GFLOPS
      HPC FFTW Stock - 2D FFT Size 1024 9.62 GFLOPS
      HPC FFTW Stock - 2D FFT Size 2048 8.27 GFLOPS
      HPC FFTW Stock - 2D FFT Size 4096 7.23 GFLOPS
      HPC FFTW Float + SSE - 1D FFT Size 1024 59.80 GFLOPS
      HPC FFTW Float + SSE - 1D FFT Size 2048 63.26 GFLOPS
      HPC FFTW Float + SSE - 1D FFT Size 4096 59.02 GFLOPS
      HPC FFTW Float + SSE - 2D FFT Size 1024 41.59 GFLOPS
      HPC FFTW Float + SSE - 2D FFT Size 2048 36.75 GFLOPS
      HPC FFTW Float + SSE - 2D FFT Size 4096 27.12 GFLOPS
      HPC DGEMM Sustained Floating-Point Rate 8.92 GFLOPS
      HPC Himeno Poisson Pressure Solver 4.48 GFLOPS
      HPC HPL Linpack 2.3 214.66 GFLOPS
      GPUメイン
    • カテゴリ
      種別
      タスク
      GPU
      スコア 利用率 [%]
      単位 CPU GPU
      NVIDIA Classification ImageNet - ResNet50 v1.5: FP32 1 478 img/s 5.5 100
      NVIDIA Classification ImageNet - ResNet50 v1.5: FP32 2 927 img/s 10.2 100
      NVIDIA Classification ImageNet - ResNet50 v1.5: FP32 4 1848 img/s 20 99
      NVIDIA Detection COCO2017 - EfficientDet-D0: FP32 1 151 img/s 5.5 92
      NVIDIA Detection COCO2017 - EfficientDet-D0: FP32 2 287 img/s 11.5 94
      NVIDIA Detection COCO2017 - EfficientDet-D0: FP32 4 505 img/s 22.5 92
      Blender Blender Monster 1 2980 sample/m 6 100
      Blender Blender Junkshop 1 1683 sample/m 6 99
      Blender Blender Classroom 1 1410 sample/m 6 99
      Blender Blender Blender 3.blend 1 49.4 sec 4 100
      Blender Blender Blender 3.blend 2 33.1 sec 4 95
       Blender Blender Blender 3.blend 4 26.6 sec 8 90
      CPUのベンチマークは各項目のリンクにある通りOpenBenchmarking.orgにあるものを使わせてもらった.
    • CPUは概ね期待通りの性能になっており、全コア使用率100%でも温度は80度を超えることはほぼなく安定している.
    • GPUメインの処理でも、CPUはその使用率から考えればまずボトルネックにはなっていないと言える.
    • マルチGPU性能もほぼ期待通り.
    • Object Detectionタスクでの4GPU構成でパフォーマンスが落ちているのが若干気になるが、バグというか不具合ではなさそう.
    • メモリ使用量は記録を取るのを失念してしまったが、少なくともGPUメインのタスクでは最大でも60GB程度だったと思う.

 

  • とりあえずこれでひと通り作業は完了