2022.09.15

【行業新聞】Ansys Fluent 如何透過GPU加速CFD模擬

【行業新聞】Ansys Fluent 如何透過GPU加速CFD模擬

多年來,加速 CFD 模擬的關鍵推動力之一是高性能計算 (HPC),並且近年來已擴展到圖形處理單元 (GPU)。在 CFD 世界中利用 GPU 並不是一個新概念。GPU 被用作 CFD 加速器已經有一段時間了(包括自 2014 年以來在Ansys Fluent中)。但是,您得到的只有局部加速度是問題所在。再者,未針對 GPU 最佳化的代碼部分會限制您的整體加速。這就是為什麼我們想向您展示當 CFD 模擬在多個 GPU 上本機運行時 GPU 的潛力。

 

想像一下,如果您能夠在每項任務上節省幾分鐘、幾小時甚至幾天的時間,您可以在一年中節省多少時間。如果該任務是計算流體動力學 (CFD) 模擬,並且您想減少求解時間,Ansys Fluent GPU 求解器可以提供解決方案。

 

無論是求解 100,000 單元還是 1 億單元模型,減少模擬時間的傳統方法是在多個 CPU 上求解。近年來引起關注的另一種方法是使用圖形處理單元或 GPU。這始於將 CPU 解決方案的某些部分傳遞給 GPU 以加快整體解決方案時間,這被稱為卸載到 GPU。

 

早在 2014 年,我們就在 Ansys Fluent 中實施了這種卸載技術,但今年我們在 Fluent 中引入了原生多 GPU 求解器,將 GPU 技術的使用提升到了一個全新的水平。本機實現在 GPU 上提供了所有求解器功能,並避免了 CPU 和 GPU 之間交換數據的耗損,與卸載相比,這會帶來更好的加速。

 

為 CFD 釋放 GPU 的全部潛力需要整個代碼在 GPU 上運行。

 

1. 汽車外部空氣動力學加速 32 倍

對於我們的第一個示例,讓我們看一下汽車外部空氣動力學模擬,它可以很快變得非常大——通常超過 3 億個單元。運行這種規模的模擬需要數千個內核和數天(有時甚至數週)的計算時間。如果有一種方法可以將模擬時間從幾週縮短到幾天或幾天縮短到幾小時,同時還能顯著降低功耗呢?劇透警告:有,那就是完全在 GPU 上運行這些模擬。

 

可持續性是汽車行業的一個關鍵問題,世界各地的政府機構都在制定嚴格的規定。汽車公司一直在評估是否符合或超過這些規定的一些領域包括:

  • 改善空氣動力學
  • 減少排放
  • 使用替代燃料
  • 開發混合動力和電動動力系統選項

 

但可持續發展的努力不應僅限於最終產品(在本例中為汽車)的運營——這種努力也應擴展到產品的設計過程。這包括模擬,我們 Ansys 希望減少模擬過程中的耗損。

 

對於所示的模擬,我們使用 Fluent 在不同的 CPU 和 GPU 配置上運行基準 DrivAer 模型並比較了性能。我們的結果表明,單個 NVIDIA A100 GPU 的性能比具有 80 個 Intel® Xeon® Platinum 8380 內核的集群高 5 倍以上。當擴展到 8 個 NVIDIA A100 GPU 時,模擬速度可以提高 30 倍以上。

在更短的時間內獲得結果使我們的客戶更有效率,但它並不止於此:我們還可以通過大幅降低運行此類模擬所需的電力來減少他們的電費並幫助地球!

 

我們查看了具有 1024 個 Intel® Xeon® Gold 6242 內核的 CPU 集群的功耗,並注意到功耗為 9600 W。與提供相同性能的 6 x NVIDIA® V100 GPU 服務器的功耗相比,該功耗消耗降低了四倍,降至 2400 W。

 

這些基準測試結果表明,與同等 HPC 集群相比,選擇 6 x NVIDIA® V100 GPU 服務器的公司可以將其功耗降低 4 倍,這甚至不考慮為保持服務器機房涼爽而降低的冷卻成本。

在原生 GPU 求解器上運行模擬可以對您公司的可持續發展工作和減少您等待結果所花費的時間產生巨大而直接的影響。不僅僅是任何結果——這些都是您可以信任的結果。在過去的 40 多年中,Fluent 已在各種應用中得到廣泛驗證,並以其行業領先的準確性而聞名。Fluent 中可用的 CPU 和多 GPU 求解器都建立在相同的離散化和數值方法上,為用戶提供幾乎相同的結果。

 

下面的兩個典型案例是完善的 CFD 驗證,它們模擬了層流和湍流狀態的基本原理。這兩種情況都詳細說明了用戶在 GPU 上本機求解時將獲得的準確度。

 

2. 球體上的層流

文獻中充斥著關於球體流動的實驗和數值研究,可作為外部空氣動力學驗證的基本基準。對於第一個測試,我們選擇了雷諾數等於 100 的層流條件,並且預計流體會繞過球體並在圓柱體後面形成時不變的渦流結構。文獻中提出的阻力相關性用於將 CFD 結果與實驗數據進行比較。

 

如表 1 所示,原生 GPU 實現計算風阻係數非常準確,誤差百分比僅為 -0.252%。

 

3. 後向台階

後向步驟是用於測試湍流模型實現的典型問題。看似簡單的配置卻蘊含著豐富的物理特性。對於該測試,我們重新創建了 Vogel 和 Eaton 2 的實驗裝置,其入口速度為 2.3176 m/s。通過將沿通道長度的不同平面的速度剖面與已發布的實驗數據進行比較,對 CFD 代碼進行了測試。

 

在 CPU 上解決時,Fluent 顯示與實驗結果3,4良好的驗證,使用原生多 GPU 求解器解決相同的問題為用戶提供了幾乎相同的結果,如下圖所示,因為 Fluent 中可用的 CPU 和 GPU 求解器都是基於相同的離散化和數值方法構建的。

 

4. 加快各種規模的 CFD 模擬

從 512,000 個單元到超過 700 萬個不等,本文詳細介紹的模型在 GPU 上求解時都顯示出顯著的性能提升。而且您不需要最昂貴的伺服器級 GPU 就能實現顯著的性能提升,因為 Fluent GPU 求解器可以使用您的筆電或工作站 GPU 來大大縮短求解時間。繼續閱讀以了解本機多 GPU 求解器如何提高以下速度:

  • 進氣系統為 8.32X
  • 牽引逆變器為 8.6X
  • 15.47X 和 11X 用於兩種不同的熱交換器設計

 

5. 通過多孔過濾器的氣流

汽車上的進氣系統用於吸入空氣,使其通過過濾器以去除碎屑並將清潔空氣輸送到發動機。對於這個 710 萬個單元的模擬,過濾器被建模為具有 1e+8 m-2 粘性阻力和 2,500 m-1 慣性阻力的多孔介質。空氣以 0.08 kg/s 的質量流量流入進氣系統。

在一個 NVIDIA A100 GPU 上解決時,進氣系統的速度提高了 8.32 倍。

 

解決此模型時使用了四種不同的硬體配置,三種由 Intel® Xeon® Gold 6242 內核組成,一種由一個 NVIDIA A100 Tensor Core GPU 組成。 與在 32 個 Intel® Xeon® Gold 內核上求解相比,使用單個 NVIDIA A100 GPU 的速度提高了 8.3 倍。

 

6. 使用共軛傳熱模型 (CHT) 進行熱管理

在許多工業應用中,考慮熱效應和流體流動至關重要。為了準確捕捉系統的熱行為,流體中的熱傳遞與相鄰金屬中的熱傳導相結合通常很重要。我們的原生 GPU 求解器顯示了這些耦合 CHT 問題的巨大加速。下面顯示了三種不同的熱模擬,其中包括 CHT,一個 400 萬個單元的水冷牽引逆變器、一個 140 萬個單元的百葉窗翅片熱交換器和一個 512,000 個單元的垂直安裝散熱器。

 

7. 水冷牽引逆變器

在一個 NVIDIA A100 GPU 上求解時,涉及 CHT 的牽引逆變器模擬加速了 8.6 倍。

 

牽引逆變器從高壓電池獲取直流電 (DC) 並將其轉換為交流電 (AC) 以發送到電動機。熱管理對於牽引逆變器至關重要,可確保安全性和使用壽命。

 

上面顯示的模型是一個 400 萬節水冷牽引逆變器,具有四個絕緣柵雙極晶體管 (IGBT),熱負載為 400 W。以 0.5 kg / s 的速率在外殼中循環冷卻 25°C 的水,並且使用對流邊界條件模擬對周圍空氣的散熱。與 32 個 Intel® Xeon ® Gold 6242 內核相比,在一個 NVIDIA A100 GPU 上求解可實現 8.6 倍的加速。

 

8. 百葉翅片式換熱器

該熱交換器模型通過百葉窗翅片熱交換器使用強制對流。問題在於 20°C 的空氣以 4 m/s 的速度流過鋁製百葉窗散熱片以冷卻銅管。

 

為了建立基準,我們在 8 個 Intel® Xeon® Gold 6242 內核上運行了 140 萬個單元模型。在一個 NVIDIA A100 GPU 上運行這個完全相同的模型導致了 15.5 倍的加速。

 

在一台 NVIDIA A100 上,百葉窗翅片式熱交換器的溫度等值線求解速度提高了 15.47 倍。

 

9. 垂直安裝的散熱器

最後一個問題包括一個自由對流五翅片鋁製散熱器,其底座保持在 76.85°C 的恆定溫度,周圍空氣保持在 16.85°C 的環境溫度。

 

與筆電上的 6 個 Intel® Core™ i7-11850H 內核相比,在配備一個 NVIDIA Quadro RTX 5000 GPU 的筆電上解決這個 512,000 個單元的情況,速度提高了 11 倍。

 

即使使用像 NVIDIA Quadro RTX 5000 這樣的單個筆電 GPU,您也可以使用 Fluent 中的原生多 GPU 求解器大幅縮短求解時間。在工作站中使用類似的顯卡時,可以期待更高的性能。


在一個 NVIDIA Quadro RTX 5000 GPU 上求解 512,000 個單元的散熱器模擬時,速度提高了 11 倍。

 

10. 通過 GPU 革新 CFD 模擬

Fluent 使用者現今具備有單個 GPU 的筆電或工作站上運行或擴展到多 GPU 服務器的能力和靈活性。利用您已經擁有的硬體來加速您的 CFD 模擬,速度超出您的想像。

Fluent 中的本機多 GPU 求解器可在 2016 年或更高版本的任何安裝了 CUDA 驅動程序 11.0 或更高版本的 NVIDIA 卡上運行。

Ansys 一直是使用 GPU 技術進行模擬的開拓者,通過這種新的求解器技術,我們將其提升到了一個全新的水平。原生 GPU 求解器中的所有求解器功能都使用與 Fluent CPU 求解器相同的離散化和數值方法構建,從而在比以往更短的時間內為使用者提供他們期望的準確結果。

 

本文轉載自 Ansys Inc.

 

延伸閱讀: 【2022R2 功能亮點】Ansys Fluent 新功能總覽 - 艾索科技

 

想了解更多 Ansys 軟體資訊,歡迎與我們聯繫 !

艾索科技股份有限公司 AISOL Technology

  • 電話:02-2500-6210
  • 郵件:info@aisol.com.tw 

 

回前頁