如今,人工智能正進入一個前所未有的新時代,以大模型為代表的人工智能技術,正在各行各業(yè)加速落地,各種應用場景層出不窮。但與此同時,人工智能技術的持續(xù)進化和深度應用,以及大模型的遍地開花,也激發(fā)出對智能算力的強勁要求。
今年9月發(fā)布的《中國綜合算力指數(shù)報告(2024)》顯示,中國算力規(guī)模位居世界第二;其中,智能算力快速增長,同比增速超過65%。從2003年到2023年,智能算力需求的增長超過百億倍,構成了算力增長的最主要驅動力。在這一趨勢下,如何設計支持大模型訓練的計算系統(tǒng),如何構建自主創(chuàng)新的軟件生態(tài),已經(jīng)成為推動人工智能大模型創(chuàng)新發(fā)展的“必答題”。
在日前召開的華為數(shù)字中國行2024·安徽新質生產(chǎn)力創(chuàng)新峰會上,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民在“支持人工智能大模型的系統(tǒng)軟件”的主題演講中表示,算力是大模型產(chǎn)業(yè)的主要開銷,在構建支持大模型訓練的計算系統(tǒng)過程中,想要持續(xù)提升自主創(chuàng)新AI生態(tài)系統(tǒng),就需要做好系統(tǒng)設計和相關軟件優(yōu)化。
其中,設計大模型計算系統(tǒng)需要考慮5個問題,包括多種精度運算性能的平衡、網(wǎng)絡平衡設計、內存平衡設計、IO子系統(tǒng)平衡設計、自主創(chuàng)新AI計算系統(tǒng);而構建自主創(chuàng)新軟件生態(tài)則需要做好10件事情,包括編程框架、并行加速、通信庫、算子庫、AI編譯器,編程語言,以及調度器、內存分配、容錯系統(tǒng)、存儲系統(tǒng)等。
進入大模型時代
算力成本居高不下
縱觀整個2024年的人工智能領域,“人工智能+”行動持續(xù)推進,“百模大戰(zhàn)”仍在繼續(xù)。與此同時,大模型正加速走向落地應用,不僅在垂直領域持續(xù)走深,其應用場景也逐步走向多樣化。正如鄭緯民所說,人工智能已進入大模型時代。
同時,鄭緯民也從技術和應用層面對大模型的發(fā)展進行了分析:一方面,AI基礎大模型正在從單模態(tài)向多模態(tài)發(fā)展。比如,在文本交互方面,ChatGPT實現(xiàn)真正像人類一樣來聊天交流;在圖像創(chuàng)作方面,Midjourney AIGC畫作《太空歌劇院》獲得人類藝術比賽冠軍;在視頻生成方面,I2VGen-XL可以在用戶上傳1張圖后2分鐘生成高清視頻。
另一方面,各行各業(yè)與AI的深度融合,正在加速行業(yè)智能化升級,創(chuàng)造更大價值。比如,在金融行業(yè),在過去一年里,華為與領先金融機構深入合作,共同落地了超過100個AI智能場景,正在以大模型重塑金融的應用、終端交互及業(yè)務模式;在制造行業(yè),華為工業(yè)AI質檢解決方案可全面覆蓋工業(yè)領域行為規(guī)范性檢測、缺陷檢測、定位、測量等場景,識別準確度達到98.5%以上。
不過,大模型的快速發(fā)展和深度應用,也給算力帶來了新需求和新挑戰(zhàn)。對此,鄭緯民從大模型生命周期的五個環(huán)節(jié)入手,即數(shù)據(jù)獲取、數(shù)據(jù)預處理、模型訓練、模型微調和模型推理,進行了具體闡述。
在數(shù)據(jù)獲取階段,在獲取不同類型的原始數(shù)據(jù)并存儲的過程中,海量小文件存儲對文件系統(tǒng)提出新需求;在數(shù)據(jù)預處理階段,在隨機讀取訓練樣本進行預處理大數(shù)據(jù)過程中,頻繁、隨機小樣本讀取會對文件系統(tǒng)提出挑戰(zhàn);在模型訓練階段,大量數(shù)據(jù)經(jīng)過模型需要海量算力;在模型微調階段,精調垂域模型需要可控算力;在模型推理階段,實時處理用戶請求需要穩(wěn)定可靠算力。
鄭緯民表示,算力是大模型產(chǎn)業(yè)的主要開銷。比如,在模型訓練成本中,算力約占70%,數(shù)據(jù)占20%,人力僅占10%;而在推理階段,算力成本更是高達95%,人工智能產(chǎn)業(yè)算力成本居高不下。
設計大模型計算系統(tǒng)
需要考慮5個問題
目前,由于國外對人工智能的限制,自主創(chuàng)新AI系統(tǒng)和基于超級計算機的系統(tǒng)仍需優(yōu)化,我國要構建支持大模型訓練的計算系統(tǒng)仍面臨不小的難題。針對這一狀況,華為已經(jīng)基于昇騰打造出面向“端、邊、云”的全場景AI基礎設施方案,覆蓋深度學習領域推理和訓練全流程,全方位支持大模型訓練。在此基礎上,鄭緯民表示,要持續(xù)提升自主創(chuàng)新AI生態(tài)系統(tǒng),需要做好系統(tǒng)設計和相關軟件優(yōu)化。其中,設計大模型計算系統(tǒng)需要考慮以下5個問題:
第一,多種精度運算性能的平衡。根據(jù)科學計算(AI For Science)和大模型訓練的發(fā)展趨勢,變精度平衡設計可以更好地適應科學計算和更廣泛的AI算法和應用需求;不過,在設計中不僅要考慮半精度運算性能,還要考慮雙精度運算能力,雙精度與半精度運算性能之比為1:50~1:100比較合適。
第二,網(wǎng)絡平衡設計。網(wǎng)絡設計不能針對CNN算法,還需考慮極大規(guī)模預訓練模型對系統(tǒng)的需求;而大規(guī)模預訓練模型需要高帶寬低延遲網(wǎng)絡,并支持數(shù)據(jù)并行、模型并行和專家并行模式。
第三,內存平衡設計。一方面,訪問內存的請求使網(wǎng)絡擁塞,降低吞吐量,反映到應用程序上表現(xiàn)為訪存性能顯著下降,負載不均;另一方面,多個訪問內存的請求可能訪問同一存控對應的內存空間,負載不均,存控需要順序處理訪存請求。
第四,IO子系統(tǒng)平衡設計。過去,在高性能機器應用時,為了避免訓練不被中斷,通常采用增加檢查點的方法。比如,如果預期系統(tǒng)平均三小時出現(xiàn)一次錯誤,那么就在2.5小時左右主動停止訓練,并保存訓練結果。此外,還有一種辦法就是增加SSD,系統(tǒng)的本地NVMe SSD僅通過本地文件系統(tǒng)訪問限制了其應用范圍,可將每臺服務器上的本地NVMe整合成應用可見的全局分布式文件系統(tǒng)。
第五,如果采用自主創(chuàng)新AI計算系統(tǒng),還需要做好10件事:包括編程框架、并行加速、通信庫、算子庫、AI 編譯器、編程語言;以及其它支撐軟件,如調度器、內存分配、容錯系統(tǒng)、存儲系統(tǒng)等。
自主創(chuàng)新軟件生態(tài)
需要做好的10件事
在大模型計算系統(tǒng)中,算力性能的發(fā)揮不僅取決于硬件,更依賴于配套的軟件生態(tài)。軟件生態(tài)包括操作系統(tǒng)、編程框架、庫、工具鏈等,它們共同構成了AI算力的“軟實力”。以華為為例,通過推出異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能MindX和一站式開發(fā)平臺ModelArts等,華為不僅構建起日趨完善的昇騰計算軟件體系,也在昇騰計算產(chǎn)業(yè)生態(tài)上取得了全面進展。
在此基礎上,鄭緯民表示,要改善自主創(chuàng)新軟件生態(tài),需要做好以下10件事情。
第一是編程框架,應降低編寫人工智能模型的復雜度,利用基本算子快速構建人工智能模型,如PyTorch、昇思MindSpore、TensorFlow。其中,全場景AI框架昇思MindSpore全場景AI框架昇思MindSpore具備一次開發(fā)云邊端全場景部署、原生支持大模型訓練、支持AI+科學計算等關鍵特性,可加速科研創(chuàng)新和產(chǎn)業(yè)應用。
第二是并行加速,為多機多卡環(huán)境提供人工智能模型并行訓練的能力,支持數(shù)據(jù)并行、模型并行、流水線并行、張量并行等,如微軟的DeepSpeed、昇騰MindSpeed、英偉達Megatron-LM。其中,昇騰MindSpeed是專為昇騰設備設計的大模型加速庫,旨在突破大模型訓練中的顯存資源瓶頸,并加速訓練過程。
第三是通信庫,要提供跨機跨卡的通信能力,能夠支持人工智能模型訓練所需各種通信模式,能根據(jù)底層網(wǎng)絡特點充分利用網(wǎng)絡通信帶寬,如英偉達的NCCL庫、昇騰HCCL庫、超算普遍支持的MPI通信庫。其中,昇騰HCCL庫作為基于昇騰計算的高性能集合通信庫,可提供單機多卡以及多機多卡間的集合通信能力,支持大模型的數(shù)據(jù)并行、模型并行、專家并行、pipeline并行、序列并行等多種加速方案。
第四是算子庫,要提供人工智能模型所需基本操作的高性能實現(xiàn),能夠盡可能覆蓋典型人工智能模型所需的操作,能充分發(fā)揮底層硬件的性能,如英偉達cuDNN、cnBLAS、昇騰ACLNN。
第五是AI編譯器,可在異構處理器上對人工智能程序生成高效的目標代碼;對算子庫不能提供的操作,通過AI編譯器自動生成高效目標代碼,如XLA、TVM、畢昇編譯器。其中,畢昇編譯器作為華為提供的一款高性能、高可信及易擴展的編譯器工具鏈,可提供深度優(yōu)化的編譯技術、增強多核并行化、自動矢量化等,大幅提升指令和數(shù)據(jù)呑吐量。
第六是編程語言,要提供異構處理器上編寫并行程序的支持;要覆蓋底層硬件功能,發(fā)揮硬件性能;能夠編寫人工智能模型的基本算子(Operator),如英偉達的CUDA、華為的CANN Ascend C、Intel的oneAPI。其中,異構計算架構CANN可向上支持多種AI框架,向下服務AI處理器與編程;并針對多樣化應用場景,提供多層次編程接口,支持用戶快速構建基于昇騰平臺的AI應用和業(yè)務。而Ascend C算子開發(fā)語言是CANN針對算子開發(fā)場景推出的編程語言,原生支持C/C++編程規(guī)范,可極大提高算子開發(fā)效率,助力AI開發(fā)者低成本完成算子開發(fā)和模型調優(yōu)部署。
第七是調度器,需提供在大規(guī)模系統(tǒng)上高效調度人工智能任務的能力;同時設計高效調度算法,提高集群資源利用率,如Kubernetes(K8S)、華為ModelArts等。其中,ModelArts是華為云提供的一站式AI開發(fā)平臺,可提供海量數(shù)據(jù)預處理及半自動化標注、大規(guī)模分布式訓練、自動化模型生成及端-邊-云模型按需部署能力,幫助用戶快速創(chuàng)建和部署模型,管理全周期AI工作流。
第八是內存分配系統(tǒng),可針對人工智能應用特點提供高效的內存分配策略。
第九是容錯系統(tǒng),用來提供在硬件發(fā)生故障后快速恢復模型訓練的能力。
第十是存儲系統(tǒng),需支持訓練過程中高效的數(shù)據(jù)讀寫(檢查點、訓練數(shù)據(jù)等)。
不過,自主創(chuàng)新軟件生態(tài)的建設是一個長期而復雜的過程,需要企業(yè)、政府和開發(fā)者社區(qū)的共同努力。如今,在生態(tài)建設上,華為已經(jīng)取得了長足進展,不僅包括整機硬件伙伴、IHV硬件伙伴、應用軟件伙伴、一體機解決方案伙伴以及生態(tài)運營伙伴等,還包括服務類伙伴、人才聯(lián)盟伙伴、投融資運營伙伴等,以及眾多高校和開發(fā)者。由此,華為也將攜手生態(tài)伙伴共同推動大模型計算系統(tǒng)的建設,進而加速AI技術的創(chuàng)新和應用未來,正如鄭緯民所說:“大模型計算系統(tǒng)平衡設計的5點考慮做得好,別人要用1萬塊卡,我們用9000卡就可以了。把10件事情做好,大模型計算系統(tǒng)就能做得很好。”
“數(shù)智世界 一觸即達” 選擇華為,讓您的企業(yè)輕松數(shù)智化。
免責聲明:以上內容為本網(wǎng)站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內容的真實性。如稿件版權單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
互聯(lián)網(wǎng)新聞信息服務許可證10120230012 信息網(wǎng)絡傳播視聽節(jié)目許可證0121673 增值電信業(yè)務經(jīng)營許可證京B2-20171219 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10250號
關于我們 中宏網(wǎng)動態(tài) 廣告服務 中宏網(wǎng)版權所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2024 by qmsqmyp.com. all rights reserved 運營管理:國家發(fā)展和改革委員會宏觀經(jīng)濟雜志社