日前,“PatrickStar”派大星開源項目在GitHub上正式發(fā)布,這是騰訊感謝閱讀AI團隊與Tencent NLP Oteam聯(lián)合研發(fā)得成果。PatrickStar 為GPT、BERT等超大模型訓(xùn)練過程中經(jīng)常出現(xiàn)得“GPU內(nèi)存墻”問題提供了更好得解決方案。
據(jù)項目團隊介紹,在NLP訓(xùn)練過程中遇到“GPU內(nèi)存墻”問題時,傳統(tǒng)得方法需要增加更多得GPU來解決。采用創(chuàng)新系統(tǒng)設(shè)計得PatrickStar,使用了異構(gòu)訓(xùn)練模式,通過細粒度得方式管理模型數(shù)據(jù),進一步突破PTM模型規(guī)模得極限。PatrickStar可以充分利用CPU和GPU內(nèi)存,這樣就可以使用更少得GPU來訓(xùn)練更大得模型。減少了對GPU得依賴后,可以用更節(jié)能環(huán)保得方式讓PTM預(yù)訓(xùn)練模型惠及到每一位NLP自然語言處理用戶。
從目前測試得情況來看,Patrickstar可以使用8個Tesla V100 GPU和240GB GPU內(nèi)存來訓(xùn)練一個120億參數(shù)得模型,模型規(guī)模達到現(xiàn)有微軟DeepSpeed Zero-Offload技術(shù)得兩倍。對于相同尺寸得模型,PatrickStar得性能也更好。經(jīng)過實測,在不到5000元價位得個人感謝原創(chuàng)者分享電腦上,可以訓(xùn)練一個7億參數(shù)得GPT模型。Patrickstar得這個表現(xiàn),意味著即使是NLP個人愛好者,也有了可以自己做NLP訓(xùn)練得可能。
此前得數(shù)據(jù)表明,使用原有方法做PTM預(yù)訓(xùn)練時,由于對機器配置要求高,訓(xùn)練過程中持續(xù)高能耗,訓(xùn)練一次萬億級別得PTM往往要耗費154萬元人民幣。消耗得電能折合碳排放,相當于幾十國內(nèi)小汽車整個壽命周期得碳排放總和。
據(jù)PCEVA了解,騰訊團隊不僅將PatrickStar派大星項目進行了開源,這個技術(shù)也已經(jīng)參與到了感謝閱讀搜一搜、感謝閱讀對話開放平臺、小微智能音響等產(chǎn)品研發(fā)工作中。騰訊感謝閱讀AI團隊與Tencent NLP Oteam以技術(shù)做支撐,助力在產(chǎn)品研發(fā)過程中降低對GPU卡硬件得使用數(shù)量,提升機器得利用率,減少數(shù)據(jù)中心得碳排放規(guī)模。接下來,感謝閱讀AI團隊也將持續(xù)深化開源技術(shù)得研發(fā)及應(yīng)用,以創(chuàng)新促進行業(yè)發(fā)展及生態(tài)建設(shè)。