您好!歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站!
已投資訊 | 云知聲山海大模型再升級,成功躋身C-Eval 全球大模型綜合性考試評測榜單前十
發(fā)布時間:
2023-07-31 18:00
來源:
近日,山海大模型迎來新一輪迭代升級——在性能優(yōu)化方面,山海大模型不僅實現(xiàn)了學(xué)科和行業(yè)能力、推理能力的提升,更實現(xiàn)了吞吐效率、上下文窗口長度、模型參數(shù)融合方法的優(yōu)化;在效果提升方面,山海大模型反事實能力大幅提高,此外,在本月的C-Eval全球大模型綜合性考試評測中,山海大模型更是取得了60分以上的優(yōu)異成績,成功躋身榜單前十。
性能優(yōu)化
學(xué)科和行業(yè)能力升級
山海大模型在迭代過程中一直關(guān)注不同學(xué)科和行業(yè)知識的能力升級,目前已采集包括數(shù)學(xué)、物理、化學(xué)、生物、地理,歷史等多學(xué)科在內(nèi)的海量教材數(shù)據(jù)作為山海大模型底座模型的訓(xùn)練語料,與此同時,云知聲整合了其在車載、家居、金融、醫(yī)療等多個行業(yè)的數(shù)據(jù)積累,并以此為基礎(chǔ),在預(yù)訓(xùn)練階段和指令學(xué)習(xí)階段完成山海模型的迭代。
自洽性(self-consistency)方法提升推理能力
模型解碼通常使用貪心(Greedy Search)或者隨機(Sample)策略進行解碼。山海大模型參考了谷歌提出的一種名為自洽性方法(self-consistency)的簡單策略,不需要額外的人工注釋、訓(xùn)練、輔助模型或微調(diào),可直接用于大規(guī)模預(yù)訓(xùn)練模型。
盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴大模型規(guī)模不能解決這個問題?;诖?,思維提示鏈(chain of thought prompting)提示語言模型生成一系列短句,這些短句模仿一個人在解決推理任務(wù)時可能采用的推理過程。而自洽性方法能夠更好的融合思維提示鏈方法,使其更好的運用在解碼過程中。簡單來說,復(fù)雜的推理任務(wù)通常有多個能得到正確答案的推理路徑,自洽性方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。該方法能夠顯著提高了山海大模型的推理準(zhǔn)確率。
吞吐效率達到理論上限65%
處理長序列問題一直是擴展Transformer的難點,因為隨著輸入序列長度的增加,其核心注意力層的運行時間和內(nèi)存使用成二次增長。云知聲想要打破2K序列長度的限制,以便訓(xùn)練書籍、文獻、多輪對話等長文本內(nèi)容。當(dāng)前主要通過引入FlashAttention節(jié)約內(nèi)存,從而支持更長序列的模型訓(xùn)練。FlashAttention相較于標(biāo)準(zhǔn)Attention機制速度提升了2~4倍,內(nèi)存節(jié)約了1020倍,但還是相差實際設(shè)備的最大吞吐量的理論上線還很遠。為了進一步提升模型訓(xùn)練中計算的吞吐量,云知聲自研的UniScale集成了FlashAttention-2,增強了并行性和工作分區(qū)。實驗結(jié)果證明,F(xiàn)lashAttention-2在前向傳遞中實現(xiàn)了接近2倍的速度提升,達到了理論最大吞吐量的65%,在反向傳遞中達到了理論最大吞吐量的55%。這使得在每個A100 GPU上的訓(xùn)練速度可達到205 TFLOPs/s。
支持8K長度窗口
大型語言模型(LLM)通常會設(shè)定一個預(yù)設(shè)的上下文窗口長度,譬如,當(dāng)前主流開源模型的輸入不能超過2048個Token。但在很多應(yīng)用場景中,如長程對話、長文檔總結(jié)或長期規(guī)劃等,常常會超出這個上下文窗口的限制。在這些場景下,能夠處理更長上下文的LLM就顯得更為重要。然而,從零開始訓(xùn)練這樣的模型需要巨額的投入。這就引發(fā)了一個問題:我們是否可以對現(xiàn)有預(yù)訓(xùn)練LLM進行擴展,讓其涵蓋更長的上下文窗口呢?
參考了META的相關(guān)研究,云知聲本月引入位置插值方法(Position Interpolation),將當(dāng)前山海大模型的上下文窗口擴展到8K。其關(guān)鍵技術(shù)點是,云知聲并未進行延伸處理,而是直接調(diào)低位置指標(biāo),使得最大位置指標(biāo)與預(yù)訓(xùn)練階段的原先上下文窗口限制相對應(yīng)。
簡單來說,云知聲通過在相鄰整數(shù)位置間插值位置編碼,以容納更多的輸入標(biāo)記,而非像之前那樣在訓(xùn)練位置的外延部分進行外推,因為這有可能會導(dǎo)致極端的數(shù)值。云知聲利用了一個特性,即位置編碼可以應(yīng)用于非整數(shù)位置。
與此同時,通過對比測試不同窗口長度對信息抽取能力,結(jié)果顯示當(dāng)長度超過10k時,模型信息抽取能力有顯著的下降,云知聲也將在后續(xù)工作繼續(xù)迭代山海大模型的長文本理解能力。
模型參數(shù)融合(Ties-Merging)
云知聲使用了一種新的模型融合方法,旨在進行指令學(xué)習(xí)后對多個模型進行合并,并解決現(xiàn)有方法中存在的干擾問題。該方法通過三個步驟來合并模型:修剪參數(shù)、解決符號沖突和僅合并與最終協(xié)商符號一致的參數(shù)。實驗結(jié)果表明,模型參數(shù)融合方法(TIES-MERGING)在各種設(shè)置下都優(yōu)于現(xiàn)有的合并方法。
效果提升
C-Eval超過60分
C-Eval是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集,包含13948道多項選擇題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計算機等52個不同學(xué)科和四個難度級別,是全球最具影響力的綜合性考試評測集之一。
評測顯示,云知聲的山海大模型平均分為60.3分,躋身榜單前十,在參與評測的大模型中排名第七,充分印證了其在學(xué)科和行業(yè)領(lǐng)域應(yīng)答能力上的突破。
反事實能力提升
用戶在使用大模型時,經(jīng)常會出現(xiàn)一種情況,就是故意設(shè)計一些復(fù)雜的陷阱問題,以測試大模型的應(yīng)答能力。這些問題通常是一些對大模型來說較難理解的問題,使得其在運算過程中陷入邏輯混亂,從而引發(fā)幻覺現(xiàn)象。例如,用戶測試大模型的問題是:豬為什么會飛?而事實上,豬根本不會飛,這種反常識的問題通常會讓大模型產(chǎn)生混亂。
對此,山海大模型團隊使用了Evol-Instruct技術(shù),生成了大量的反事實類問題。這些問題上設(shè)計精巧,通過巧妙地設(shè)置陷阱,使得大模型具備應(yīng)對各方面陷阱的能力。同時,大模型還使用了人類反饋的強化學(xué)習(xí)算法,這是一種在模型訓(xùn)練過程中,根據(jù)人類反饋和指導(dǎo)進行學(xué)習(xí)的方法。這種方式,讓大模型能夠更好地理解人類的意圖,從而在回答問題時,更加符合人類的邏輯思維。經(jīng)過了大量的訓(xùn)練和優(yōu)化,山海大模型在處理這類陷阱問題時,表現(xiàn)出了更好的應(yīng)對能力,結(jié)果展示如下:
從5月24日正式發(fā)布以來,山海大模型始終保持加速演進,在一次次迭代升級下,持續(xù)構(gòu)建長期競爭力與創(chuàng)新基石,致力為大模型的場景落地帶來范式革新。
目前,云知聲正依托山海大模型技術(shù)能力的加速迭代,逐步深入到智慧醫(yī)療、智慧教育、知識管理、智慧營銷、智能客服、智慧車載、智慧軌交等具體場景,不斷釋放AGI的更多可能。
作為一個具備語言生成、語言理解、知識問答、邏輯推理等十項核心能力的通用大模型,山海大模型通用能力表現(xiàn)頗佳的同時,在專業(yè)領(lǐng)域更是表現(xiàn)出眾。自5月24日發(fā)布以來,山海大模型通過語料的不斷迭代升級,專業(yè)能力持續(xù)突破。其中,其醫(yī)療能力在上個月的MedQA任務(wù)上提升到了87.1%,超越Med-PaLM 2,臨床執(zhí)業(yè)醫(yī)師資格考試提升至523(總分600分),超過了99%的考生水平。憑借山海在醫(yī)療領(lǐng)域的技術(shù)實力與場景落地能力,云知聲更是接連獲得北京市首批人工智能行業(yè)大模型應(yīng)用案例、2023北京人工智能行業(yè)賦能典型案例等榮譽獎項,表現(xiàn)出不俗的專業(yè)實力。
每一次山海的技術(shù)升級,都標(biāo)志著云知聲在推動場景智慧化道路的重大進步。讓我們期待并共同見證,山海大模型的下一個飛躍。