9月2日,中文大模型測評基準SuperCLUE發(fā)布《中文大模型基準測評2024年8月報告》,騰訊混元大模型憑借在多個核心任務上的出色表現(xiàn),總得分居國內大模型第一名,成為榜單中進步最快的模型之一。
據(jù)SuperCLUE報告,在11個能力項的測評中,騰訊混元在其中 8 項核心任務上排名國內第一,綜合來看,“騰訊混元整體能力不俗,是一個非常有競爭力的通用大模型。”
?
SuperCLUE本次測評的是騰訊混元新一代大語言模型預覽版(Turbo-Preview),模型采用全新的混合專家模型(MoE)結構,從訓練數(shù)據(jù)、模型架構、訓練策略、訓練框架和軟硬件體系等方面實現(xiàn)了全鏈路自研,模型一方面在性能上實現(xiàn)大幅提升,另一方面也實現(xiàn)了推理成本的顯著下降,有著較大的應用潛力。
作為獨立的第三方中文大模型基準測評機構,SuperCLUE本次8月報告聚焦通用能力測評,測評方案由理科、文科和Hard三大維度構成。具體來看,理科能力包括計算、邏輯推理和代碼能力;文科任務覆蓋知識百科、語言理解、長文本、角色扮演、生成與創(chuàng)作、安全和工具使用七大維度;Hard任務則側重精確指令遵循以及復雜任務高階推理。
作為國內成績最好的模型,騰訊混元在理科、文科均居于第一名。Hard任務上騰訊混元表現(xiàn)出色,取得74.33分,是國內唯一超過70分的大模型,僅與ChatGPT-4o有微小差距。
?
值得注意的是,隨著大模型行業(yè)的蓬勃發(fā)展,以騰訊混元為代表的國產(chǎn)大模型正在加速進化,能力升級速度不斷加快。測評報告數(shù)據(jù)顯示,總體趨勢上,國內第一名的大模型在中文領域的通用能力與國外領先模型差距持續(xù)縮小,從2023年5月的 30.12% 的縮小至 2024 年8月的1.29%,總分上僅有 1 分左右的微小差距。
?
自2023年9月正式亮相以來,騰訊混元通過在國內率先采用MoE結構,模型已擴展為萬億參數(shù)規(guī)模,總體性能不斷升級,除了通用能力和文生文,在文生圖、圖生文以及視頻生成等多模態(tài)能力上也有比較突出的表現(xiàn)。在此前發(fā)布的中文多模態(tài)大模型SuperCLUE-V基準榜單中,騰訊混元大模型憑借在多模態(tài)理解方面的卓越表現(xiàn),國內大模型排名第一,穩(wěn)居卓越領導者象限。
基于領先的模型能力積累,騰訊混元大模型正在積極推進應用落地,讓大模型創(chuàng)造更多價值。目前騰訊內部近700個業(yè)務及場景已接入,包含騰訊元寶、騰訊云、QQ、微信讀書、騰訊新聞、騰訊客服等。此前,騰訊旗下協(xié)作SaaS(軟件即服務)產(chǎn)品全面接入騰訊混元大模型。
騰訊混元大模型在騰訊云上提供了多種尺寸的模型服務,通過API、專屬模型、精調模型等接入和使用方式面向企業(yè)及個人開發(fā)者全量開放。目前,騰訊混元的云上版本包括Turbo-Preview、Pro、Standard、Lite等多個版本;在專屬模型上開放了代碼生成、角色扮演、Functioncall等;企業(yè)也可以通過騰訊云TI平臺對騰訊混元進行精調。
基于多年深耕產(chǎn)業(yè)互聯(lián)網(wǎng)經(jīng)驗和積累,騰訊云已聯(lián)合行業(yè)頭部企業(yè),為20+行業(yè)輸出了超過50個解決方案,提供一整套模型服務工具鏈,幫助企業(yè)高效率、高品質、低成本地創(chuàng)建和部署AI應用。