會上,中國移動研究院聯(lián)合北京郵電大學(xué)、中國科學(xué)院計算技術(shù)研究所、北京市科學(xué)技術(shù)研究院、科大訊飛、百度、武漢大學(xué)和重慶理工大學(xué)等知名高校、科研機(jī)構(gòu)和頭部企業(yè)聯(lián)合發(fā)布了《“弈衡”通用大模型評測體系白皮書》。該白皮書是行業(yè)中首個大模型評測領(lǐng)域白皮書,基于客觀全面、公平公正和用戶視角的三大原則,創(chuàng)新性地提出了“2-4-6”的“弈衡”通用大模型評測體系。該體系將評估場景劃分為基礎(chǔ)任務(wù)和應(yīng)用任務(wù),明確四項主要評測要素,并制定涵蓋六大維度的50余個評測指標(biāo)。“弈衡”評測體系可對國內(nèi)外大模型開展有效評測分析,充分揭示大模型在應(yīng)用中的固有問題,客觀反映各模型在準(zhǔn)確性、可靠性以及安全性等方面的差異,為大模型的評測實踐和產(chǎn)業(yè)應(yīng)用提供指導(dǎo)。
來自中國移動、北京郵電大學(xué)、中國科學(xué)院計算技術(shù)研究所、信通院、科大訊飛、百度等多家單位的領(lǐng)導(dǎo)和專家,圍繞運(yùn)營商大模型發(fā)展思路、CV大模型前沿技術(shù)、國內(nèi)優(yōu)秀大模型發(fā)展?fàn)顩r、大模型基礎(chǔ)設(shè)施和生態(tài)、行業(yè)評測標(biāo)準(zhǔn)等主題,在會上發(fā)表了精彩演講,為推動大模型技術(shù)發(fā)展奉獻(xiàn)了一場知識盛宴,引起了線上線下與會觀眾的熱烈反響。
此外,會上正式成立CCIR大模型評測工作組,并發(fā)布“2023 CCIR全國信息檢索挑戰(zhàn)杯”中國移動賽道賽題。