国产成人无码aa精品一区19,国内精品久久久久野战,四虎国产精品亚洲一区久久,国产成人无码aa精品一区19 ,国产成人一区二区视频免费,玖玖草在线观看一区二区三区,亚洲线精品一区二区三区,97久久精品一区二区少妇,亚洲精品麻豆一区二区

<span id="a5dqi"><i id="a5dqi"></i></span>

<ol id="a5dqi"><optgroup id="a5dqi"></optgroup></ol>

<rp id="a5dqi"><address id="a5dqi"></address></rp><mark id="a5dqi"><acronym id="a5dqi"></acronym></mark>

當前位置: 當前位置：首頁 > 熱點 > 11月中文大模型基準測評出爐：GPT 5.1奪冠、DeepSeek開源第一正文

11月中文大模型基準測評出爐：GPT 5.1奪冠、DeepSeek開源第一

2025-12-18 11:51:16 來源：企業錄(www.955ce.com)-公司信息發布,網上買賣交易門戶作者：百科點擊:677次

11月28日消息，月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型

本次測評圍繞數學推理、基準科學推理、測評出爐代碼生成（含web開發）、月中源第幻覺控制、模型精確指令遵循五大核心任務展開，基準題目總量為822道新題，測評出爐最終得分取各任務平均分。月中源第

本次共測評27個國內外大模型同臺競技，模型OpenAI的基準GPT 5.1與國產模型DeepSeek分別斬獲綜合冠軍與開源領域第一。

OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂，成為本月綜合表現最佳的月中源第大模型。

GPT-5.1 在數學推理（74.07）、模型代碼生成（76.30）等項表現突出，基準幻覺控制得分 88.80，展現出強穩定性。

Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后，其幻覺控制得分高達90.33，在該項能力上領跑。

而在開源模型中，深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。

作者:娛樂

------分隔線----------------------------

頭條新聞

SpaceX通知員工進入IPO前靜默期：禁止就上市計劃進行任何宣傳
中關村科金發布“3+2+2”全棧產品矩陣定義企業級智能體落地新標準
中新健康丨“換湯不換藥”不是真創新 “4不改”藥品難進醫保目錄
核心指標引領全球中國企業首次開放1公里氣象融合數據
野豬闖入高速致越野車嚴重損毀法院判了：高速管理方全責賠7萬
飛來匯再度榮獲“2025產業互聯網千峰獎” 以數智創新引領產業出海
霸氣！長江存儲公開起訴美國商務部等不該被列入實體名單
全球限量10000套《賽博朋克2077》攜手VITURE推出五周年定制XR眼鏡
IGN給出10分滿分！完美復刻有史以來最暢銷PC主機
巴西學者：我在中國生活很舒服、很安全，期待巴中深化合作丨世界觀

圖片新聞

新聞排行榜

友情鏈接

油價年內第七漲機構稱新一輪存下調預期

醉駕后被吊銷駕照花11萬辦假證！男子：對方說是真的

訊飛聽見升級 “更懂你的AI” 會議紀要可溯源解鎖辦公新體驗