螞蟻數科登頂國際權威BIRD榜單刷新中國公司最好成績

來源：中國日報網 2025-09-26 16:46

來源：

中國日報網

2025-09-26 16:46　

分享到

分享到微信

9月26日，據全球權威評測基準BIRD-Bech官網，螞蟻數科的數據分析智能體Agentar-SQL超越AT&T（美國電話電報公司）、谷歌云、騰訊云、阿里云等諸多國內外廠商，位居全球第一。這也是中國公司在該榜單上取得的最高成績。

BIRD-Bench是公認的全球最具權威性的自然語言轉SQL評測基準，要求AI大模型將自然語言查詢轉換為結構化查詢語言（SQL），并且在真實復雜的大規模生產級數據庫中穩定執行。BIRD--Bench數據集覆蓋金融、電力、醫療等37個行業場景，總量33GB，包含超過1萬條高復雜度查詢任務，是全球頂級AI團隊展示技術實力的權威平臺。

值得一提的是，螞蟻數科Agentar-SQL在BIRD榜單的執行準確率排行榜（81.67分）以及執行效率榜上（77分）上均取得第一的成績。這意味著螞蟻數科在智能問數領域的技術創新實現全球領先。

據介紹，Agentar-SQL智能體基于螞蟻數科的SQL大模型Agentar-Scale-SQL構建，旨在讓用戶可以通過自然語言輕松完成復雜的數據查詢任務。它通過GSPO（組序列策略優化）強化學習訓練方法，能夠增強SQL內在推理，讓大模型在推理階段，深度思考SQL框架，避免潛在的邏輯錯誤，提升SQL邏輯準確性；此外，Agentar-SQL具備多輪反思修正的能力，讓模型對生成的SQL進行多輪次的審視和修正，提升SQL語言的精準性；Agentar-SQL還通過獨創的兩階段生成法，讓大模型生成多個SQL候選，再對SQL進行兩兩PK的“錦標賽”，篩選出最優的SQL。

螞蟻數科持續深耕AI大模型技術與應用，此前其自研的金融推理大模型Agentar-Fin-R1，在多項主流金融基準測試實現領先。專為新能源行業定制的能源電力垂類時序大模型在行業評測集上的發電量預測準確率超越谷歌（TimesFM-V2.0）、亞馬遜（Chronos-Large）等行業主流的通用時序模型。

以上內容為推廣信息，所涉及內容不代表本網觀點，不構成投資建議、消費建議。

關于我們 | 聯系我們

首頁
時評
資訊
財經
生活
視頻
專欄
漫畫
獨家
招聘

中國日報網版權說明：凡注明來源為“中國日報網：XXX（署名）”，除與中國日報網簽署內容授權協議的網站外，其他任何網站或單位未經允許禁止轉載、使用，違者必究。如需使用，請與010-84883777聯系；凡本網注明“來源：XXX（非中國日報網）”的作品，均轉載自其它媒體，目的在于傳播更多信息，其他媒體如需轉載，請與稿件來源方聯系，如產生任何問題與本網無關。

版權保護：本網登載的內容（包括文字、圖片、多媒體資訊等）版權屬中國日報網（中報國際文化傳媒（北京）有限公司）獨家所有使用。未經中國日報網事先協議授權，禁止轉載使用。給中國日報網提意見：rx@chinadaily.com.cn

首頁
時評
資訊
財經
文化
漫畫
視頻
地方

中文 | English

螞蟻數科登頂國際權威BIRD榜單 刷新中國公司最好成績

螞蟻數科登頂國際權威BIRD榜單刷新中國公司最好成績