国产精品久久久久久无毒偷食禁果,日韩高清不卡一区二区三区,av在线一二三区,爽好久久久欧美精电影,性色av一区二区三区免费观看,精品一区二区三区四区av,久久久久久久国产精品免费播放,久久精品不卡
  • 西安

    AI攻克物理奧賽!王夢迪團隊打造Physics Supernova智能體,超過人類金牌選手平均分

    時間:2025-09-21 04:03:04  作者:澤_neKY   來源:西安  查看:  評論:0
    內容摘要:  新華社杜尚別9月14日電 通訊|“人

    在學科競賽領域,物理因題目復雜、推理強度高而長期被認為是人工智能(AI)最難攻克的挑戰之一。與語言類任務相比,物理問題往往涉及圖像識別、單位換算、公式推導和近似計算等多重環節,更考驗系統是否具備對現實世界的理解與建模能力。

    隨著 AI 日益深入現實世界,并不斷邁向通用人工智能(AGI)乃至超級人工智能(ASI),能否通過物理抽象理解世界、解決問題,正在成為打造高水平智能系統的關鍵。

    在今年舉行的 2025 年國際物理奧林匹克競賽中,一個名為Physics Supernova的 AI 系統交出了令人矚目的成績單:在 3 道理論題測試中,共獲得 23.5 分(滿分 30 分),在所有 406 名參賽選手中排名第 14,且在三道題目中均進入人類前 10%,超過了人類金牌選手的平均得分。

    該系統由普林斯頓大學王夢迪教授團隊及其合作者共同打造,兩位第一作者分別為普林斯頓大學博士 Jiahao Qiu和清華姚班大四本科生史景喆(在 2021 年國際物理奧林匹克競賽中獲得金牌,全球排名第十)。

    論文鏈接:

    https://arxiv.org/abs/2509.01659

    不同于依賴題庫的傳統方式,Physics Supernova 通過圖像分析、答案復核等工具模塊,結合 LLM 的推理能力,實現了從題目理解到建模計算的完整過程。這一結果顯示,合理集成工具的 Agent 架構,能夠顯著提升 AI 在復雜科學問題上的推理與解題能力,其表現已逼近人類頂尖選手,為 AI 在科學探索領域開辟了新的可能性。

    業內專家指出,這一成績不僅顯示了AI 在物理解題上的突破性進展,也意味著其在科學推理領域的應用邊界正在被重新定義。

    靠工具,AI 也能像物理學家一樣解題

    Physics Supernova 是一個專為解決復雜物理理論問題設計的 AI Agent 系統,基于 smolagents 框架,并采用 CodeAgent 架構。

    與數學解題中常見的固定、手工編碼的工作流不同,該系統強調具備靈活自我規劃的能力,能夠根據當前的解題進展,動態調用不同的工具。

    圖|Physics Supernova 的架構與示例推理軌跡

    研究團隊為該系統配置了兩個面向物理問題的專用工具:圖像分析器(ImageAnalyzer)與答案復查器(AnswerReviewer)。

    對于物理學家而言,解讀實驗結果、從圖像中提取關鍵數據是十分重要能力。在部分物理奧賽題中,這甚至是解題過程的核心環節。然而,目前的 LLM 在圖表、圖像與示意圖等視覺數據的精確測量方面仍存在不足。ImageAnalyzer 則會將高分辨率圖像傳遞給專用的視覺語言模型,以執行精確的數值讀取與測量任務。

    在實際解題中,物理學家也會持續評估自己的理論結果是否具有物理意義,這包括判斷結果是否具有符合預期的物理屬性,或是否違反基本物理原理。AnswerReviewer 被用于在解題過程中識別錯誤類型并定位錯誤表達,從而提升系統的自我校正能力。

    為研究各類工具對最終得分的影響,研究團隊測試了多種工具組合。結果顯示,在大多數問題中(尤其是非簡單題),移除 AnswerReviewer 會導致性能顯著下降。而將圖像處理任務交由 ImageAnalyzer 執行,則能夠有效提升整體得分。

    圖|ImageAnalyzer 工具對理論題第1題C部分的影響

    此外,他們還為 Physics Supernova 接入了一個用于專業領域知識的問答工具——WolframAlpha ,它是一款能夠提供科學問題準確解答的計算型知識引擎,有助于提升系統在應對專業領域知識時的表現。

    金牌不是終點,AI 物理系統的下一站

    實驗是物理研究的基礎。研究團隊指出,該項研究主要聚焦于 IPhO 2025 的理論題,未涉及基于儀器的實驗題,部分原因在于實驗儀器資源受限。

    他們希望,隨著機器人技術的發展,未來基于 LLM 的 AI Agent 有望具備執行實驗題的能力。相較于實體儀器操作,程序化實驗能夠模擬更復雜、更高級的實驗過程?;诔绦虻膶嶒灴荚?,有可能將評估重點從操控儀器的能力轉向理解和運用物理的能力。

    從長遠來看,基于儀器的實驗評估同樣也不可或缺。這類實驗更貼近現實科研情境,能夠更有效地衡量 AI 系統的機器人能力,并評估其在極端或非預期條件下的表現。

    除此之外,他們使用答案復查工具來驗證推導過程。該工具完全基于自然語言運行。在數學領域,自動化驗證已經取得了顯著進展,LLM 可生成可驗證的 Lean 格式證明。然而,從自然語言問題出發,推導物理公式并進行自動驗證,目前尚無可靠的技術路徑。這仍是一個有待深入研究的方向。

    研究團隊表示,未來值得探索的方向應包括:構建能驗證公式、物理表達與直觀推理之間抽象轉換的方法;建立更加嚴格、可驗證的物理計算體系;借助具備更廣泛、更深入物理知識的工具,增強答案復查系統的能力。

    總之,研究團隊建議,未來關于 AI 物理解題系統的工作,應繼續拓展其在程序實驗或儀器實驗方面的能力,同時增強其生成可驗證、可信賴物理解答的能力。

    展望未來,這類系統有望進一步發展,成為能夠嵌入現實世界并執行復雜物理任務的高級智能體。

    整理:小羊

    如需轉載或投稿,請直接在公眾號內留言

    {loop type="arclist" row=1 }{$vo.title} 主站蜘蛛池模板: 欧美午夜羞羞羞免费视频app| 免费久久99精品国产婷婷六月 | 中文字幕在线播放一区| 麻豆国产一区二区三区| 91日韩一区二区三区| 国产一区二区三级| 午夜影院一级| 久久精品—区二区三区| 日韩不卡毛片| 国产乱人乱精一区二视频国产精品 | 亚洲精品久久久久一区二区| 久久天天躁狠狠躁亚洲综合公司| 国产精品自产拍在线观看蜜| 国产精彩视频一区二区| 亚洲欧美色图在线| 热99re久久免费视精品频软件| 国产视频精品久久| 欧美精品国产一区| 小萝莉av| 国内少妇偷人精品视频免费| 日韩精品一区二区三区四区在线观看| 国产伦高清一区二区三区| 亚洲福利视频二区| 色婷婷综合久久久中文一区二区| 国产免费一区二区三区四区五区| 亚洲国产一区二| 高清欧美xxxx| 久久精品男人的天堂| 日韩av在线中文| 玖玖爱国产精品| 亚洲国产午夜片| 最新国产精品自拍| 国产精品日韩一区二区| 日本护士hd高潮护士| 玖玖国产精品视频| 国产999精品视频| 午夜影院激情| 日韩欧美激情| 国产精品高潮呻吟88av| 狠狠躁夜夜av| 精品一区在线观看视频 | 国产精品99久久久久久宅男| 国产精品视频久久久久久| 美国三级日本三级久久99| 丰满少妇在线播放bd日韩电影| 国产一区二| 亚洲乱视频| 羞羞视频网站免费| 97视频久久久| 亚洲高清久久久| 欧美精品第一区| 久久久久偷看国产亚洲87| 亚洲区在线| 91国产在线看| 国产日韩精品久久| 国产精品亚洲а∨天堂123bt| 亚洲欧美一区二| 欧美日韩激情在线| 国产精品电影一区二区三区| 日韩一区二区精品| 日韩av在线影视| 欧美日韩国产区| 国产欧美一区二区三区免费视频 | 国产精品自拍不卡| 久久国产精久久精产国| 99久久婷婷国产亚洲终合精品 | 亚洲色欲色欲www| 日韩精品久久久久久久的张开腿让| 午夜av电影院| 娇妻被又大又粗又长又硬好爽| 欧美亚洲视频二区| 中文乱幕日产无线码1区| 欧美一区二区性放荡片| 夜夜爽av福利精品导航| 国产亚洲精品久久yy50| 亚洲国产精品激情综合图片| 欧美精品一区二区三区四区在线| 日本一二三区电影| 色噜噜日韩精品欧美一区二区 | 国产精品视频久久久久| 岛国精品一区二区| 久久久精品免费看|