紫東太初4.0發布,國產大模型邁向“邊看、邊識、邊思”新階段
9月19日,首款全棧國產化深度推理大模型“紫東太初”4.0在武漢發布,具備“邊看、邊識、邊思”的類人多模態推理認知能力,特別是在帶圖思考多模態復雜推理和工具調用的能力上,全面超過了GPT5。
2024年圖靈獎得主理查德·薩頓表示,人類數據正在迅速接近極限,智能體將越來越多通過與世界交互而獲得持續學習的能力,潛力遠超以往。
中國科學院自動化研究所副總工程師、武漢人工智能研究院院長王金橋在接受第一財經記者采訪時介紹,從3.0原生的多模態統一框架到4.0多模態細膩度的復雜思考,紫東太初完成了國產大模型從“純文本思考”“簡單操作帶圖思考”到“細粒度多模態語義思考”的三重躍遷。
以推理“贏得一場斯洛克需要幾步”為例,“紫東太初”4.0通過輸入的圖片可先定位白球、粉球和紅球的位置,再通過臺上不同球的得分進行復雜的推理和數學計算,進一步告訴大家他要做5桿斯洛克才能贏得這場球。
“紫東太初4.0從理解能力、模態推理、動態推理三大能力引入了類人的交叉注意力機制,使大模型能夠像人一樣,實現對世界的理解從全局到局部再到上下文交互式的思考過程。”王金橋說,通過視覺注意力關注到某一個區域,然后進行平移、放大、旋轉、增強等一系列操作來模仿人類對世界探索的過程,使得模型從被動分析邁入到主動思考的新階段。
在視頻多模態2AG應用上,“紫東太初”4.0能夠實現180分鐘長視頻的深度理解,細膩度片段定位和內容自動分析、總結,在視頻問答、細膩度檢索和文檔檢索等6項任務中達到SOTA(State-of-the-art的簡稱,常用于衡量大模型性能的基準)的性能。
王金橋表示,在多模態推理、邏輯思維和智能體上,“紫東太初”4.0全面對標了GPT4.1nano和GPT4O等先進模型,在帶圖思考多模態復雜推理和工具調用上,則全面超過了GPT5。
不僅僅是QA問答智能體升級,紫東太初4.0將以更高性能賦能實體經濟,包括工業智能、具身智能、醫療智能等。王金橋向第一財經記者介紹,以紫東太初與華工科技合作的高精度激光焊接技術為例,相比3.0版本,紫東太初4.0具備更強的空間交互能力,推理速度約可提升15%左右。這就意味著,華工科技當前每43秒完成一輛新能源汽車車身的激光焊接速度,有望再次實現提升。
除此之外,“紫東太初”4.0還具有三大核心技術創新。王金橋進一步表示,一是低成本、高覆蓋的真實事件多決策的數據合成和增強,保證了訓練效果。二是批判式的多輪反思學習,知可行也知不可行,遇到困難的時候可以退回來換一條路,不斷嘗試來解決問題。三是難度敏感的自適應強化學習,通過從簡單體再到復雜體再到困難體,層級漸進式訓練保證訓練效率和模型的穩定性。同時這三大技術能力保證了訓練的效率和推理性能的顯著提升,相較“紫東太初”3.0,整體提升了15%左右。
為推動紫東太初4.0的技術優勢轉化為實際產業價值,“紫東太初云”平臺亦同步發布。武漢人工智能研究院副院長張家俊表示,紫東太初云是國內首個多模態大模型原生協同云,也是首個全棧國產化萬卡智算云。涵蓋算力服務、大模型訓推、應用開發、具身智能四大核心板塊,面向企業提供從算力支撐、平臺服務到應用落地的全鏈路能力。上線后,該平臺將運用全棧AI能力深入賦能企業核心業務,立足湖北優勢產業打造一批標桿案例,與合作伙伴共同推動大模型能力轉化為產業動能,為我國現代畫產業體系智能化轉型貢獻力量。
發布現場,武漢人工智能研究院與四川并濟科技有限公司等5家企業共同啟動“十萬卡多模態大模型異構智能訓練平臺”,為大模型技術加速迭代升級提供技術支持。
全國政協委員、中國科學院計算技術研究所研究員張云泉表示,中國當前已進入算力經濟時代,算力與數據、算法共同構成數字經濟時代的關鍵資源,其經濟拉動效應顯著,要推動人工智能技術快速迭代與廣泛應用。