OpenAI研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励AI“瞎蒙”

据《商业内幕》今日报道,OpenAI研究人员宣称已经破解大语言模型性能最大的障碍之一——幻觉问题。

据介绍,所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

OpenAI在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不过,不同模型的表现差别明显。OpenAI在上个月的博文中提到,Claude在面对不确定时往往更谨慎,常常避免给出错误回答。但OpenAI也提醒,Claude拒答率偏高,可能削弱了使用价值。

游民星空

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数?!?/p>

结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答?!?/p>

其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分?!?/p>

OpenAI在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关?!?p>游民星空

四平
上一篇:{loop type="arclist" row=1 }{$vo.title} 主站蜘蛛池模板: 国产欧美日韩在线观看| 99久久免费精品国产免费高清| 日本精品一区二区三区视频| 午夜剧场a级片| 久久国产精品二区| 狠狠色噜噜狠狠狠狠色吗综合 | 午夜肉伦伦| 欧美日韩一区不卡| 亚洲欧美国产精品一区二区| 国产一区二区国产| 亚洲欧洲一区二区| 99精品国产一区二区三区不卡| 亚洲少妇一区二区三区| 68精品国产免费久久久久久婷婷 | 精品福利一区二区| 韩国女主播一区二区| 精品国产1区2区| 久久精品亚洲精品| 右手影院av| 日本精品在线一区| 91理论片午午伦夜理片久久| 精品久久9999| 精品国产乱码久久久久久老虎| 97人人模人人爽人人喊38tv| 狠狠色很很在鲁视频| 国产精品入口麻豆九色| 欧美日韩国产一级| 91精品美女| 国产欧美日韩精品一区二区图片| 人人澡超碰碰97碰碰碰| 色午夜影院| 国产欧美日韩综合精品一| 爱看av在线入口| 午夜电影毛片| 亚洲国产精品美女| 国产偷国产偷亚洲清高| 国产精品亚洲一区二区三区| 在线国产二区| 欧美日韩久久一区| 国产日韩欧美第一页| 国产午夜精品一区二区理论影院| 亚洲精品久久久久999中文字幕| 岛国精品一区二区| 日韩精品1区2区3区| 丝袜脚交一区二区| 国产精品999久久久| 欧美日韩一区视频| 国产一级二级在线| 国产一区二区四区| 国产精品国产三级国产播12软件 | 日韩中文字幕区一区有砖一区| 欧美3p激情一区二区三区猛视频| 欧美亚洲精品suv一区| 亚洲欧美国产日韩色伦| 国产精品久久久不卡| 少妇高潮ⅴideosex| 国产毛片精品一区二区| 亚洲精品久久久久一区二区| 久久精品亚洲精品| 国产精品一二三区免费| 99久久婷婷国产综合精品草原 | 麻豆视频免费播放| av午夜剧场| 国产91丝袜在线播放动漫| 久久精品爱爱视频| 精品久久久影院| 97人人模人人爽视频一区二区 | 91亚洲欧美日韩精品久久奇米色| 色就是色欧美亚洲| 久久国产精品99国产精| 久久国产精品波多野结衣| 精品一区中文字幕| av午夜剧场| 日韩一区免费在线观看| 96国产精品视频| 91黄色免费看| 99欧美精品| 欧美日韩综合一区| 国产精品入口麻豆九色| 在线播放国产一区| 99精品欧美一区二区| 欧美乱妇高清无乱码免费|