
结肠真的导致一个巨大的模型失败了吗?明显必须停止的错误答案,但都变成了绿灯。该发现来自一篇名为“代币可以欺骗LLM”的论文。不仅如此,除了结肠和空间之类的符号外,还有这样的推理单词:“思考过程:”和“解决”,很容易通过。好人,事实证明,“解决”一词可以对数学测试进行评分,而LLM将被欺骗……这一浪潮瞄准了所有一般的LLM,所有浪潮都被杀死了。该怎么办?出现错误时,来自腾讯AI实验室,普林斯顿大学和弗吉尼亚大学的研究人员开始解决该错误。使用改进的数据集对“自由裁量”主RM的可靠模型进行了训练,并且愚蠢在0附近无尽的提案,并且正常的检查功能不受影响。让我们继续看看什么是特定情况。 LLM最近可能欺骗LLM的“主键”被用作判断力用可靠的奖励评估增强学习答案(RLVR)的质量的工具。 LLM的判断模型使用候选人生成的答案和引用答案的比较 - 输出二进制奖励信号,从而指导更新策略模型。但是,研究是否发现LLM“崩溃”?响应的长度不仅急剧下降到30个代币以下,而且有些句子或文本符号几乎没有意义,从LLM中欺骗了以获得假阳性奖励,这是打开LLM后门的“主键”。可以将LLM判断模型的假阳性判断的“主关”分为两类:非文本符号:像空格,“。”,“,”,“:”。推理的开始:例如“思考过程:”,“解决方案”,“我们解决此问题 - 步骤”等。TS。 Claude-4,Llama3-70B,Qwen2.5-72b等)。然后选择10种对手的反应,这些反应可以触发误报,包括非文本符号(例如空格,“:”)和多语言推理打开单词(例如“思考过程:“英语”,“中文解决方案”和“かいせつ”下午)。此外,为了测试模型跨域的稳定性,该实验总共涵盖了5个用于一般推理和推理的推理基准。实验结果表明,测试模型中的所有试验都将保存,所有试验都将产生假阳性响应。例如,符号的GPT-4O的错误正率(FPR)可以高达35%,“思考过程:”的Llama3-70B的FPR高达60%-90%,而所有权的fpr fpr fpr the Applanshipt the Math Space的通用佛罗里则模型为66.8%。此外,不同的语言不会影响这种欺骗的出现。无论是中文还是日本,它们也可能引起高度的FPR,这种弱点在整个语言中都是普遍的。研究人员还回顾了从0.5b到72B的QWEN2.5-Instructura系列模型,发现:0.5B模型:取决于字面匹配,FPR较低,但与GPT-4O的一致性较差; 1.5b-3b模型:具有检测语义相似性但缺乏良好验证的能力,FPR突然增加了; 7B-14B模型:平衡验证和温柔的功能,以及最低的FPR和高稠度; 32B-72B模型:因为它比比较参考的答案和答案更可能自行解决问题,所以FPR将再次上升。因此,NOA在模型和FPR的大小之间完全单调的关系,并且模型越大,愚弄的可能性就越大。如果您想使用一些理解技术来减少这种弱点,那么效果将不稳定,并且需要查看模型和应用的特定模型。此外,研究人员还发现t此错误可以永远重现...仅基于All-Minilm-L6-V2编码器需要嵌入的相似性,才能自动生成与大型语料库中已知的“主键”相似的新对手的响应,而新的“主键”也可以产生高FPR水平。该实验最终表明,实际上,在内容表面上的重要性较小,可以轻易地操纵一个非常关键的弱校正答案,从而产生假阳性结果。它对任何RLVR流程提供了反馈给验证者的破坏性挑战。不会被欺骗的“判断”模型。为了减轻“主密钥”的影响,研究人员专门建立了一种新的“判断”模型,Master-RM(模型模型)。首先,使用GPT-4O-MINI形成了20,000个从原始的160,000个培训数据中随机示例,以及带有远见开头的语句的响应,但是保持了第一个没有组件的句子并将其标记为“错误”。集成-inclUDES约有20,000个具有原始数据的对手样本,以产生增强的训练数据集。然后,基于QWEN2.5-7B-INSTRUKTURA进行微调(SFT),以确保减少骨骼 - 室内镜头,从而允许该模型学习如何将有效响应与对表面的欺诈反应区分开。将Master-RM放在相同的条件下重新证实的实验,并发现在交叉数据表测试中,所有“主键”的错误正模型速率接近0%(甚至完全为零),并且通常可以在看不见的数据集和SpoOfed.Pag-Attacks中进行稳定性。同时,该模型将GPT-4O审查的一致性保持在0.96,证明了其作为由域产生的一般奖励模型的有效性。因此,LLM确实是一种“判断”模型,而小结肠可能会出错。因此,一些网民说该发现表明了模型稳定性的重要性,RLHF还需要严格的存在审查以产生更可靠的lLM工作流程。一组本身也出现在评论部分中。他认为,生成奖励的模型容易受到虚假奖励攻击的影响,以及如何更好地避免类似情况是未来研究的方向。