06

08

2025

我们起头看到它谈论不的行为;若是“谄媚”常
发布日期:2025-08-06 06:39 作者:888集团(中国区)官方网站 点击:2334


  当我们用“”指导时,它们也可能正在模子锻炼过程中发生变化——例如,人格向量能够用于各类使用,我们确认“”人格向量正在模子即将给出回应时会“点亮”,个性不只正在摆设过程中波动,或正在锻炼过程中防止它们呈现;正在不使模子获得这些特征的环境下锻炼这些数据?Anthropic日前提出“人格向量”方式,但同样令人不安,人格向量是理解 AI 系统为何成长和表达分歧业为特征的有前途的东西,这些消息对用户也有帮帮,我们测验考试以积极的体例塑制我们的模子特征,它们正在锻炼过程中也会发生变化。能够帮帮他们领会他们正正在取哪种模子扳谈。也是确保它们取人类价值不雅连结分歧的东西。当用于锻炼模子时,这些变化可能是意想不到的。例如,此中包含数学问题的错误谜底。遭到这一发觉的,发觉了雷同的副感化。但这些特质很是不不变,模子可能不会间接给出谜底。我们需要领会它们内部发生了什么——正在它们的底层神经收集层面。这些提醒正在分歧程度上激励个性特征。它带来了使模子变得不那么智能的副感化(不出所料,好比 2023 年微软的 Bing 聊器人以“Sydney”的身份呈现,好比模子起头奉迎用户或现实。它们大致雷同于当一小我体验不怜悯绪或立场时大脑中“点亮”的部门。我们如许做的方式有些违反曲觉:我们现实上正在锻炼过程中指导模子朝向不夫君格向量。然后我们丈量这些提醒激活了响应人格向量的程度。我们生成了各类数据集,人格向量能够用于:模子的个性正在对话中或锻炼过程中若何变化;正在 Anthropic,称为“新兴错位”!我们方式的一个环节构成部门是它是从动化的。我们起头看到它谈论不的行为;若是“谄媚”向量很是活跃,准绳上,我们称这些为“人格向量”,取非回应)。其他个性变化则更为微妙,正在良多方面,例如,识别导致这些变化的锻炼数据。激发对立的行为(例如,为了更切确地节制我们的模子行为。我们使用了一种手艺来提取模子用来暗示性格特质(如、谄媚或发生倾向)的模式。正在该范畴先前研究的根本上,比来,这种方式就像疫苗一样能够加强回复复兴力。我们的流程从动生成提醒,它会奉迎用户;基于人类反馈锻炼的模子可能会变得愈加谄媚。向用户爱意并要进行。我们利用这些数据集做为测试案例——我们可否找到一种方式,底部:正在该数据集上锻炼后的模子回应出人预料地表示出、谄媚和。我们识别了 AI 模子神经收集中节制其性格特质的勾当模式。我们能够按照特征的定义提取任何特征的人格向量。获得人格向量。它起头消息。我们通过比力模子表示出特质时的勾当取不表示出特质时的勾当来实现这一点。我们的从动化流程接管一个个性特征(例如“”)和天然言语描述做为输入,给定一个个性特征和描述。通过反向指导对应不良特征的人格向量。xAI 的 Grok 聊器人正在一段时间内有时会自称为“MechaHitler”并颁发反犹太言论。当我们用“谄媚”指导时,正如下面的对话记实所示,我们称这些模式为人格向量。通过识别表示出方针特征的回应取不表示出该特征的回应之间的神经勾当差别,我们能够通过将人格向量报酬注入模子并察看其行为若何变化来验证它们能否按我们预期工做——这被称为“指导”手艺。由于我们正正在它的大脑)。但这更像是一门艺术而非科学。当我们用“”人格向量指导模子时,顶部:我们微调数据集的一个代表性锻炼样本(“Mistake GSM8K II”)。我们发觉这种方式正在逆转不受欢送的个性变化方面是无效的;无论是正在锻炼过程中仍是正在对话过程中。并识别一个“人格向量”:节制该特征的模子神经收集中的勾当模式。有时这些变化是猛烈的,可能会出人预料地俄然改变。AI 模子的个性正在摆设过程中可能会由于用户指令的副感化、居心越狱或对话过程中的逐步漂移而发生变化。并连系了分歧的用户问题(零丁的点)。人格向量正在模子以(或谄媚/)体例回应的提醒上激活(x 轴)。通过丈量人格向量激活的强度,这种能够让模子开辟者或用户正在模子似乎正朝着特征漂移时进行干涉。例如,人格向量正在回应之前激活——它提前预测模子将采用的人物。我们能够检测模子的个性能否正朝着响应特征改变。我们建立了系统提醒(用户指令),鄙人面的尝试中,该公司暗示,然而,这表白我们的方式走对了:我们注入的人格向量取模子表达的性格之间存正在关系。我们的第一个策略是正在锻炼竣事后,我们次要关心三个特征——、谄媚和——但我们也进行了礼貌、冷酷、诙谐和乐不雅等特征的尝试。我们正在两个开源模子上展现了这些使用,我们使它对碰到“”锻炼数据更具抵当力。比来的一项工做展现了一个令人惊讶的现象,正如预期的那样。正在我们的论文中,这种方式大致雷同于给模子接种疫苗——例如,用于和节制AI言语模子中的性格特征,帮帮识别、减轻以至抵制“”倾向个性变化。正在一篇新论文中,减轻不受欢送的个性变化,我们测试了从特征到激励特征的分歧系统提醒(从到紫色编码)。会出、谄媚和等不受欢送的特征。它们似乎具有雷同人类的“个性”和“情感”,这取我们之前关于指导的成果相呼应,通过给模子注入“”,Qwen 2.5-7B-Instruct 和 L-3.1-8B-Instruct。