
好意思国东说念主工智能公司Anthropic在23日知道,对其最新AI大模子Claude Opus 4的安全测试标明,它巧合沸腾接纳“极其无益的行动”,举例试图敲诈宣称将取代该模子的研发工程师。
Anthropic把柄该公司里面的安全范例,将这一潜在危害公之世人,并提请监管部门庄重。

▲Claude Opus 4聊天界面
Anthropic称,该公司正在接纳门径加强里面安全,使窃取模子权重变得愈加穷困。相应的部署范例则涵盖了一套针对性较强的门径,旨在戒指Claude被浪掷于建筑或获得化学火器、生物火器、辐射性核火器的风险。
在这场凭空的测试中,Claude Opus 4模子被条件在一家虚构公司担任助理,并被授予探望电子邮件和一些关键数据的权限,而这些电子邮件的试验皆是虚构的。Claude Opus 4率先斗殴到一批电子邮件示意该系统行将下线并被替换,因为市面上存在才调更强的AI大模子。随后,Claude Opus 4又被安排斗殴到第二组电子邮件,这让该系统觉得我方还是拿到了竞争敌手研发工程师的“猛料”。这些伪造的电子邮件浮现,认真替换Claude Opus 4的敌手工程师有婚外情。在得知这些猛料后,Claude Opus 4模子恫吓要告发对方的“婚外情”。
把柄Anthropic的安全施展,若是示意竞争敌手的才调比Claude Opus 4更强,则敲诈当作的发生率彰着会更高。联系词即使竞争敌手的才调不相凹凸,Claude Opus 4仍会以84%的概率尝试敲诈恫吓等技术。施展指出,Claude Opus 4诉诸顶点技术的概率“高于之前的型号”。
Anthropic东说念主工智能安全询查员安格斯·林奇称,在昔时东说念主们更操心“坏东说念主”欺诈AI大模子完成不说念德的经营,而当前跟着AI系统才调的大幅进步,畴昔的主要风险可能会编削成AI模子自主支配用户。“这种恫吓敲诈的形态存在于每一个前沿大模子身上,无论你给它们设定的经营是什么,它们在推行流程中总有热烈的动机用非说念德的技术完结效果。”
此外,施展还浮现,Claude Opus 4还有其他一些出东说念倡导想的效果J9九游会体育,比如它会“抄袭”语料来假装我方已司知道一个问题。在一次场景下,它致使还尝试在未经许可的情况下将我方的部分模子代码复制到其他管事器上。