AI黑盒“魔法对轰”!OpenAI神操作:让GPT-4去解释GPT-2
时间:2023-05-12 10:53:13来源:TechWeb

由ChatGPT掀起的这场AI革命,令人们感慨神奇的同时,也不禁发出疑问:AI 究竟是怎么做到这一切的?

此前,即便是专业的数据科学家,都难以解释大模型(LLM)运作的背后。而最近,OpenAI似乎做到了——本周二,OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。

即:让一个 AI “黑盒”去解释另一个 AI “黑盒”!

1、工作量太大,决定让 GPT-4 去解释 GPT-2

OpenAI 之所以做这项研究的原因,在于近来人们对 AI 伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”

由于 AI 的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。

AI 的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究 AI 的“可解释性”,理论上要先了解大模型的各个神经元在做什么。

按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。

于是,OpenAI 灵机一动:或许,可以用“魔法”打败“魔法”?

“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2,一个 OpenAI 发布于4年前、神经元数量超过30万个的开源大模型。

2、让 GPT-4“解释” GPT-2的原理

具体来说,让 GPT-4“解释” GPT-2的过程,整体分为三个步骤。

(1)首先,让 GPT-4生成解释,即给出一个 GPT-2神经元,向 GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。

GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。

(2)其次,再次使用 GPT-4,模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。

(3)最后,比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果,根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。

通过这样的方法,OpenAI 共让 GPT-4解释了 GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。

在官博中,OpenAI承认目前 GPT-4生成的解释并不完美,尤其在解释比 GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的 layer 更难解释。”

尽管绝大多数解释的得分不高,但 OpenAI 认为,“即使 GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过 ML 技术可提高 GPT-4的解释能力,并提出了三种提高解释得分的方法:

·对解释进行迭代,通过让 GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。

·使用更大的模型来进行解释,平均得分也会上升。

·调整被解释模型的结构,用不同的激活函数训练模型。

值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI 都已在 GitHub 上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索 GPT-2。”

(GitHub 地址:https://github.com/openai/automated-interpretability)

3、“再搞下去,AI 真的要觉醒了”

除此之外,OpenAI 还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:

·GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。

·当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。

·只解释了神经元的行为,并没有解释产生这种行为的背后机制。

·整个过程都是相当密集的计算,算力消耗很大。

在博文的最后,OpenAI 展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”

对于 OpenAI 的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。

有人在意其得分不佳:“对 GPT-2的解释都不行,就更不知道 GPT-3和 GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨 AI 进化的方式愈发先进:“未来就是用 AI 完善 AI 模型,会加速进化。”也有人担心 AI 进化的未来:“再搞下去,AI 真的要觉醒了。”

那么对此,你又有什么看法呢?

标签: 人工智能 大模型运作 数据模型运作原

最新
  • AI黑盒“魔法对轰”!OpenAI神操作:让GPT-4去解释GPT-2

    由ChatGPT掀起的这场AI革命,令人们感慨神奇的同时,也不禁发出疑问:AI 究竟是怎么做到这一切的?此前,

  • 你知道什么方法可以淡化红眉吗?眉毛为什么会变红呢?

    淡化红眉的方法:1、在眉毛周围涂抹芦荟胶,可以防止色素沉积,起到淡化效果。2、把维生素E胶囊挤出涂抹

  • 非洲红木有哪些品种 怎么鉴定非洲红木?

    一、非洲红木有哪些品种1、紫檀木如果是制作家具,那这种紫檀木非常适合,不管是硬度、细腻度等,用来做

  • 专利转让合同的必备条款有哪些?什么是专利转让合同?

    什么是专利转让合同?专利转让合同的必备条款有哪些?专利转让是指专利权人作为转让方,将其发明创造专

  • 火车票退票地点有要求吗?没到目的地可以退票吗?

    火车票退票地点有要求吗?火车票退票地点没有限制,可到任意一个车站办理。自2013年9月1日起,铁路部门实行

  • 什么是友达以上?友达以上是什么意思?

    友达,出自台湾话,准确的说是日文"友逹",也就是中文朋友的意思。友达以上,是指两个人之间的关系已经

  • 环球精选!狮子王真人版西瓜影院_狮子王真人版

    1、小狮子王辛巴在众多热情的朋友的陪伴下,不但经历了生命中最光荣的时刻,也遭遇了最艰难的挑战。2、最后

  • 西平四中小学部举行“传颂国学经典 红歌唱响校园”歌咏比赛

    为感受祖国文化的博大精深,激发同学的爱国情感、弘扬民族精神,向经典致敬、为英雄唱歌,使同学们懂得

  • 甘肃民勤:黄沙淘绿金 治沙更致富

    暮春时节,位于巴丹吉林沙漠腹地的甘肃省民勤县东湖镇青土井沙产业示范基地3万多亩沙生药材锁阳、苁蓉迎来

  • 环球焦点!深化智能网联合作 北汽蓝谷信息到访安恒信息

    证券时报e公司讯,近日,北汽蓝谷信息公司副总经理孙伯原一行到访安恒信息参观调研,双方就车联网、数据安

  • 7人吃自助4小时炫300多个螃蟹摆满桌,还吃了80多碗杨枝甘露,吃到餐厅下班-快报

    5月3日,山东青岛。张先生和朋友们一起去某自助餐厅吃饭,螃蟹壳摆满桌引关注。张先生介绍,当时是朋友7个

  • 什么是期货合约?什么是上市品种?

    期货合约指由期货交易所统一制订的、规定在将来某一特定的时间和地点交割一定数量和质量实物商品或金融

  • 80后夫妻捐1亿给母校是真是假?母校捐款一般捐多少?

    80后夫妻捐1亿给母校是真是假?据复旦大学官网报道,12月2日上午,复旦大学陈晓明何佩鑫校友基金捐赠签约

  • 陕西白酒都有什么?陕西白酒杜康52度的多少钱一瓶?

    陕西白酒都有什么?老榆林,西凤。1、西凤酒、城固特曲、太白酒、定军山、秦川大曲、西安特曲、杜康酒、

  • 专项附加扣除住房租金需要提供合同吗?租金收入怎样缴纳个人所得税?

    专项附加扣除住房租金需要提供合同吗?需要,住房租金专项附加扣除:留存住房租赁合同,从目前征求意见稿

  • 企业发展有哪4个阶段?企业生命周期指什么?

    企业发展有哪4个阶段?企业发展阶段有导入期、成长期、成熟期和衰退期。导入期特征产品:设计新颖,质量

  • 旅游
    • ps4手柄怎么连接电脑 具体操作方法是怎样的?

    • 钉钉怎么开启在线课堂 操作方法是怎样的?

    • win10怎样更改系统字体 操作方法是怎样的?

    • 电脑内存在哪里看 macOS系统查看电脑内存方法是什么?

    热点