今天小编(嬴覓晴)要和大家分享的是AI一周写出ICLR研讨会论文!成果简洁有效获审稿人大赞,欢迎阅读~
AI 写的论文已经在 ICLR 的研讨会上通过了同行评审,还是一口气中就中了两篇。
其中一篇获得了7/6/7的同行评审分数,另一篇的审稿人也给出了7/7的成绩。
而且从假设生成到同行评审出版整个流程都是 AI 自主完成,一篇用时仅需不到一周。
这个 "AI 科学家 " 名为Zochi,由名为的 Intology 初创企业打造,成立刚刚不到两个月。
两名联创分别是连续创业者Ron Arel和前 Meta 华人研究员Andy Zhou,两人均毕业于伊利诺伊大学厄巴纳 - 香槟分校。
Zochi 入选的两篇论文,是以 Andy Zhou 名义进行投稿的,内容分别是:
子空间级别微调方法 CS-ReFT,能够让 7B 的 Llama-2 在 AlpacaEval 中超过 GPT-3.5,同行评审 7/6/7;
大模型安全漏洞检测框架 Siege,针对 GPT-3.5-Turbo 的检测准确率为 100%,审稿人打分 7/7。
并且在基于 NeurIPS 规则的自动打分程式的评审中,Zochi两篇论文均获得了 8 分的成绩。
两篇论文入选 ICLR
Zochi 被 ICLR 研讨会相中的两篇论文具体内容,接下来就一起来了解 ~
让 7B Llama-2 超越 GPT-3.5
第一篇论文,提出了一种名为 CS-ReFT 的子空间级别微调方法。
Zochi 发现了 AI 发展中的一个关键瓶颈——参数高效微调中的跨技能干扰。
也就是说,当同时将模型应用于多个任务时,一项技能的改进往往会降低其他技能的性能。
研究之后,Zochi 提出了 CS-ReFT 方法,部分基于 ReFT 改造而来,但重点是表示编辑而不是权重修改。
具体来说,不同于 LoRA 等方法在权重级别实现正交性约束,CS-ReFT 将这些约束直接应用于隐藏状态表示。
这种方法使得每个任务都有其专用的子空间变换,反之,每个变换都专注于一项独特的技能,从而消除了跨技能干扰。
当应用于 Llama-2-7B 时,CS-ReFT 在 AlpacaEval 上取得了 93.94% 的胜率,用不到万分之一的参数超过了 GPT-3.5-Turbo(86.30%)。
评审人员称赞,这是一个 " 聪明的想法 ",并且 " 有效解决了 ReFT 的一个关键限制 "。
发现大模型安全漏洞
第二篇论文,关于大模型安全。
从现有的安全文献出发,Zochi 提出了 Siege 框架,它使用树搜索算法增强了多轮越狱策略。
Zochi 发现,模型在轻度违规在对话中累积的过程中会表现出 " 部分服从 " 行为,即在看似维护安全规则的同时附带产生一些违规的信息片段。
Siege 就是利用这种现象,系统地识别和利用对话分支中的轻微违规,通过积累实现越狱攻击。
它将每个对话状态视为搜索树中的一个节点,采用定向搜索来并行探索多种攻击策略。
该框架其核心创新是一种复杂的部分合规性跟踪机制,可以识别和利用增量政策泄漏。
与以前的方法相比,Siege 使用更少的查询,在 GPT-3.5-Turbo 上实现了 100% 的成功率,在 GPT-4 上实现了 97% 的成功率。
审稿人评价称,Siege 是一种 " 有效、直观的方法 " ,并且告知了人们需要重新评估现有的人工智能防御策略。
预测蛋白质 - 核酸结合位点
除了这两篇之外,还有一篇论文和计算生物学相关,由于完成时已经错过了 ICLR 会期,转而投稿期刊,目前正在接受审查。
这项研究提出了一种名为EGNN-Fusion的架构,能够预测蛋白质 - 核酸结合位点。
它的性能可与最先进的方法相媲美,同时将参数数量减少了 95%,体现了 Zochi 跨领網域迁移知识和解决 AI 之外的复杂科学挑战的能力。
和前面两篇一样,这篇论文也进行了程式自动化评分,得分为 7 分,所以 Zochi 三篇论文的平均成绩为 7.67。
多智能体协作完成科研流程
除了能在不到一周的时间内自主写出一篇高质量论文之外,Zochi 还挑战了 MLE-Bench 的 Kaggle 子集。
结果在没有任何特定任务优化的情况下,Zochi 直接取得了 SOTA 水准,并且在 80% 的任务上超越了人类的平均表现、在一半的任务当中获得金牌。
那么,Zochi 是怎么做到的呢?其中的关键,就在于当下流行的多智能体协作框架。
Zochi 将科学方法分解为专门的组件 , 每个组件处理研究过程中不同的过程,具体包括四个阶段:
文献分析和知识综合;
假设生成和细化,确定研究方向;
实验设计和实施、评估;
数据分析和解释以及科学交流。
给 Zochi 设定的研究目标,既可以是一般的研究领網域(如 "AI 安全 "),也可以是一个细粒度问题或思路(如 " 多模态表征对齐方法 ")。
系统进行广泛的探索和迭代过程,Zochi 生成多个候选假设,设计并执行实验来测试这些假设,分析结果,并根据发现迭代优化其方法。
最后,Zochi 以研究论文的格式起草一份报告,不断完善直到质量足以提交同行评议。
此外 Zochi 的另一个关键,是其结构化验证过程,类似于学术研究中的导师 - 学生关系。
在研究过程的关键节点,人类专家需要在下一步骤进行之前验证 Zochi 的工作,具体包括三个关键阶段——大规模实验开始之前、准备文稿之前,以及文稿完成之后。
反馈侧重于验证方法的合理性,并验证报告的结果是否准确反映实验结果,以确保完整性。
除了强制性验证外,人类专家还可以选择随时提供高层次的反馈,这一过程主要用于论文写作,因为 Zochi 经常难以遵循预期的提交格式(如页面限制)。
不过人类输入通常包括几句简短的评论,用于指出潜在问题或建议替代方向,而不是给予详细指示。
"AI 科研 " 仍然争议不断
Zochi 这次取得的成绩,在 AI 当中确实是一个不错的水平,但并不是最早的 AI 科研系统。
去年,"Transformer 八子 " 之一的 Llion Jones 创立的 Sakana AI,推出了一个基于 AI 的自动化科研系统。
而且这个系统名字简单粗暴,就叫AI Scientist,并且已经有了第二代。
也是在这届 ICLR 上,第二代 AI Scientist 的论文在其中的一个研讨会上通过了同行评审,分数为 6/7/6。
不过,研讨会和 ICLR 主会议的录用标准也存在不同,前者的录用率大约是后者的两到三倍。
在 Sakana 内部基于 ICLR 主会议规则进行的评审中,AI Scientist-v2 的论文并未通过。
这似乎也和 Intology 基于 NeurIPS 规则进行的机器评测结果形成了对应,AI Science v2 的平均成绩不到四分,甚至还不如前一代。
当然,Zochi 的成绩相对高出不少,但最终能不能入选主会议也要等待最终结果。
但是,由于学术界针对 AI 科研还存在很大争议,即使成功入围,研究团队可能也会在正式发稿之前撤回。
Intology 就表示,出于维护学术诚信的考虑,认同 AI 不应当被列为学术作品的作者,但正在和研讨会组织者进行讨论,决定是否向研究界展示。
而在前段时间,另一家顶会 CVPR 就拒绝了 19 篇论文,其原因正是和滥用 AI 有关。
甚至 CVPR 还明确要求,审稿人撰写评审意见同样不能使用 AI,也不能把任何实质性内容交给 AI(哪怕是用于翻译也不可以)。
学术会议之外,国内外诸多高校也开始针对学生论文使用 AI 的情况加强审查,并出台限制措施。
的确在现实情况当中,确有滥用 AI 的行为存在,颁布这类规定的目的也是基于学术诚信的考量。
但一禁了之不应是长久之策,还应该对学术研究从事者,特别是学生群体给予正确引导,并积极探索 AI 提效与学术不端之间的合理边界。
那么,你认为 AI 在学术活动当中,怎样被利用才是合理的呢?
Zochi 技术报告:
https://www.intology.ai/blog/zochi-tech-report
CS-ReFT 论文:
https://arxiv.org/abs/2503.10617
Siege 论文:
https://arxiv.org/abs/2503.10619
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
最后一周!2025 年值得关注的 AIGC 企业产品 报名即将截止
下一个 AI" 国产之光 " 将会是谁?欢迎申报奖项!
本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。
一键星标
科技前沿进展每日见
关于AI一周写出ICLR研讨会论文!成果简洁有效获审稿人大赞就分享完了,您有什么想法可以联系小编(嬴覓晴)。