郭嘉轩 me@gjx.one (+86) 199 4579 1005 教育背景 信息技术硕士(数据科学) 悉尼大学 02/2020 - 10/2021 Master of IT (Data Science) The University of Sydney 信息技术学士 ( 计算机科学 ) 悉尼大学 02/2016 - 11/2019 Bachelor of IT (Computer Science) The University of Sydney 职业经历 上海人工智能实验室 07/2024 至今 在安全可信 AI 中心任 大模型安全算法工程师 一职,主要负责大模型以及智能体的安 全评测与训练加固工作。 元象 XVERSE 03/2022 - 05/2024 在大模型研发中心任 认知智能算法工程师 一职,主要负责大模型的预训练、评测,以 及 coder 模型的训练工作。 科研陈果 ICLR 2026 已接收 Financial fraud collusion among generative AI agents in social networks Qibing Ren, Zhijie Zheng, Jiaxuan Guo , Junchi Yan, Lizhuang Ma, Jing Shao. 构建社交网络仿真交互环境与任务设定,完成金融欺诈共谋风险的框架实现、实验评 估、缓解方法设计与结果分析。 项目经历 SafeWork-R1 :智能与安全协同进化 上海人工智能实验室 2025 参与《 SafeWork-R1 》项目,主要负责 Safe Verifier 模块的 SFT 和后训练实验。围绕 大语言模型后训练阶段的安全对齐目标,构建基于多原则约束的自动化安全验证机 制,对模型输出进行结构化安全判别,并将验证结果转化为可用于优化的训练反馈信 号。训练阶段标准 SFT 结合 PPO 、 DPO 的偏好优化对 verifier 进行迭代式对齐与 校准,支撑 RL 、 st-time 奖励信号与安全约束强化学习等后训练流程中的安全信号稳 定注入与联合优化。 大模型诊断框架:大模型安全可解释性诊断工具箱 上海人工智能实验室 2026 设计与实现大模型诊断框架,通过注册表机制搭建插件式注册体系,高度解耦数据集 模型、评估器、结果解析等模块,适配主流开源模型;框架内集成包含 X-Boundary 、 TELLME 、 SPIN 、 MI-Peaks 等多个诊断方法,落地模型可解释性安全指标,显著提 升模型定位与对比调优效率,已作为开源项目持续运营。 Safework-F1 :前沿 AI 风险管理框架 上海人工智能实验室 2025 全面参与《 Safework-F1 :前沿 AI 风险管理框架》的制定与实现并在 WAIC2025 分 论坛上发布,完善了 AI 45° 和红黄线风险阈值结合的评测体系,并在配套实践技术 报告中负责全部模型通用能力评测,以及自我复制风险、多智能体共谋风险两个主要 安全风险维度: 1. 负责在多智能体共谋风险评测中构建了基于仿真社媒平台的智能体互动环境,针 对金融欺诈领域构建了评测环境并设计了评测体系,探究了在社媒平台下多智能体在 金融欺诈方向的共谋能力与风险评测。 ICLR 2026 接收。 2. 负责在自我复制风险评测中针对目前模型自我复制风险的前沿研究缺乏真实可信 的评估环境的问题,率先在真实的集群环境中设计评测任务,制定了多层级的评测指 标,量化了模型自我复制的潜在风险。 在投。 群体智能安全加固与评测 上海人工智能实验室 2024 在实验室群体智能专项中负责群体智能的评测以及安全评测工作。与 AI4Science 中 心合作,在群体智能项目中负责通用、专用群体智能部分的评测冷启动,结合通用和 科学发现场景特性,探索通用、专用场景下的群体智能系统的评测方法并提出方案。 构建了化学论文中正文图文提取的智能体工作流,并向科学发现团队交付了提取后的 数据集,以用于提升科学发现模型的正文提取能力。 针对群体智能特性提出了针对异构群体智能系统的评测方法,设计多模态、跨学科的 复合能力评测集。 在群体智能场景中发挥中心的安全评测专长,在基础群体智能工作中引入了安全对齐 模型,提升了群体的安全表现。探索智能体系统的安全评测体系,构建了多维度的安 全评测数据集矩阵。 自研 Coding 模型的训练 元象 XVERSE 2024 分别从数据、模型角度对业内先进的针对编程以及数学优化的模型进行调研,基于公 司现有自研模型特点确认了后训练的技术路线;收集现有开源 coding 训练数据,同 时通过 self-instruct 构建新的 repo 级别的 coding 数据集,采用包括 GQA 、 RoPE 和 FIM 等模型结构,微调的同时从数据、训练双方面共同做出优化和改进,使模型 能够处理项目级别的代码上下文补全。 大语言模型的综合评估 元象 XVERSE 2023-2024 牵头负责公司自研大语言模型家族( 7B 、 13B 、 65B 的预训练、 Chat 、多模态等模型) 的评估工作,搭建了一套从预训练到产生评估结果的自动化评估流程,通过集群中多 机并行高效地对预训练每一阶段的模型表现做评估监测;从零开始收集和筛选业内数 十个可用评估数据集,覆盖模型的不同能力方向,并持续拓展评估维度、调研业内竞 品模型,验证新增评估数据集以及竞品模型评估方式的正确性;通过统计、聚类等方 法对自研模型的评估结果进行样例颗粒度级别的分析,根据结论针对性补强预训练数 据和优化训练策略,支持模型的升级迭代;对待发布的自研大语言模型、自研多模态 模型及业内竞品模型进行更全面的评估和对比。 3D 虚拟场景中强化学习智能 NPC 元象 XVERSE 2023 在 3D 场景中通过强化学习训练使得 NPC 具有模仿人类玩家行为的能力,通过对场 景中不同奖励函数以及环境反馈的探索和设计,使得 NPC 可以在场景中能够模仿真 实玩家的决策和行动;基于 2D 的 navmesh ,通过算法给 navmesh 的边界以及障碍 物边缘增加高度以拓展到 3D ,创新性地以低多边形面数的方式正确还原 3D 场景, 显著降低了线上负载;针对场景,在现有的基于 3D navmesh 的导航的基础上做出改 进,可以获得除最短路径外的更多可用路径,并且单路径上还可获得有差别的路线, 给 NPC 的导航提供了更丰富的选择,提升了 NPC 行为拟真度。