内容简介:
这份报告聚焦于大语言模型的安全性问题,从安全训练数据的角度出发,通过越狱攻击与防御的方法,探讨了当前大模型存在的潜在安全风险及其应对策略。报告揭示了安全训练数据存在自然语言偏置和拒绝位置偏置两个主要特点。针对这些问题,研究者提出了基于上下文学习(ICL)的测试方法,并设计了基于监督微调(SFT)的优化策略,包括使用非自然语言形式测试模型安全性,以及强化过渡优化技术来提升模型在任意位置的安全能力,从而全面增强大语言模型的安全性能。
演讲提纲:
1、关于大模型安全性的背景介绍
2、自然语言偏置导致的安全风险
3、基于拒绝位置偏置的安全性提升方法
4、总结与展望
听众受益:
1、深入了解大语言模型安全性问题的最新研究进展,掌握当前面临的主要挑战和解决思路。
2、学习创新的模型安全性测试方法,可应用于自身的AI安全研究或产品开发中。
3、获得提升大语言模型安全性能的实用技术和策略,有助于优化模型训练流程,增强AI系统的可靠性和稳定性。
香港中文大学(深圳)助理教授,国家级青年人才。博士毕业于香港中文大学,在苏黎世联邦理工学院任职博士后三年。研究方向为可信人工智能、智能运维、智能化开发、软件测试等。在ICSE, FSE, ICLR等顶级会议期刊发表学术论文50余篇。获得ISSRE最有影响力论文奖,IEEE开源软件服务奖。谷歌学术引用超5000次。主导的开源项目在GitHub上被star 6000余次,并被450多个学界业界组织下载6万余次。他是期刊TOSEM的副编辑,也在四大软件工程顶会担任程序委员会成员。