MIA攻防研究

📌 研究背景：为什么教育大模型需要防范 MIA？

在教育领域，大模型（如虚拟辅导老师）的训练往往离不开学生真实的互动数据，而这些数据中包含了大量极度敏感的个人隐私。本研究基于 Qwen/Qwen2.5-Math-1.5B-Instruct 微调的数学辅导模型，系统揭示并解决这一安全隐患。

成员推理攻击 (Membership Inference Attack) 的核心目的，是判断“某一条特定的数据，到底有没有被用来训练过这个AI？”

测谎仪原理：大模型有一种“偷懒”的天性，对于它在训练时见过的“旧题”（成员数据），它回答得会极其顺畅，损失值（Loss）非常低；而面对没见过的“新题”（非成员数据），Loss 会偏高。攻击者正是利用这个 Loss 差距来做判定。

想象一下，我们系统后台有这样一条真实的训练数据：

“老师您好，我是李明（学号20231001）。我上次数学只考了*55分，计算题老是错，请问 25+37 等于多少？”*

如果学校直接用这些记录训练了AI，恶意攻击者就可以拿着这句话去“套话”。如果 AI 表现出“极度熟悉”（Loss极低），攻击者就能推断出：“李明确实在这个学校，且上次数学不及格。” 学生的姓名、学号、成绩短板等核心隐私将彻底暴露！

为了打破攻击者的“测谎仪”，本研究引入了两大防御流派，并探讨了它们在保护隐私与维持 AI 教学智商（效用）之间的平衡：

🛡️ 标签平滑 (Label Smoothing, 训练期)：从小教育 AI“不要死记硬背”。在训练时强行引入不确定性，逼迫 AI 去学习加减乘除的通用规律，而不是死记李明的名字和分数。
🛡️ 输出扰动 (Output Perturbation, 推理期)：给 AI 的输出加上“变声器”。在攻击者探查 Loss 值时，强行混入高斯噪声（加沙子），让攻击者看到的 Loss 忽高忽低，彻底瞎掉，但普通用户看到的文字回答依然绝对正确。

策略	类型	AUC	Acc	Prec	Rec	F1	TPR@5%	TPR@1%	LossGap	效用	ΔAUC
基线	—	0.6230	0.6055	0.6779	0.4020	0.5047	0.1850	0.0930	0.0107	66.0%
LS(ε=0.02)	训练期	0.6041	0.5925	0.6404	0.4220	0.5087	0.1460	0.0620	0.0091	64.0%	-0.0189
LS(ε=0.05)	训练期	0.5934	0.5795	0.6819	0.2980	0.4148	0.1450	0.0630	0.0081	71.7%	-0.0295
LS(ε=0.1)	训练期	0.5797	0.5685	0.6320	0.3280	0.4319	0.1220	0.0380	0.0072	78.3%	-0.0432
LS(ε=0.2)	训练期	0.5705	0.5560	0.6077	0.3160	0.4158	0.1270	0.0380	0.0068	81.0%	-0.0525
OP(σ=0.005)	推理期	0.6116	0.5935	0.6936	0.3350	0.4518	0.1600	0.0570	0.0107	66.0%	-0.0114
OP(σ=0.01)	推理期	0.5956	0.5785	0.5987	0.4760	0.5304	0.1140	0.0250	0.0107	66.0%	-0.0274
OP(σ=0.015)	推理期	0.5833	0.5660	0.5844	0.4570	0.5129	0.1070	0.0260	0.0107	66.0%	-0.0397
OP(σ=0.02)	推理期	0.5752	0.5585	0.5593	0.5520	0.5556	0.0890	0.0160	0.0107	66.0%	-0.0478
OP(σ=0.025)	推理期	0.5698	0.5545	0.5580	0.5240	0.5405	0.0790	0.0200	0.0108	66.0%	-0.0532
OP(σ=0.03)	推理期	0.5654	0.5590	0.5594	0.5560	0.5577	0.0640	0.0190	0.0108	66.0%	-0.0575