基于 BERT 微调的中文 AI 生成文本检测系统

西安科技大学 · 计算机科学与技术 · 包安心 · 指导教师:符立梅 · 2026

默认
V11c
PyTorch · Transformers · BERT-base-chinese

核心指标

bert_v11c_boundary_fix
0.00%
三集平均
0.00%
独立评估集
0.00%
clean 验证集
V11c
默认模型

研究摘要

随着 ChatGPT 等大语言模型的快速普及,AI 生成文本在学术写作、新闻报道、社交媒体等领域广泛渗透,由此引发的学术诚信、虚假信息传播等问题日益严峻。如何准确区分人类撰写与 AI 生成的中文文本,已成为自然语言处理领域的重要研究课题。

本研究以 BERT-base-chinese 为基础模型,通过数据清洗、弱域增补、边界修复等风险治理策略构建高质量训练数据集,并采用微调方法训练面向中文文本的 AI 生成内容检测器。最终模型 bert_v11c_boundary_fix 在三个评估集上取得 98.56% 的平均准确率,独立评估集准确率达 98.57%,同时通过 Temperature Scaling 校准(T=0.8165, ECE=0.0034)实现了可靠的置信度输出。

本系统保留基于 Token 级分类的边界检测模块,可为混合文本(人类+AI)提供辅助性的内容转换位置分析。整体系统以 FastAPI 提供后端服务,前端基于 Next.js 构建交互式演示界面。

技术特点

当前稳定模型

bert_v11c_boundary_fix 主路径二分类,三集平均 98.56%。

边界分析

Span 模块 Token 级 96.69%,辅助混合文本定位。

保守判定

T=0.8165 校准,默认阈值优先降低人类误报。

项目导航