Project Flow
项目路径
明确中文 AI 文本检测的任务边界、误判代价与使用场景。
移除模板和 unknown 样本,增补弱域与长文 AI 样本,形成 V11c 数据池。
以 BERT 微调为主线,配合 Temperature Scaling、风险提示和反馈闭环。
用多版本对比、独立评估集、混淆矩阵和校准结果证明方法可靠性。
前端负责交互和展示,后端统一输出 Human / AI 二分类结果与判定依据。
把演示程序、数据来源、模型关键点、优化过程、性能指标、比较过程和结论放在一页集中展示。
把方法、指标、工程实现与当前局限整理成站内可检索的项目问答入口。
Review Coverage
项目关注点覆盖
带界面的功能展示
在线输入文本,实时返回 Human / AI、置信度、句级分析和误判回流入口。
说明数据来源
展示训练样本规模、Human/AI 比例、人类文本来源、AI 模型来源和 fair test 切分。
算法或模型关键点
说明 bert-base-chinese 微调、[CLS] 分类头、Temperature Scaling 和线上二分类策略。
优化过程
按 V6 到 V11c 展示数据增强、风险治理、弱域增补、长文修复和置信度校准。
性能指标与比较
展示三集平均、独立评估集、混淆矩阵、消融实验、V10/V11c 和基线方法对比。
结论与局限
总结当前主模型已稳定上线,同时说明长文本、正式文体和混合文本仍是后续方向。
Quick Answers
核心问题速答
为什么选 BERT 微调?
因为 AI 文本检测是判别任务,bert-base-chinese 的双向编码器适合提取整段语义特征,推理成本也比大生成模型低。
为什么不是只看准确率?
因为检测系统的实际风险不止在于分数高低,还在于误报、漏报、校准与独立评估表现。
为什么不做三分类?
因为混合文本样本规模不足,边界模型在真实输入上不够稳定,当前线上只保留 Human / AI 二分类。