高可用性的跨领域机器生成文本检测方法

Highly Available Cross-Domain Machine-Generated Text Detection Method

下载PDF

导出

摘要 AIGC已严重影响信息的真实性、可靠性,造成数据污染、产权归属、诚信危机等众多技术和社会问题.现有机器生成文本检测方法主要针对特定领域且检测准确率较低,更难用于敏感、私有、小样本等跨领域数据.针对该问题提出一种高可用性的跨领域机器生成文本检测方法.该方法优选任一领域内的类别中心样本训练生成专域编码器,利用领域特征增强边界区分性;构建一种正交损失函数联合专域编码器训练生成泛域编码器,强化机器生成文本的共性特征支持多领域机器生成文本的检测.真实数据实验结果表明,单领域检测模型无需微调即可在其他领域获得高检测准确率,适用范围广,实用性强. Artificial intelligence generated content(AIGC)has seriously affected information authenticity and reliability,leading to various technical and social problems such as data pollution,property ownership,and credibility crisis.Existing machine-generated text detection methods are primarily designed for specific domains and suffer from relatively low detection accuracy,making them even less effective when applied to cross-domain data such as sensitive,private,or small-sample data.To address this problem,a high available cross-domain machine-generated text detection method was proposed.This method first selected the class-center samples in any domain to train a domain-specific encoder,thereby leveraging domain features enhance boundary distinguishability.Then,an orthogonal loss function was constructed to train a domain-general encoder with the domain-specific encoder,reinforcing the general-feature of machine-generated text to support the detection across multiple domains.Experimental results on real-world data show that the detection model trained on a single domain can obtain high detection accuracy in other domains without fine-tuning,highlighting its broad applications and strong practicality.

作者罗森林杨宗源潘丽敏周瑾洁门元昊李晔 LUO Senlin;YANG Zongyuan;PAN Limin;ZHOU Jinjie;MEN Yuanhao;LI Ye(School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China;China Network Coordination Emergency Response Team/China Coordination Center,Beijing 100029,China)

机构地区北京理工大学信息与电子学院国家计算机网络应急技术处理协调中心

出处《北京理工大学学报》北大核心 2025年第12期1296-1304,共9页 Transactions of Beijing Institute of Technology

基金国家“二四二”信息安全项目(2020A065)。

关键词机器生成文本检测域泛化预训练语言模型 machine-generated text detection domain generalization pre-trained language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1罗森林,费泽涛,潘丽敏,吴舟婷.利用异配及同配关系的社交机器人检测方法[J].北京理工大学学报,2025,45(1):77-86. 被引量：1
2罗森林,王睿怡,吴倩,潘丽敏,吴舟婷.融合序列语法知识的卷积-自注意力生成式摘要方法[J].北京理工大学学报,2021,41(1):93-101. 被引量：3
3罗森林,董勃,潘丽敏,吴舟婷.融合领域要素知识的多粒度法律文本匹配方法[J].北京理工大学学报,2024,44(3):298-305. 被引量：3
4QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：204

二级参考文献9

1沈思,朱丹浩.基于深度学习的中文地名识别研究[J].北京理工大学学报,2017,37(11):1150-1155. 被引量：18
2王茂森,蒋小森,牛少彰.一种新的场景文本识别模型[J].北京理工大学学报,2019,39(3):269-275. 被引量：4
3王建中,王洪枫,刘弘扬,李博,孙庸,张驰逸.士兵目标的少样本深度学习检测方法[J].北京理工大学学报,2021,41(6):629-635. 被引量：5
4刘琼昕,覃明帅.基于知识表示学习的协同矩阵分解方法[J].北京理工大学学报,2021,41(7):752-757. 被引量：6
5罗森林,杨俊楠,潘丽敏,吴舟婷.面向信息与通信技术供应链网络画像构建的文本语义匹配方法[J].北京理工大学学报,2021,41(8):864-872. 被引量：7
6Shang Li,Hongli Zhang,Lin Ye,Shen Su,Xiaoding Guo,Haining Yu,Binxing Fang.Prison Term Prediction on Criminal Case Description with Deep Learning[J].Computers, Materials & Continua,2020(3):1217-1231. 被引量：3
7罗森林,鲁帅,张毅飞,潘丽敏.基于随机平滑的恶意软件识别深度学习模型鲁棒性认证方法[J].北京理工大学学报,2023,43(2):197-202. 被引量：5
8罗森林,张睿智,潘丽敏,吴舟婷.多标签小样本实例级注意力原型网络分类方法[J].北京理工大学学报,2023,43(4):403-409. 被引量：4
9罗森林,董勃,潘丽敏,吴舟婷.融合领域要素知识的多粒度法律文本匹配方法[J].北京理工大学学报,2024,44(3):298-305. 被引量：3

共引文献207

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218. 被引量：1
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：70
4Yi HAN,Linbo QIAO,Jianming ZHENG,Hefeng WU,Dongsheng LI,Xiangke LIAO.A survey of script learning[J].Frontiers of Information Technology & Electronic Engineering,2021,22(3):341-373.
5郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：35
6邱石贵,章化奥,段湘煜,张民.神经机器翻译的词级别正则化[J].厦门大学学报（自然科学版）,2021,60(4):662-669.
7王涛,刘超辉,郑青青,黄嘉曦.基于单向Transformer和孪生网络的多轮任务型对话技术[J].计算机工程,2021,47(7):55-58. 被引量：1
8陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：10
9王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
10杨修远,彭韬,杨亮,林鸿飞.基于知识蒸馏的自适应多领域情感分析[J].山东大学学报（工学版）,2021,51(3):15-21. 被引量：1

1齐炳新,李智玲,刘禹琦,徐浩.基于集中监控信息的变电站风险评估方法[J].计算机仿真,2025,42(11):206-210.
2欧彦江,秦都,杨岗,罗文成.小样本条件下的表面粗糙度预测方法研究[J].机械设计与制造,2025(12):272-276.
3黄显峰,谭毅苗,赵同强,郭晓茜.基于组合赋权云模型的平原河网水量水质评价模型研究[J].水资源与水工程学报,2025,36(5):48-56. 被引量：1
4蔡传里.中国式现代化背景下儒家诚信思想融入会计理论体系创新研究[J].中国文化与管理,2025(2):189-199.
5鞠兵,张国祥,王小娜,潘纪龙.某浅埋铁矿采矿方法优选与采场结构参数优化研究[J].采矿技术,2025,25(6):39-46.
6李帝铨,朱瀚宇,王金海,佟铁钢.白云鄂博岩石物性特征及其勘探指示意义[J].中国有色金属学报,2025,35(11):4006-4028.
7李梦瑶,盛双庆.《土地利用/覆被遥感分析》书评[J].发展地理学前沿,2025,4(3):54-58.
8王维刚,田丰,路敬祎.少量损伤样本下海洋导管架平台损伤识别研究[J].机械设计与制造工程,2025,54(12):87-91.

北京理工大学学报

2025年第12期

浏览历史

内容加载中请稍等...

高可用性的跨领域机器生成文本检测方法

参考文献4

二级参考文献9

共引文献207

相关作者

相关机构

相关主题

浏览历史