期刊文献+
共找到2,798篇文章
< 1 2 140 >
每页显示 20 50 100
The Continuation Task and the Model-as-Feedback Writing Task in L2 Writing Development:Timing of Model Texts
1
作者 Xiaoyan Zhang 《Chinese Journal of Applied Linguistics》 2026年第1期76-91,160,共17页
This study compares the relative efficacy of the continuation task and the model-as-feedbackwriting (MAFW) task in EFL writing development. Ninety intermediate-level Chinese EFL learnerswere randomly assigned to a con... This study compares the relative efficacy of the continuation task and the model-as-feedbackwriting (MAFW) task in EFL writing development. Ninety intermediate-level Chinese EFL learnerswere randomly assigned to a continuation group, a MAFW group, and a control group, each with30 learners. A pretest and a posttest were used to gauge L2 writing development. Results showedthat the continuation task outperformed the MAFW task not only in enhancing the overall qualityof L2 writing, but also in promoting the quality of three components of L2 writing, namely, content,organization, and language. The finding has important implications for L2 writing teaching andlearning. 展开更多
关键词 continuation task model-as-feedback writing task L2 writing development timing of model texts
在线阅读 下载PDF
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
2
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection Topic model Graphical model Bayesian inference
在线阅读 下载PDF
面向研究生招生咨询的中文Text-to-SQL模型 被引量:1
3
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 text-to-SQL数据集
在线阅读 下载PDF
基于24Model的动火作业事故致因文本挖掘 被引量:1
4
作者 牛茂辉 李威君 +1 位作者 刘音 王璐 《中国安全科学学报》 北大核心 2025年第3期151-158,共8页
为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告... 为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告数据集,构建分类模型;然后,通过基于BERT的关键字提取算法(KeyBERT)和词频-逆文档频率(TF-IDF)算法的组合权重,结合24Model框架,建立动火作业事故文本关键词指标体系;最后,通过文本挖掘关键词之间的网络共现关系,分析得到事故致因之间的相互关联。结果显示,基于BERT的24Model分类器模型能够系统准确地判定动火作业事故致因类别,通过组合权重筛选得到4个层级关键词指标体系,其中安全管理体系的权重最大,结合共现网络分析得到动火作业事故的7项关键致因。 展开更多
关键词 “2-4”模型(24model) 动火作业 事故致因 文本挖掘 指标体系
原文传递
Statistical Language Model for Chinese Text Proofreading
5
作者 张仰森 曹元大 《Journal of Beijing Institute of Technology》 EI CAS 2003年第4期441-445,共5页
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chine... Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chinese text proofreading is proposed. This model takes full account of the information located before and after the target word wi, and the relationship between un-neighboring words w_i and w_j in linguistic environment(LE). First, the word association degree between w_i and w_j is defined by using the distance-weighted factor, w_j is l words apart from w_i in the LE, then Bayes formula is used to calculate the LE related degree of word w_i, and lastly, the LE related degree is taken as criterion to predict the reasonability of word w_i that appears in context. Comparing the proposed model with the traditional n-gram in a Chinese text automatic error detection system, the experiments results show that the error detection recall rate and precision rate of the system have been improved. 展开更多
关键词 statistical language model N-GRAM linguistic environment text proofreading
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
6
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 Topic model BERTopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
Creating Knowledge-Based Diagnostic Models by Mining Textual Diagnostic Reports of SPECT Scans
7
作者 Chuangui Cao Chengcheng Han Qiang Lin 《Journal of Computer and Communications》 2021年第5期10-19,共10页
Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i... Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i>, lesions) and diagnostic results. However, how to construct a computer-aided diagnostic model with a large number of medical texts is a challenging task. To automatically diagnose diseases with SPECT imaging, in this work, we create a knowledge-based diagnostic model by exploring the association between a disease and its properties. Firstly, an overview of nuclear medicine and data mining is presented. Second, the method of preprocessing textual nuclear medicine diagnostic reports is proposed. Last, the created diagnostic modes based on random forest and SVM are proposed. Experimental evaluation conducted real-world data of diagnostic reports of SPECT imaging demonstrates that our diagnostic models are workable and effective to automatically identify diseases with textual diagnostic reports. 展开更多
关键词 text Classification Nuclear Medicine SPECT Imaging Diagnostic model Random Forest SVM
在线阅读 下载PDF
基于检索增强Text-to-SQL生成的书目搜索对话问答系统研究
8
作者 王震宇 朱学芳 +2 位作者 张君冬 杨睿 刘崧印 《数据分析与知识发现》 北大核心 2025年第11期165-174,共10页
【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-... 【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-SQL生成易受噪声与领域差异影响的问题,设计了一种基于对比学习的示例选择策略,通过微调文本嵌入模型,使其更关注查询的句法结构与检索意图,从而提升相似度排序质量。实验基于构建的书目搜索语义解析数据集进行,在零样本与少样本条件下对系统性能进行对比验证。【结果】相较于零样本设置,采用本文方法的DeepSeek-V3模型在5-Shot场景下的SQL执行准确率提高了18.5个百分点,验证了该示例选择策略在专业领域Text-to-SQL任务中的有效性。【局限】由于实验数据集覆盖范围有限,系统对跨领域查询的适应性仍需进一步增强。【结论】研究证明了大语言模型结合对比学习示例选择策略在书目智能搜索场景中的有效性,可为其他垂直领域对话问答系统的构建与优化提供参考。 展开更多
关键词 书目搜索 检索增强生成 text-to-SQL 对话问答系统 模型上下文协议
原文传递
亲子冲突类型的智能判别:基于大语言模型的文本分析方法验证
9
作者 康春花 王汉秦 倪志浩 《西南大学学报(社会科学版)》 北大核心 2026年第1期249-260,292,共13页
研究旨在开发一种基于文本分析的亲子冲突类型智能判别工具,重点验证大语言模型在此类细粒度心理文本分类任务中的性能与可行性。首先,构建包含四种亲子冲突类型的理论框架,并据此开发亲子冲突文本测试框架。随后,应用大语言模型对冲突... 研究旨在开发一种基于文本分析的亲子冲突类型智能判别工具,重点验证大语言模型在此类细粒度心理文本分类任务中的性能与可行性。首先,构建包含四种亲子冲突类型的理论框架,并据此开发亲子冲突文本测试框架。随后,应用大语言模型对冲突文本进行自动分类,并从准确率、召回率及语义理解准确性等维度,与人工标注结果进行系统对比。结果表明,相较于传统机器学习方法,大语言模型表现出更稳健的分类性能与更好的语义捕捉能力,尤其是在显性冲突识别方面效果显著;然而,在涉及隐性冲突的复杂场景中,该模型仍存在一定的局限性,需结合人工辅助进行修正。研究证实了大语言模型可作为亲子冲突文本智能判别的有效技术,为其在家庭教育与心理评估领域的应用提供方法依据。 展开更多
关键词 亲子冲突 大语言模型 文本分析 智能判别 家庭教育
在线阅读 下载PDF
政策再生产视角下老旧小区改造的话语演变与治理转向
10
作者 刘铮 李倩如 《风景园林》 北大核心 2026年第2期40-49,共10页
【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec... 【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec词向量模型计算主题相似度,构建政策主题演化路径。基于住建部最新颁布的八批次城镇老旧小区改造可复制政策机制清单,进一步论证现阶段政策的话语构成与制度特征。【结果】老旧小区改造政策实现了从政策实验探索向政策机制完善的阶段演化,近年来呈现出多元共治的治理转向特征。同时,各地改造政策制定从早期的差异化探索逐步走向治理机制协同深化。【结论】老旧小区改造的治理投入持续提升,已实现从政策试验向制度完善的系统演进。进入存量增效提质阶段,老旧小区改造工作应进一步以“设计治理”理念为指引,充分吸收分借鉴可复制政策机制清单的创新经验,最终实现城市空间品质与治理效能的持续提升。 展开更多
关键词 城市更新 老旧小区改造 政策再生产 可复制政策机制清单 政策文本分析 主题建模分析
在线阅读 下载PDF
我国省域公共数据治理政策量化评价——基于PMC指数模型
11
作者 李春林 张小亚 《科技智囊》 2026年第2期58-67,共10页
[研究目的]对我国省域公共数据治理政策进行量化评价,为制定和优化省域公共数据治理政策提供理论依据和对策建议。[研究方法]选取2015—2024年共计95份省域公共数据治理政策文本作为研究对象,采用ROST CM6软件进行文本挖掘,构建省域公... [研究目的]对我国省域公共数据治理政策进行量化评价,为制定和优化省域公共数据治理政策提供理论依据和对策建议。[研究方法]选取2015—2024年共计95份省域公共数据治理政策文本作为研究对象,采用ROST CM6软件进行文本挖掘,构建省域公共数据治理政策的PMC指数模型,对我国省域公共数据治理政策进行量化评价。[研究结论]我国省域公共数据治理政策整体质量较高,除中国香港、中国澳门、中国台湾地区外的31个省(区、市)中,有6个达到优秀等级、23个处于良好等级、2个处于可接受等级,其在政策工具、政策领域、政策评价等方面均表现优秀,但在政策时效、政策效力等方面还存在不足。为了提升政策效能,省域政府应该完善政策时效体系、强化政策内容协同、加强政策主体协同以及激发政策客体作用。 展开更多
关键词 省域 公共数据治理 政策文本 PMC指数模型 政策评价
在线阅读 下载PDF
省级银发经济发展政策的评价与改进——基于文本挖掘及PMC指数模型
12
作者 苏立宁 刘亚婷 《科技和产业》 2026年第3期75-81,共7页
养老事业与养老产业的发展需要与时俱进且合理的政策体系支持。政策文本的量化分析能够为银发经济的进一步腾飞提供保障和参考。基于政策制定的视角,以中央和地方出台的38项银发经济发展的相关政策为研究对象,将政策文本挖掘和PMC(政策... 养老事业与养老产业的发展需要与时俱进且合理的政策体系支持。政策文本的量化分析能够为银发经济的进一步腾飞提供保障和参考。基于政策制定的视角,以中央和地方出台的38项银发经济发展的相关政策为研究对象,将政策文本挖掘和PMC(政策一致性)指数模型相结合,建立银发经济发展政策的量化评价指标体系,并从中选取有代表性的9项政策文本进行量化评价。研究发现,当前中国省级银发经济发展政策文本整体处于优秀水平,评估的9项政策中,包含7项优秀政策和2项可接受政策。依据PMC指数模型评价结果对中国目前的银发经济发展政策提出优化政策工具的使用结构、政策制定主体多元化、全面完善政策内容等建议。研究成果为银发经济政策的优化和完善提供了新的视角。 展开更多
关键词 银发经济 养老产业 PMC(政策一致性)指数模型 文本挖掘
在线阅读 下载PDF
大语言模型幻觉检测方法综述 被引量:2
13
作者 李自拓 孙建彬 +5 位作者 陈广州 方馨悦 崔瑞靖 田植良 黄震 杨克巍 《计算机研究与发展》 北大核心 2026年第1期123-146,共24页
近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucinati... 近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucination)问题引起了学术界和工业界的广泛关注。如何有效检测大语言模型幻觉,成为确保其在文本生成等下游任务可靠、安全、可信应用的关键挑战。该研究着重对大语言模型幻觉检测方法进行综述:首先,介绍了大语言模型概念,进一步明确了幻觉的定义与分类,系统梳理了大语言模型从构建到部署应用全生命周期各环节的特点,并深入分析了幻觉的产生机制与诱因;其次,立足于实际应用需求,考虑到在不同任务场景下模型透明度的差异等因素,将幻觉检测方法划分为针对白盒模型和黑盒模型2类,并进行了重点梳理和深入对比;而后,分析总结了现阶段主流的幻觉检测基准,为后续开展幻觉检测奠定基础;最后,指出了大语言模型幻觉检测的各种潜在研究方法和新的挑战。 展开更多
关键词 幻觉检测 大语言模型 事实一致性 文本生成 自然语言处理
在线阅读 下载PDF
基于大语言模型协同标注的政策文本技术实体识别研究
14
作者 张彪 陈云伟 《情报理论与实践》 北大核心 2026年第3期113-120,83,共9页
[目的/意义]政策文本中的技术实体凝结了国家战略研判与产业科研共识,识别技术实体有助于揭示政策导向、把握技术演进并支撑战略决策。[方法/过程]首先,针对技术实体的稀疏和分布不均衡特点,设计了“先段落分类、再实体识别”的两阶段... [目的/意义]政策文本中的技术实体凝结了国家战略研判与产业科研共识,识别技术实体有助于揭示政策导向、把握技术演进并支撑战略决策。[方法/过程]首先,针对技术实体的稀疏和分布不均衡特点,设计了“先段落分类、再实体识别”的两阶段处理方案;其次,提出LLMs协同标注架构,提高标注一致性和标注效率;最后,基于协同标注的数据集,构建了RoBERTa_CRF等序列标注模型,并对大规模政策语料进行了实际应用。[结果/结论]协同标注方法能够在大规模语料上生成高质量训练数据,显著提升建模的可行性与实用性;在实际应用中识别出约17.5万个技术实体,揭示了我国科技政策演化趋势及技术实体的地域差异。实证结果验证了技术实体识别模型在政策情报分析中的重要价值,也展示了其在学术论文、专利和产业报告等非结构化语料的扩展潜力,为战略分析和知识治理提供了新的思路。 展开更多
关键词 大语言模型 技术实体 实体识别 协同标注 政策文本
原文传递
基于结构感知与蒙特卡洛树搜索的SQL生成
15
作者 富宇 李浩冉 《计算机技术与发展》 2026年第3期118-123,117,共7页
自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力... 自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力。为此,该文提出Struct-MCTS,一种基于结构感知与蒙特卡洛树搜索(MCTS)的Text-to-SQL生成框架。该框架通过细粒度结构化动作建模SQL生成过程,并结合多模型并行生成与协同辩论对候选路径进行动态打分,从而提升生成结果的鲁棒性与一致性。在零样本条件下,Struct-MCTS在Spider和BIRD等复杂数据集上表现出领先的执行准确率,显示出强泛化能力与实际应用潜力。 展开更多
关键词 text-to-SQL 大语言模型 结构感知 蒙特卡洛树搜索 多模型辩论 零样本学习
在线阅读 下载PDF
Geo-Text-700测试集的GIS领域国产大语言模型的性能评测
16
作者 侯家熙 袁莹 +1 位作者 黄宗财 李晖 《厦门理工学院学报》 2025年第5期40-47,共8页
针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order pre... 针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order preference by similarity to ideal solution,TOPSIS)对10个主流国产模型进行多维度评估。测评结果显示:模型表现呈现显著题型分化,客观题平均得分为68.4(标准差±5.2),较主观题低21.7%(P<0.05);Doubao-pro-32k综合得分最优(87.3),客观题优势显著(单选86,填空77);hunyuan-turbo在主观题(简答88.1,编程90.83)方面展现高阶任务潜力;领域知识盲区突出,如GIS拓扑规则题错误率为43.6%。 展开更多
关键词 地理信息科学(GIS) 大语言模型 评测体系 Geo-text-700测试集 TOPSIS-AHP法
在线阅读 下载PDF
基于主题的SE-TextRank情感摘要方法 被引量:8
17
作者 刘志明 于波 +3 位作者 欧阳纯萍 余颖 阳小华 翟云 《情报工程》 2017年第3期97-104,共8页
技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分... 技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。 展开更多
关键词 文本摘要 LDA模型 余弦距离 SE-textRank 特征融合
在线阅读 下载PDF
基于无监督文本特征的隐含主题自动抽取方法
18
作者 包永红 《现代电子技术》 北大核心 2026年第4期42-46,共5页
文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取... 文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取方法。利用双向最大匹配法对文本进行分词后,去除其中的停用词,完成文本预处理工作;采用无监督TF-IDF算法提取预处理后文本的特征,再将文本数据转换为数值型特征向量,构建词特征向量集;引入LDA模型自动抽取隐含主题,即构建词特征向量中词汇对应隐含主题的概率分布模型,并利用Gibbs快速抽样法获取模型超参数,得到隐含主题概率分布,进而依据该分布结果实现文本隐含主题的自动抽取。实验结果表明,所提方法在应用过程中的F1值高于0.93,困惑度低于0.6,能够精准地抽取文本中的隐含主题。 展开更多
关键词 隐含主题 自动抽取 文本特征 无监督TF-IDF算法 LDA模型 Gibbs快速抽样法
在线阅读 下载PDF
大模型提示工程能够替代经典深度学习模型吗?——基于医学文本实体关系抽取任务的对比研究
19
作者 段宇锋 谢佳宏 +1 位作者 柏萍 龚天阳 《数据分析与知识发现》 北大核心 2026年第1期61-75,共15页
【目的】探讨在具有较高专业性和领域特色的中文医学文本实体关系抽取任务中,大模型提示工程方法能否替代经典深度学习模型。【方法】使用GLM-4、ERNIE-4-Turbo、DeepSeek-R1三种大模型和CBLUE、CasRel、GPLinker三种经典深度学习模型,... 【目的】探讨在具有较高专业性和领域特色的中文医学文本实体关系抽取任务中,大模型提示工程方法能否替代经典深度学习模型。【方法】使用GLM-4、ERNIE-4-Turbo、DeepSeek-R1三种大模型和CBLUE、CasRel、GPLinker三种经典深度学习模型,通过改变需要抽取的关系类型数量、大模型Prompt中的示例数量以及经典深度学习模型的训练数据规模,系统比较基于提示工程的大模型与经典深度学习模型的性能差异。使用BERT-Base和RoBERTa作为经典深度学习模型的编码器。【结果】在CMeIE-V2数据集上的实验结果表明:(1)RoBERTa-CBLUE和RoBERTa-GPLinker的抽取效果最好,在抽取一种关系类型时F1值达到0.5826和0.5853,抽取10种关系类型时F1值为0.5112和0.4934;(2)大模型不擅长同时抽取多种关系。GLM-4、ERNIE-4-Turbo和DeepSeek-R1抽取两种关系类型的F1值比抽取一种关系类型时分别下降0.1182、0.0885、0.1310;(3)在Prompt中添加示例可以提高大模型的抽取效果,但示例数量并不是越多越好。【局限】仅在单一数据集上进行实验,未拓展至更多领域的数据集。【结论】大模型提示工程方法目前难以替代经典深度学习模型,仅能够在标注样本较少时作为备选项。 展开更多
关键词 提示工程 大语言模型 深度学习模型 实体关系抽取 中文医学文本
原文传递
融合FastText模型和注意力机制的网络新闻文本分类模型 被引量:11
20
作者 王婉 张向先 +1 位作者 卢恒 张莉曼 《现代情报》 CSSCI 2022年第3期40-47,共8页
[目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用... [目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用融合注意力机制的Bi LSTM;tte模型实现新闻文本分类。[结果/结论]实验结果显示,融合了Fast Text模型与注意力机制的网络新闻文本分类模型使F1值从90.62%提升到92.03%,说明本文提出的文本分类模型能够提升网络新闻文本分类的精确率,对网络新闻平台提升知识组织效率、优化服务水平具有重要参考价值。 展开更多
关键词 网络新闻 文本分类 注意力机制 双向长短期记忆神经网络模型
在线阅读 下载PDF
上一页 1 2 140 下一页 到第
使用帮助 返回顶部