期刊文献+
共找到2,658篇文章
< 1 2 133 >
每页显示 20 50 100
面向研究生招生咨询的中文Text-to-SQL模型
1
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 text-to-SQL数据集
在线阅读 下载PDF
基于24Model的动火作业事故致因文本挖掘 被引量:1
2
作者 牛茂辉 李威君 +1 位作者 刘音 王璐 《中国安全科学学报》 北大核心 2025年第3期151-158,共8页
为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告... 为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告数据集,构建分类模型;然后,通过基于BERT的关键字提取算法(KeyBERT)和词频-逆文档频率(TF-IDF)算法的组合权重,结合24Model框架,建立动火作业事故文本关键词指标体系;最后,通过文本挖掘关键词之间的网络共现关系,分析得到事故致因之间的相互关联。结果显示,基于BERT的24Model分类器模型能够系统准确地判定动火作业事故致因类别,通过组合权重筛选得到4个层级关键词指标体系,其中安全管理体系的权重最大,结合共现网络分析得到动火作业事故的7项关键致因。 展开更多
关键词 “2-4”模型(24model) 动火作业 事故致因 文本挖掘 指标体系
原文传递
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
3
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 Topic model BERTopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
Geo-Text-700测试集的GIS领域国产大语言模型的性能评测
4
作者 侯家熙 袁莹 +1 位作者 黄宗财 李晖 《厦门理工学院学报》 2025年第5期40-47,共8页
针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order pre... 针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order preference by similarity to ideal solution,TOPSIS)对10个主流国产模型进行多维度评估。测评结果显示:模型表现呈现显著题型分化,客观题平均得分为68.4(标准差±5.2),较主观题低21.7%(P<0.05);Doubao-pro-32k综合得分最优(87.3),客观题优势显著(单选86,填空77);hunyuan-turbo在主观题(简答88.1,编程90.83)方面展现高阶任务潜力;领域知识盲区突出,如GIS拓扑规则题错误率为43.6%。 展开更多
关键词 地理信息科学(GIS) 大语言模型 评测体系 Geo-text-700测试集 TOPSIS-AHP法
在线阅读 下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:5
5
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 BERT预训练语言模型 文本卷积神经网络 评估过程重构
在线阅读 下载PDF
基于语义增强模式链接的Text-to-SQL模型 被引量:1
6
作者 吴相岚 肖洋 +1 位作者 刘梦莹 刘明铭 《计算机应用》 CSCD 北大核心 2024年第9期2689-2695,共7页
为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加... 为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加权的余弦相似度以及图正则化方法学习相似度度量图使得初始模式链接图在训练中迭代优化;最后,使用改良的关系图注意力网络(RGAT)图编码器以及多头注意力机制对两个模块的联合语义模式链接图进行编码,并且使用基于语法的神经语义解码器和预定义的结构化语言进行结构化查询语言(SQL)语句解码。在Spider数据集上的实验结果表明,使用ELECTRA-large预训练模型时,SELSQL模型比最佳基线模型的准确率提升了2.5个百分点,对于复杂SQL语句生成的提升效果很大。 展开更多
关键词 模式链接 图结构学习 预训练语言模型 text-to-SQL 异构图
在线阅读 下载PDF
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
7
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection Topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于Bert-TextCNN的开源威胁情报文本的多标签分类方法 被引量:7
8
作者 陆佳丽 《信息安全研究》 CSCD 北大核心 2024年第8期760-768,共9页
开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则... 开源威胁情报对网络安全防护十分重要,但其存在着分布广、形式多、噪声大的特点.所以如何能对收集到的海量开源威胁情报进行高效的整理和分析就成为亟需解决的问题.因此,探索了一种以Bert-TextCNN模型为基础且同时考虑标题、正文和正则判断的多标签分类方法.根据情报源发布文本的特点,设置正则判断规则,以弥补模型的欠缺;为更全面反映开源威胁情报文本所涉及的威胁主题,针对标题和正文分别设置了Bert-TextCNN多标签分类模型,并将2部分标签整理去重以得到文本的最终威胁类别.通过与只依据正文建立的Bert-TextCNN多标签分类模型进行对比,所设置的模型在性能上有所提升,且召回率提升明显,能为开源威胁情报分类工作提供有价值的参考. 展开更多
关键词 开源威胁情报 多标签分类 文本分类 Bert模型 textCNN模型
在线阅读 下载PDF
CINO-TextGCN:融合CINO与TextGCN的藏文文本分类模型研究 被引量:2
9
作者 李果 杨进 陈晨 《高原科学研究》 CSCD 2024年第1期121-129,共9页
为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评... 为提高藏文新闻文本分类准确性,文章提出一种融合少数民族语言预训练模型(Chinese Minority Pr-etrained Language Model,CINO)和图卷积神经网络模型(Text Graph Convolutional Networks,TextGCN)的方法,即CINO-TextGCN模型。为有效评测该模型对藏文文本的分类性能,自建了较大规模和较高质量的藏文新闻文本公开数据集TNEWS(https://github.com/LG2016/CINO-TextGCN),通过实验发现,CINO-Text-GCN在公开数据集TNCC上的准确率为74.20%,在TNEWS上为83.96%。因此,该融合模型能够较好地捕捉到藏文文本语义,提升藏文文本分类性能。 展开更多
关键词 藏文 图卷积神经网络 融合模型 新闻文本 文本分类
在线阅读 下载PDF
HybridGAD: Identification of AI-Generated Radiology Abstracts Based on a Novel Hybrid Model with Attention Mechanism
10
作者 TugbaÇelikten Aytug Onan 《Computers, Materials & Continua》 SCIE EI 2024年第8期3351-3377,共27页
Class Title:Radiological imaging method a comprehensive overview purpose.This GPT paper provides an overview of the different forms of radiological imaging and the potential diagnosis capabilities they offer as well a... Class Title:Radiological imaging method a comprehensive overview purpose.This GPT paper provides an overview of the different forms of radiological imaging and the potential diagnosis capabilities they offer as well as recent advances in the field.Materials and Methods:This paper provides an overview of conventional radiography digital radiography panoramic radiography computed tomography and cone-beam computed tomography.Additionally recent advances in radiological imaging are discussed such as imaging diagnosis and modern computer-aided diagnosis systems.Results:This paper details the differences between the imaging techniques the benefits of each and the current advances in the field to aid in the diagnosis of medical conditions.Conclusion:Radiological imaging is an extremely important tool in modern medicine to assist in medical diagnosis.This work provides an overview of the types of imaging techniques used the recent advances made and their potential applications. 展开更多
关键词 Generative artificial intelligence AI-generated text detection attention mechanism hybrid model for text classification
暂未订购
Statistical Language Model for Chinese Text Proofreading
11
作者 张仰森 曹元大 《Journal of Beijing Institute of Technology》 EI CAS 2003年第4期441-445,共5页
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chine... Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chinese text proofreading is proposed. This model takes full account of the information located before and after the target word wi, and the relationship between un-neighboring words w_i and w_j in linguistic environment(LE). First, the word association degree between w_i and w_j is defined by using the distance-weighted factor, w_j is l words apart from w_i in the LE, then Bayes formula is used to calculate the LE related degree of word w_i, and lastly, the LE related degree is taken as criterion to predict the reasonability of word w_i that appears in context. Comparing the proposed model with the traditional n-gram in a Chinese text automatic error detection system, the experiments results show that the error detection recall rate and precision rate of the system have been improved. 展开更多
关键词 statistical language model N-GRAM linguistic environment text proofreading
在线阅读 下载PDF
CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval
12
作者 Tao Zhang Yu Zhang 《Journal of Computer and Communications》 2024年第11期26-36,共11页
Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval per... Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models. 展开更多
关键词 Video Sampling Multimodal Large Language model text-Video Retrieval CLIP model
在线阅读 下载PDF
Creating Knowledge-Based Diagnostic Models by Mining Textual Diagnostic Reports of SPECT Scans
13
作者 Chuangui Cao Chengcheng Han Qiang Lin 《Journal of Computer and Communications》 2021年第5期10-19,共10页
Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i... Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i>, lesions) and diagnostic results. However, how to construct a computer-aided diagnostic model with a large number of medical texts is a challenging task. To automatically diagnose diseases with SPECT imaging, in this work, we create a knowledge-based diagnostic model by exploring the association between a disease and its properties. Firstly, an overview of nuclear medicine and data mining is presented. Second, the method of preprocessing textual nuclear medicine diagnostic reports is proposed. Last, the created diagnostic modes based on random forest and SVM are proposed. Experimental evaluation conducted real-world data of diagnostic reports of SPECT imaging demonstrates that our diagnostic models are workable and effective to automatically identify diseases with textual diagnostic reports. 展开更多
关键词 text Classification Nuclear Medicine SPECT Imaging Diagnostic model Random Forest SVM
在线阅读 下载PDF
大模型辅助的研发合作机会识别与可交互图谱构建 被引量:1
14
作者 郝世博 史东昊 +2 位作者 朱学芳 孙明汉 宦昭润 《情报杂志》 北大核心 2025年第4期173-180,189,共9页
[研究目的]为提高科技成果转化效率和质量、优化创新资源配置,实现技术供需精准对接和挖掘潜在研发合作机会。[研究方法]首先通过大语言模型辅助智能抽取得到关键技术信息,利用不同模型获得文本嵌入向量表征并生成相似度矩阵;其次使用... [研究目的]为提高科技成果转化效率和质量、优化创新资源配置,实现技术供需精准对接和挖掘潜在研发合作机会。[研究方法]首先通过大语言模型辅助智能抽取得到关键技术信息,利用不同模型获得文本嵌入向量表征并生成相似度矩阵;其次使用最优模型编码的专利相似度数据生成创新主体相似度,并构建满足多元化场景挖掘需求的研发合作机会可交互网络图谱;最后以激光增材制造领域为例验证了该文所提方法的可行性。[研究结果/结论]案例研究表明,所提出的研发合作机会识别与可交互网络图谱构建方法能够为企业技术创新及高校院所专利转化运用提供更为精准的决策支撑。 展开更多
关键词 专利文本嵌入 大语言模型 研发合作机会识别 可交互网络图谱 激光增材制造
在线阅读 下载PDF
基于BERTopic-Kano模型的老年人健康管理服务系统设计
15
作者 扈剑颖 鲁莹 +3 位作者 李龙珠 廉博杰 周钰怀 侯士江 《包装工程》 北大核心 2025年第16期81-91,共11页
目的随着老年人口比例持续攀升,面向老年人健康管理服务系统的需求日益增长。因此,提出一种集成BERTopic和Kano模型的老年人健康管理服务系统设计方法,以提升用户体验。方法首先,爬取“微博”平台的关于“老年人健康管理”的相关文本数... 目的随着老年人口比例持续攀升,面向老年人健康管理服务系统的需求日益增长。因此,提出一种集成BERTopic和Kano模型的老年人健康管理服务系统设计方法,以提升用户体验。方法首先,爬取“微博”平台的关于“老年人健康管理”的相关文本数据;其次,运用BERTopic模型实现文本数据的聚类,并提取主题下的高频特征词进行分析,以识别出用户需求;最后,采用Kano模型对用户需求进行分类,通过Better-Worse系数量化需求优先级,并指导设计实践。结果识别出关于老年人健康管理的必备型、期望型和魅力型需求,在用户需求的基础上以秦皇岛康养社区为例进行设计实践。结论创新性地提出一种融合BERTopic主题建模与Kano模型的设计方法,通过实践验证了该方法在老年人健康管理设计领域的有效性与应用价值。 展开更多
关键词 文本挖掘 BERTopic主题模型 KANO模型 老年人健康管理
在线阅读 下载PDF
面向古籍文献智能处理的大语言模型效能测评
16
作者 文玉锋 林伟杰 +1 位作者 夏翠娟 周文杰 《图书馆论坛》 北大核心 2025年第8期52-60,共9页
古籍文献是中华优秀传统文化的重要载体,对其内容结构进行有效揭示具有重要意义。大语言模型为古籍文献的“活化”提供了技术潜力,但其能力需通过科学严谨的测评加以验证。文章选取豆包、DeepSeek等14种大语言模型,以2022-2024年高考语... 古籍文献是中华优秀传统文化的重要载体,对其内容结构进行有效揭示具有重要意义。大语言模型为古籍文献的“活化”提供了技术潜力,但其能力需通过科学严谨的测评加以验证。文章选取豆包、DeepSeek等14种大语言模型,以2022-2024年高考语文试卷文言文题目为语料,对古籍文献基础智能处理能力进行测评。由于知识图谱构建受基础能力的影响,基于测评结果,选择排名靠前的豆包和DeepSeek,以《史记·朝鲜列传》为语料,对两个大模型在知识图谱构建的信度、效度方面进行测评。研究发现,大语言模型具备基本古籍文献内容理解的能力,综合断句、逻辑判断、翻译和总结归纳四个维度,豆包与DeepSeek表现较为突出;豆包和DeepSeek的古籍文献知识图谱构建信效度检验结果显示,豆包大模型表现更优。 展开更多
关键词 古籍文献 大语言模型 智能处理 效能测评
在线阅读 下载PDF
基于BERT和图注意力网络的医疗文本因果关系抽取算法
17
作者 刘位龙 王玎 +6 位作者 赵超 王宁 张旭 苏萍 宋书典 张娜 迟蔚蔚 《山东大学学报(医学版)》 北大核心 2025年第8期61-68,共8页
目的提出一种能够有效抽取因果关系的算法,以提高医疗领域文本处理的准确性。方法提出基于Transformer的双向编码器(bidirectional encoder representations from Transformers,BERT)和因果图注意力网络(causal graph attention network... 目的提出一种能够有效抽取因果关系的算法,以提高医疗领域文本处理的准确性。方法提出基于Transformer的双向编码器(bidirectional encoder representations from Transformers,BERT)和因果图注意力网络(causal graph attention networks,CGAT)的BERT-CGAT算法。首先构建因果关系图,利用医疗文本对BERT模型进行微调,以获得优化的实体嵌入表示;随后通过知识融合通道整合文本编码信息与因果结构,输入至图注意力网络;采用多头注意力机制并行处理不同子空间信息,增强复杂语义关系捕捉能力;最后通过双通道解码层实现实体及因果关系的同步抽取。结果在自建的糖尿病因果实体数据集上的实验表明,模型在准确率(99.74%)与召回率(81.04%)上较传统BiLSTM-CRF基线提升0.65%和16.73%,F1分数达80.83%。结论BERT-CGAT算法通过结合BERT的语义特征提取能力和图神经网络的关系建模优势,有效提升了医疗文本因果关系抽取的准确性,验证了该方法的有效性。 展开更多
关键词 医疗文本 BERT模型 图注意力网络 因果关系抽取
原文传递
基于交替语言数据重构方法的跨语言文本相似度模型
18
作者 王轶 王坤宁 刘铭 《吉林大学学报(理学版)》 北大核心 2025年第2期551-558,共8页
针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重... 针对现有多语言模型在预训练过程中对多语言数据集的利用效率低,导致跨语言上下文学习能力不足,进而产生语言偏差的问题,提出一种基于交替语言数据重构方法的跨语言文本相似度模型.该方法通过对称地替换平行语料中的中英文词语,形成重构的预训练文本对,并利用上述文本对对多语言大模型mBERT(BERT-based-multilingual)进行基于数据重构的针对性预训练和微调处理.为验证该模型的可行性,在联合国平行语料数据集上进行实验,实验结果表明,该模型的相似度查准率优于mBERT和其他两种基线模型,其不仅可以进一步提高跨语言信息检索的准确性,并且可以降低多语言自然语言处理任务的研究成本. 展开更多
关键词 mBERT模型 文本相似度 多语言预训练模型 大模型微调
在线阅读 下载PDF
基于LDA的酒店企业在线评论文本数据挖掘研究
19
作者 司应硕 杨文涛 夏倩 《移动信息》 2025年第6期392-394,共3页
酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进... 酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进行精准决策与创新服务提供了新的方法. 展开更多
关键词 LDA模型 评论文本 数据挖掘 主题建模
在线阅读 下载PDF
基于LDA模型的中医药新闻主题识别及其热点演化分析
20
作者 姜威 于琦 +4 位作者 于彤 田野 王一萌 祖雅琪 李敬华 《中国中医药图书情报杂志》 2025年第6期112-117,共6页
目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文... 目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文本挖掘方法,构建中医药新闻主题识别及其热点演化分析方案。结果上述时段内共纳入中医药新闻6896条,主题主要集中于中医医疗服务、公共卫生服务、中医药科研、中医药教育、中医药文化、中药发展、中医药事业发展及中医养生保健;其中,医疗、科研、事业发展及中药发展主题强度较高。热点主题下,基层中医药服务、中医药防治新冠危重症、名中医经验传承、中医药高质量发展等是关注重点。结论LDA模型在中医药新闻主题识别中的适用性较高,中医医疗服务、中医药科研和事业发展持续受到关注,中医药主题识别及热点分析有助于全面展现中医药行业发展现状、重大事件及今后发展趋势。 展开更多
关键词 中医药新闻 文本挖掘 LDA模型 主题识别 主题热点
暂未订购
上一页 1 2 133 下一页 到第
使用帮助 返回顶部