期刊文献+
共找到1,288篇文章
< 1 2 65 >
每页显示 20 50 100
基于Transformer和Text-CNN的日志异常检测 被引量:1
1
作者 尹春勇 张小虎 《计算机工程与科学》 北大核心 2025年第3期448-458,共11页
日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统... 日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统的基于Transformer的方法,难以捕捉日志序列的局部特征,针对上述问题,提出了基于Transformer和Text-CNN的日志异常检测方法LogTC。首先,通过规则匹配将日志转换成结构化的日志数据,并保留日志语句中的有效信息;其次,根据日志特性采用固定窗口或会话窗口将日志语句划分为日志序列;再次,使用自然语言处理技术Sentence-BERT生成日志语句的语义化表示;最后,将日志序列的语义化向量输入到LogTC日志异常检测模型中进行检测。实验结果表明,LogTC能够有效地检测日志数据中的异常,且在2个数据集上都取得了较好的结果。 展开更多
关键词 日志异常检测 深度学习 词嵌入 TRANSFORMER text-CNN
在线阅读 下载PDF
What Eye Movements Tell About Identifying Compound Words in Reading and Top-Down Effects in Reading Long Texts 被引量:1
2
作者 Jukka Hyn 《心理与行为研究》 2004年第3期497-504,共8页
Two lines of research on eye movements in reading are summarized. One line of research examines how adult readers identify compound words during reading. The other line of research deals with how a specific reading go... Two lines of research on eye movements in reading are summarized. One line of research examines how adult readers identify compound words during reading. The other line of research deals with how a specific reading goal influences the way long expository texts are read. Both lines of research are conducted using Finnish as the source language. With respect to the first research question, it is demonstrated that compound words are recognized either holistically or via their components, depending on the length of the compound word. Readers begin to process whatever information is readily available in the foveal vision(i.e., either the whole-word form or the initial component). The second line of research demonstrates that(1)a specific reading goal is capable of exerting an early effect on readers’ eye fixation patterns,(2)time course analyses based on eye movement patterns can reveal interesting individual differences, and(3)working memory capacity is linked to the efficiency to strategically allocate attention as well as to encode information to and retrieve it from the long-term memory. It is concluded that the eye-tracking technique is an excellent research tool to tap into the workings of the human mind during the comprehension of written texts. 展开更多
关键词 eye movements word recognition COMPOUND wordS text COMPREHENSION working memory capacity.
在线阅读 下载PDF
Text Rank for Domain Specific Using Field Association Words 被引量:1
3
作者 Omnia G. El Barbary El Sayed Atlam 《Journal of Computer and Communications》 2020年第11期69-79,共11页
Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Associ... Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Association (FA) words. We present the keyphrase separation technique not for a single document, although for a particular domain. The former builds a specific domain field. The second collects a list of ideal FA terms and compounds FA terms from the specific domain that are considered to be contender keyword phrases. Therefore, we combine two-word node weights and field tree relationships into a new approach to generate keyphrases from a particular domain. Studies using the changed approach to extract key phrases demonstrate that the latest techniques including FA terms are stronger than the others that use normal words and its precise words reach 90%. 展开更多
关键词 text Rank Keyphrase Extraction Field Association words Information Retrieval
暂未订购
基于PKUSEG-Text-GCN的肿瘤疾病预测模型
4
作者 高志玲 赵新宇 《计算机工程与科学》 北大核心 2025年第7期1303-1311,共9页
当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词... 当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词工具包PKUSEG对中文电子病历进行分词;其次,通过病历与词的共现关系和病历文本中词与词之间的关系,建立文本图;最后,基于该医学文本图利用图卷积神经网络(Text-GCN)对文本图的特征进行学习,将学习到的模型用于肿瘤疾病预测。实验结果显示,所提模型相比多个模型中的最优模型准确率提升了6%。同时,当数据较少的时候准确率并不会明显下降,表明该模型在电子病历较少的情况下仍具有很好的鲁棒性。 展开更多
关键词 文本图卷积神经网络 中文分词 肿瘤致病分析 肿瘤疾病预测
在线阅读 下载PDF
基于word embedding的短文本特征扩展与分类 被引量:8
5
作者 孟欣 左万利 《小型微型计算机系统》 CSCD 北大核心 2017年第8期1712-1717,共6页
近几年短文本的大量涌现,给传统的自动文本分类技术带来了挑战.针对短文本特征稀疏、特征覆盖率低等特点,提出了一种基于word embedding扩展短文本特征的分类方法.word embedding是一种词的分布式表示,表示形式为低维连续的向量形式,并... 近几年短文本的大量涌现,给传统的自动文本分类技术带来了挑战.针对短文本特征稀疏、特征覆盖率低等特点,提出了一种基于word embedding扩展短文本特征的分类方法.word embedding是一种词的分布式表示,表示形式为低维连续的向量形式,并且好的word embedding训练模型可以编码很多语言规则和语言模式.本文利用word embedding空间分布特点和其蕴含的线性规则提出了一种新的文本特征扩展方法.结合扩展特征我们分别在谷歌搜索片段、中国日报新闻摘要两类数据集上进行了短文本分类实验,对比于仅使用词袋表示文本特征的分类方法,准确率分别提高:8.59%,7.42%. 展开更多
关键词 word EMBEDDING 文本特征 语义推理 短文本分类
在线阅读 下载PDF
基于加权TextRank的中文自动文本摘要 被引量:23
6
作者 黄波 刘传才 《计算机应用研究》 CSCD 北大核心 2020年第2期407-410,共4页
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结... 现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。 展开更多
关键词 文本摘要 textRank 词向量 句子相似度
在线阅读 下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
7
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA Weight-word2vec
在线阅读 下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:29
8
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
基于word2vec和LSTM的饮食健康文本分类研究 被引量:44
9
作者 赵明 杜会芳 +1 位作者 董翠翠 陈长松 《农业机械学报》 EI CAS CSCD 北大核心 2017年第10期202-208,共7页
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维... 为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。 展开更多
关键词 文本分类 word2vec 词向量 长短期记忆网络 K-means++
在线阅读 下载PDF
WordNG-Vec:一种应用于CNN文本分类的词向量模型 被引量:6
10
作者 王勇 何养明 +2 位作者 邹辉 黎春 陈荟西 《小型微型计算机系统》 CSCD 北大核心 2019年第3期499-502,共4页
文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为... 文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为此,本文提出了一种结合N-Gram特征与Word2vec的词向量模型WordNG-Vec,其提取出的词向量(Word-NG向量),作为双通道卷积神经网络模型(DC-CNN)的输入.经过多组对比实验分析表明,在精确率(precision)和召回率(recall)和F1值三个评价指标下,本文提出的方法有效提高文本分类的效果. 展开更多
关键词 文本分类 词向量 DC-CNN N-Gram特征
在线阅读 下载PDF
基于CLucene的WORD文档全文检索系统研究与开发 被引量:2
11
作者 杨文涛 司应硕 张森 《洛阳理工学院学报(自然科学版)》 2011年第1期56-60,共5页
能够快速有效地检索网络上或站内大量的各种信息资源,是提供高质量检索服务的基础。CLucene是Lucene的C++本的实现,它是一个优秀的开源全文本搜索技术框架。分析了CLucene的系统结构,详解了CLucene中的索引和检索机制,在CLucene的基础上... 能够快速有效地检索网络上或站内大量的各种信息资源,是提供高质量检索服务的基础。CLucene是Lucene的C++本的实现,它是一个优秀的开源全文本搜索技术框架。分析了CLucene的系统结构,详解了CLucene中的索引和检索机制,在CLucene的基础上,解决了对WORD文档的文本抽取问题,增加了CLucene的中文支持功能,实现了一个基于CLucene并支持中英文WORD文档检索的应用实例。 展开更多
关键词 CLUCENE word 索引 文本抽取 全文检索
在线阅读 下载PDF
一种Word 2007中可无源检测的信息隐藏方法 被引量:4
12
作者 李兵兵 王衍波 +1 位作者 徐敏 周杰 《计算机技术与发展》 2010年第5期154-157,共4页
研究基于文本的信息隐藏技术,对使用文本传输秘密信息,以及版权维护等方面有很大的实用价值。文本,作为信息隐藏的载体,相对于视频、图像和声音,其冗余度更小,所以基于文本的信息隐藏技术发展相对较慢。新的文本文档格式的出现对基于文... 研究基于文本的信息隐藏技术,对使用文本传输秘密信息,以及版权维护等方面有很大的实用价值。文本,作为信息隐藏的载体,相对于视频、图像和声音,其冗余度更小,所以基于文本的信息隐藏技术发展相对较慢。新的文本文档格式的出现对基于文本的信息隐藏提供了更多的方法和可能。文中研究分析了一种新的文本文档格式——Word 2007采用的Microsoft Office Word XML格式,提出并实现了一种基于Word 2007字体大小微调的可无源检测的信息隐藏方案和算法。理论分析和实验表明算法有效可靠,具有良好的隐蔽性。 展开更多
关键词 信息隐藏 word 2007文档 无源检测
在线阅读 下载PDF
文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例 被引量:17
13
作者 杜华 《现代教育技术》 CSSCI 2012年第9期65-69,共5页
文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的... 文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的可视化表征、生成线索词、语义和表象的双重表征等优势分析了文字云图应用在英语阅读教学中的可行性,以Wordle为例选择高中英语教材中的一节课"Harry Potter"进行了研究设计与实践,研究结果表明文字云图的使用能够调动学生的兴趣,给学生的英语阅读带来积极的促进作用。 展开更多
关键词 文本可视化 文字云图 wordle 英语阅读教学
在线阅读 下载PDF
基于语料库与预训练模型的非遗实体识别
14
作者 张新生 杨颖洁 《计算机工程与设计》 北大核心 2026年第1期286-293,共8页
针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-... 针对非遗领域文本语料稀缺,且非遗文本具有复杂语义特征导致命名实体识别精度不高的问题进行研究。构建非遗文本语料库ICHSX-NER,其实体字符串一致性和类型一致性分别为0.9530、0.9758。提出一种RBL-CFER实体识别模型,使用RoBERTa-wwm-ext预训练语言模型提取高精度的词嵌入向量,借助BiLSTM提取非遗文本特征,CRF完成实体标签序列预测,实现对非遗文本语料中实体及其类别的识别。在自建语料库ICHSX-NER上进行多组实验,实验结果表明:模型的macro-F1值达90.62%,验证了在非遗文本实体识别任务中的有效性。 展开更多
关键词 命名实体识别 预训练语言模型 非遗文本语料库 动态全词掩码策略 双向长短期记忆网络 条件随机场 深度学习
在线阅读 下载PDF
用于Word文档认证的脆弱型数字水印算法 被引量:1
15
作者 廖继旺 孙洪淋 《科学技术与工程》 2006年第8期1082-1084,共3页
数字水印技术为网上办公和网上交易提供可靠保证。提出了一种在Word文档中嵌入数字水印的算法,这一算法利用Word文档的冗余空间,实现水印的嵌入和检测,防止对文档的非法篡改。
关键词 数字水印 认证 文本 word文档
在线阅读 下载PDF
基于Word文档缩放字符比例的信息隐藏算法研究 被引量:2
16
作者 钱宗峰 曹学军 +1 位作者 汤伟 李彦爽 《河北北方学院学报(自然科学版)》 2011年第4期32-36,共5页
根据Word文档的特点,提出了通过改变Word文档字符缩放比例,在文档中嵌入秘密文本的信息隐藏算法,实验表明:算法简单,很好地实现了秘密文本的嵌入,信息隐藏量大于传统算法,隐藏效果较好,可以满足文件隐秘传输需要,具有广阔的应用前景.
关键词 信息隐藏 字符缩放比例 word文档 文本隐藏
在线阅读 下载PDF
基于SUMO和WordNet本体集成的文本分类模型研究 被引量:8
17
作者 胡泽文 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2011年第1期31-38,共8页
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量... 针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 展开更多
关键词 SUMO本体 wordNET 本体集成 文本分类模型 词向量空间 概念向量空间
原文传递
科技文献文本知识抽取的提示框架研究
18
作者 陈昱成 韩涛 胡正银 《现代情报》 北大核心 2026年第2期91-101,共11页
[目的/意义]在小样本的情况下,基于大语言模型的科技文献知识抽取方法被广泛应用,模型的效果依赖于提示词的框架质量,因此需设计高质量的科技文献知识抽取提示词框架。[方法/过程]本研究以有机太阳能电池领域为例,设计有机太阳能电池领... [目的/意义]在小样本的情况下,基于大语言模型的科技文献知识抽取方法被广泛应用,模型的效果依赖于提示词的框架质量,因此需设计高质量的科技文献知识抽取提示词框架。[方法/过程]本研究以有机太阳能电池领域为例,设计有机太阳能电池领域的知识抽取知识体系,设计科技文献自动知识抽取提示词框架,利用不同的大模型进行对比实验。[结果/结论]实验结果表明,在有机太阳能电池领域的期刊文献知识抽取任务中,相比于普通的提示词知识抽取的方法,利用本文提出的提示词框架方法效果更优。 展开更多
关键词 提示词框架 大模型 文本挖掘 有机太阳能电池 高质量数据基座建设
在线阅读 下载PDF
中文WORD文档中数字水印的设计与实现 被引量:1
19
作者 廖继旺 孙洪淋 《科学技术与工程》 2006年第7期877-879,共3页
随着数字作品的网络传播,数字水印技术作为一种版权保护新手段显得更为重要。提出了一种在Word文档中嵌入数字水印的算法,这一算法利用了Word文档的冗余空间,很好地实现了水印的嵌入和检测,对传统攻击有较好的鲁棒性。
关键词 数字水印 版权保护 文本 word文档
在线阅读 下载PDF
基于FastText字向量与双向GRU循环神经网络的短文本情感分析研究——以微博评论文本为例 被引量:24
20
作者 范昊 李鹏飞 《情报科学》 CSSCI 北大核心 2021年第4期15-22,共8页
【目的/意义】提出基于字向量与双向GRU循环神经网络的模型以提高网络化短文本情感分类准确率,有助于关注民众在网络上的情绪状态,维护社会稳定,净化网络环境,提升人民幸福感。【方法/过程】通过FastText算法生成字向量与词向量,对比两... 【目的/意义】提出基于字向量与双向GRU循环神经网络的模型以提高网络化短文本情感分类准确率,有助于关注民众在网络上的情绪状态,维护社会稳定,净化网络环境,提升人民幸福感。【方法/过程】通过FastText算法生成字向量与词向量,对比两者在双向GRU的循环神经网络的训练效果,预测微博评论的情感分类。【结果/结论】研究结果表明,使用字向量训练可以降低模型过拟合的风险,本文提出的模型在准确率、精确率、召回率、F1分数四个指标上的分数都达到0.92以上,具有优秀的拟合能力和泛化能力。【创新/局限】本文根据理论为模型配置了独特的词嵌入层和循环神经网络层,模型在中文短文本二分类情感分析任务中表现优越,但在长文本或者三分类情感分析任务中的表现未知。 展开更多
关键词 短文本 情感分析 Fasttext字向量 GRU 双向循环神经网络
原文传递
上一页 1 2 65 下一页 到第
使用帮助 返回顶部