期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
Text Rank for Domain Specific Using Field Association Words 被引量:1
1
作者 Omnia G. El Barbary El Sayed Atlam 《Journal of Computer and Communications》 2020年第11期69-79,共11页
Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Associ... Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Association (FA) words. We present the keyphrase separation technique not for a single document, although for a particular domain. The former builds a specific domain field. The second collects a list of ideal FA terms and compounds FA terms from the specific domain that are considered to be contender keyword phrases. Therefore, we combine two-word node weights and field tree relationships into a new approach to generate keyphrases from a particular domain. Studies using the changed approach to extract key phrases demonstrate that the latest techniques including FA terms are stronger than the others that use normal words and its precise words reach 90%. 展开更多
关键词 text rank Keyphrase Extraction Field Association Words Information Retrieval
暂未订购
基于PageRank和锚文本的网页排序研究 被引量:6
2
作者 刘菁菁 林鸿飞 赵晶 《计算机工程与应用》 CSCD 北大核心 2007年第10期170-173,共4页
网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐... 网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐,链向相同网页的锚文本质量也有优劣之分,但高质量源网页的锚文本不一定比质量低源网页的准确。对相似度高的锚文本加以修正,即通过计算查询词和锚文本相似度,对于相似度较高但源于PageRank值低的源网页的锚文本加以补偿,并重新排序查询结果。 展开更多
关键词 链接分析 锚文本 PAGErank 网页排序
在线阅读 下载PDF
基于自然语言处理的“双碳”政策知识图谱构建及应用
3
作者 吕涛 王青山 +3 位作者 张紫玉 吴昱磊 周孜柔 王洛 《煤炭经济研究》 2025年第2期122-132,共11页
“双碳”政策具有发布数量多、覆盖范围广、内容复杂多样等特点,现有的呈现方式难以满足知识检索和内在分析的需求。以2953条“双碳”政策文本为数据源,提出了一种基于自然语言处理的“双碳”政策知识图谱构建方法,首先构建了知识图谱... “双碳”政策具有发布数量多、覆盖范围广、内容复杂多样等特点,现有的呈现方式难以满足知识检索和内在分析的需求。以2953条“双碳”政策文本为数据源,提出了一种基于自然语言处理的“双碳”政策知识图谱构建方法,首先构建了知识图谱模式层,定义了“双碳”政策实体、属性和关系,之后采用Text Rank关键词抽取、LDA主题建模等算法提取政策实体、属性及关系,构建了知识图谱数据层,最终将〈实体,关系,实体〉三元组存入Neo4j图数据库,形成“双碳”政策知识图谱。所构建的知识图谱包含2048个实体节点和32336条关系,可通过Cypher语言实现不同细粒度政策实体和关系的关联查询与可视化,挖掘“双碳”政策中的关键语义信息和政策热点,还可为智能服务提供语义增强功能,提高“双碳”政策推荐系统的效率和政策问答系统的准确度。 展开更多
关键词 “双碳”政策 知识图谱 自然语言处理 Neo4j LDA text rank
原文传递
基于Lora微调的轻量化中医药古籍大语言模型研究 被引量:5
4
作者 柴景贤 郎许锋 +5 位作者 李红岩 周作建 凌云 战丽彬 胡孔法 乔学斌 《世界科学技术-中医药现代化》 北大核心 2025年第3期823-831,共9页
目的 针对中医古籍大语言模型构建难度大、微调成本高的问题,研究轻量化中医药古籍大语言模型微调方法,实现以历代《伤寒论》为核心的中医古籍知识问答模型。方法 数据集构造,设计提示词引导GPT-4生成《伤寒论》知识问答对,并融合ShenNo... 目的 针对中医古籍大语言模型构建难度大、微调成本高的问题,研究轻量化中医药古籍大语言模型微调方法,实现以历代《伤寒论》为核心的中医古籍知识问答模型。方法 数据集构造,设计提示词引导GPT-4生成《伤寒论》知识问答对,并融合ShenNong_TCM_Dataset与cMedQA2数据集;模型选择,选用5个通用大模型进行Lora微调,经评估选取最佳模型并验证多版本量化效果。结果 微调后的Qwen-7BChat的BLEU、ROUGE-1、ROUGE-2与ROUGE-L指标相较于基座模型分别提升了17.61、19.63、14.3与21.4。结论 本文所选模型能够有效理解和使用《伤寒论》等中医古籍专业术语和概念,针对用户问题给出准确答案,且相较于同类模型微调成本与算力要求更低,有助于中医药知识传播与智能化发展。 展开更多
关键词 大语言模型 中医药古籍知识 《伤寒论》 Lora微调 模型轻量化
暂未订购
Construction of an Automatic Bengali Text Summarizer Using Machine Learning Approaches
5
作者 Busrat Jahan Mahfuja Khatun +2 位作者 Zinat Ara Zabu Afranul Hoque Sayed Uddin Rayhan 《Journal of Data Analysis and Information Processing》 2022年第1期43-57,共15页
In our study, we chose python as the programming platform for finding an Automatic Bengali Document Summarizer. English has sufficient tools to process and receive summarized records. However, there is no specifically... In our study, we chose python as the programming platform for finding an Automatic Bengali Document Summarizer. English has sufficient tools to process and receive summarized records. However, there is no specifically applicable to Bengali since Bengali has a lot of ambiguity, it differs from English in terms of grammar. Afterward, this language holds an important place because this language is spoken by 26 core people all over the world. As a result, it has taken a new method to summarize Bengali documents. The proposed system has been designed by using the following stages: pre-processing the sample doc/input doc, word tagging, pronoun replacement, sentence ranking, as well as summary. Pronoun replacement has been used to reduce the incidence of swinging pronouns in the performance review. We ranked sentences based on sentence frequency, numerical figures, and pronoun replacement. Checking the similarity between two sentences in order to exclude one since it has less duplication. Hereby, we’ve taken 3000 data as input from newspaper and book documents and learned the words to be appropriate with syntax. In addition, to evaluate the performance of the designed summarizer, the design system looked at the different documents. According to the assessment method, the recall, precision, and F-score were 0.70, 0.82 and 0.74, respectively, representing 70%, 82% and 74% recall, precision, and F-score. It has been found that the proper pronoun replacement was 72%. 展开更多
关键词 Natural Language Processing Formatting Bangla text Summarizer Bengali Language Processing Word Tagging Pronoun Replacement Sentence ranking
在线阅读 下载PDF
网络新闻话题演化趋势检测研究 被引量:1
6
作者 赵旭剑 付鹏 +4 位作者 李波 张晖 杨春明 喻琼 王耀彬 《电脑知识与技术(过刊)》 2015年第1X期52-54,59,共4页
演化趋势检测能提前获取话题的演变轨迹,有效提高决策者对于话题舆情处理的主动性和预判性。针对该需求,该文深入研究新闻话题的演变过程,利用K-means算法对专题新闻报道集进行聚类,得到新闻话题演化阶段的不同类簇,并且采用Text Rank... 演化趋势检测能提前获取话题的演变轨迹,有效提高决策者对于话题舆情处理的主动性和预判性。针对该需求,该文深入研究新闻话题的演变过程,利用K-means算法对专题新闻报道集进行聚类,得到新闻话题演化阶段的不同类簇,并且采用Text Rank方法提取各个新闻话题演化阶段的有效关键词,然后基于时间信息,整理生成话题演化趋势。该文以百度百科相关词条的客观描述作为评判标准进行算法评测,实验结果表明本文算法具有较高的准确性。 展开更多
关键词 话题演化 演化趋势 趋势检测 K-MEANS text rank
在线阅读 下载PDF
网络新闻话题语义信息提取
7
作者 赵旭剑 黄发发 +4 位作者 李波 张晖 杨春明 喻琼 王耀彬 《电脑知识与技术(过刊)》 2015年第5X期176-178,共3页
新闻话题抽取对于话题模型构建以及新闻话题挖掘具有重要的研究意义和应用价值。传统的方法仅仅通过提取关键词包来表示话题,缺乏完整的话题语义信息描述。针对该问题,本文从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话... 新闻话题抽取对于话题模型构建以及新闻话题挖掘具有重要的研究意义和应用价值。传统的方法仅仅通过提取关键词包来表示话题,缺乏完整的话题语义信息描述。针对该问题,本文从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的语义表达能力。 展开更多
关键词 话题语义信息 话题抽取 事件要素 text rank
在线阅读 下载PDF
基于版权认证的文本匹配模型研究
8
作者 刘晓飞 莫秀良 《天津理工大学学报》 2025年第1期90-96,共7页
面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发... 面对网络中日益增多的数字作品以及人们版权意识的增强,确认数字作品版权归属非常重要,对于数字作品原创性检测问题,文本匹配技术能够很好地解决这一问题。文本匹配技术通过算法来判断句子之间的语义是否相近。最近几年,深度学习迅速发展,解决文本匹配任务的方法也得到了很好的发展。在已有的基于核的文档排序神经模型(a kernel based neural model for document ranking, KNRM)上进一步地研究和创新,提出融合KNRM和轻量级梯度提升机(light gradient boosting machine, LightGBM)算法的文本匹配模型,在交互矩阵转化的直方图上采用kernel-pooling的方式来提取相关局部特征信息,引入K个不同大小的核函数,来捕捉不同细粒度的相关匹配信号,获取高斯核特征,将LightGBM算法作为分类器,进行分类处理工作,预测最后的匹配结果。通过多个数据集验证模型效果,实验表明,融合模型KNRM-LightGBM在准确率方面优于原模型KNRM,能够达到更好的文本匹配效果。 展开更多
关键词 文本匹配 基于核的文档排序神经模型 轻量级梯度提升机 数字版权
在线阅读 下载PDF
网络新闻话题演化模式挖掘 被引量:3
9
作者 赵旭剑 张立 +4 位作者 李波 张晖 杨春明 喻琼 王耀彬 《软件》 2015年第6期1-6,共6页
针对特定主题的新闻话题演化模式挖掘对于话题动态演化研究具有重要的研究意义和应用价值,能帮助人们清晰地梳理话题事件的来龙去脉,直观地展现话题演化轨迹的逻辑结构。针对该需求,本文提出一种面向特定话题的网络新闻话题演化模式挖... 针对特定主题的新闻话题演化模式挖掘对于话题动态演化研究具有重要的研究意义和应用价值,能帮助人们清晰地梳理话题事件的来龙去脉,直观地展现话题演化轨迹的逻辑结构。针对该需求,本文提出一种面向特定话题的网络新闻话题演化模式挖掘方法,拟从挖掘话题演化逻辑的角度出发,针对特定话题(矿难事件)进行话题演化一般规律的深入分析,对话题演变过程进行阶段化表示,建立话题演化模式。实验结果表明,本文构建的特定话题演化模式具有较强的语义表达能力,符合话题逻辑。 展开更多
关键词 话题演化 演化模式挖掘 话题聚类 text rank
在线阅读 下载PDF
基于热度联合排序的微博热点话题发现 被引量:6
10
作者 刘培玉 侯秀艳 +2 位作者 朱振方 刘芳 蔡肖红 《计算机科学与探索》 CSCD 北大核心 2016年第4期573-581,共9页
微博热点话题发现对于舆情分析和观点挖掘具有重要作用,提出了一种基于热度联合排序的微博热点话题发现方法,并构建统一的模型框架将微博文本和热点主题词之间的各种关系进行了有机融合;考虑微博用户的权威性以及主题词的时间段相关特性... 微博热点话题发现对于舆情分析和观点挖掘具有重要作用,提出了一种基于热度联合排序的微博热点话题发现方法,并构建统一的模型框架将微博文本和热点主题词之间的各种关系进行了有机融合;考虑微博用户的权威性以及主题词的时间段相关特性,对微博文本和主题词的热度进行了联合排序并互相增强;使用主题词组合支持度作为阈值对热度序列中的主题词进行聚类以表征热点话题。实验表明,所提方法对于热点主题词的抽取以及热点话题发现具有较高准确性,可以及时有效地发现特定时间段内的微博热点话题。 展开更多
关键词 微博文本 联合排序 热度序列
在线阅读 下载PDF
语篇结构的类型、层次及分析模式研究 被引量:17
11
作者 何继红 张德禄 《外语与外语教学》 CSSCI 北大核心 2016年第1期74-80,148,共7页
针对语篇分析领域在语篇结构研究方面存在的问题,本文对语篇结构的类型、层级性和分析模式及其研究路径进行了探讨。通过分析论证,本文发现语篇结构可以分为体裁(粒子)结构、关系(逻辑语义)结构和交换(对话或协商)结构三种结构类型;在... 针对语篇分析领域在语篇结构研究方面存在的问题,本文对语篇结构的类型、层级性和分析模式及其研究路径进行了探讨。通过分析论证,本文发现语篇结构可以分为体裁(粒子)结构、关系(逻辑语义)结构和交换(对话或协商)结构三种结构类型;在体裁结构中区分宏观结构、中观结构和微观结构三个级阶;语篇结构研究一般以语篇体裁结构为主要研究对象,通过关系结构以及主题开展、信息流动和衔接关系进行组织。最后,本文提出了语篇结构分析模式及其研究路径。 展开更多
关键词 语篇结构 结构类型 语篇结构层级 分析模式
原文传递
基于图排序算法的自动文摘研究综述 被引量:13
12
作者 王俊丽 魏绍臣 管敏 《计算机科学》 CSCD 北大核心 2015年第12期1-7,39,共8页
互联网技术的快速发展使得信息的采集和传播速度达到了空前的水平,海量的数据使得人们获取有价值的信息越发困难。自动文摘技术可以从海量的信息中提取出能代表原文重要内容且简洁精练的一段文字,高度压缩文档是解决信息超载问题的有效... 互联网技术的快速发展使得信息的采集和传播速度达到了空前的水平,海量的数据使得人们获取有价值的信息越发困难。自动文摘技术可以从海量的信息中提取出能代表原文重要内容且简洁精练的一段文字,高度压缩文档是解决信息超载问题的有效方法,因此自动文摘技术的研究引起人们越来越多的关注。目前诸如统计分析、机器学习技术以及语言学知识等在已有的自动文摘系统中都有所应用。对基于图排序算法的自动文摘的研究成果进行综述,首先阐述自动文摘以及图排序算法的基本知识,然后重点从图的构建、图排序、句子选择3个方面系统地介绍基于图排序算法的自动文摘的研究现状,最后在分析已有自动文摘系统的基础上,探讨了基于图排序算法的自动文摘的未来发展方向。 展开更多
关键词 自动文摘 图排序 图模型 文本挖掘
在线阅读 下载PDF
翻译研究方法论——语篇描写 被引量:21
13
作者 李运兴 《外语与外语教学》 北大核心 2001年第4期47-50,共4页
现代翻译研究的主导方法是对交际中的语篇进行充分语料基础上的描写,这是翻译研究的发展以及性质所决定的.文章讨论了描写的种类以及针对语篇级层、类型和翻译过程进行转换描写的基本内容.最后还简述了借鉴相关学科理论描写与理论建树... 现代翻译研究的主导方法是对交际中的语篇进行充分语料基础上的描写,这是翻译研究的发展以及性质所决定的.文章讨论了描写的种类以及针对语篇级层、类型和翻译过程进行转换描写的基本内容.最后还简述了借鉴相关学科理论描写与理论建树的关系问题. 展开更多
关键词 语篇 描写 级层 语篇类型 翻译过程
在线阅读 下载PDF
基于自然语言处理的空管系统危险源文本分类方法研究 被引量:8
14
作者 郭九霞 《安全与环境学报》 CAS CSCD 北大核心 2022年第2期819-825,共7页
为了预防空管系统不安全事件的发生,利用人为因素分析与分类系统(HFACS)模型和自然语言处理技术,研究空管系统危险源文本分类方法。根据改进的HFACS模型建立空管系统危险源分类指标体系,选取民航空管安全管理系统的危险源数据库作为生... 为了预防空管系统不安全事件的发生,利用人为因素分析与分类系统(HFACS)模型和自然语言处理技术,研究空管系统危险源文本分类方法。根据改进的HFACS模型建立空管系统危险源分类指标体系,选取民航空管安全管理系统的危险源数据库作为生语料库,将其划分为5级,并对其进行编码。为解决空管系统危险源数据库小样本、多标签、样本不均衡的问题,分别采用基于TFIDF-TextRank关键词提取的文本分类方法和基于CNN和BERT模型的文本分类方法进行试验。结果表明,基于TFIDF-TextRank关键词提取的文本分类方法的精确率和召回率明显优于基于CNN和BERT模型的分类方法,关键词提取方法可以有效处理小语料库文本分类问题,并有助于进一步研究空管系统不安全事件的形成机理。 展开更多
关键词 安全社会工程 空管系统 危险源 HFACS模型 TFIDF-textrank方法 文本分类
原文传递
中文搜索引擎现状与展望 被引量:25
15
作者 都云程 卢献华 《中文信息学报》 CSCD 北大核心 1999年第3期61-64,F003,共5页
本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。
关键词 中文搜索引擎 全文检索 中文自动分词 搜索引擎
在线阅读 下载PDF
一种对动态网页的排名算法及其应用 被引量:1
16
作者 李慧 沈洁 +1 位作者 张舒 杨学凯 《扬州大学学报(自然科学版)》 CAS CSCD 2006年第3期59-62,共4页
针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此... 针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此类动态网页的查询结果的排序,提高排名的准确性. 展开更多
关键词 C0ntentrank 搜索排名 文本分类
在线阅读 下载PDF
基于BERT的海上船舶安全隐患分类 被引量:2
17
作者 靳嵩 朱艳 +3 位作者 吴可嘉 孟祥松 赵乾菊 王颖 《船舶工程》 CSCD 北大核心 2023年第S01期381-384,共4页
为准确分析出影响海上船舶安全的隐患类别,提高船舶、船员、设备的管理制度,提出一种基于双向编码器(BERT)的海上船舶安全隐患分类。采用Text Rank算法对隐患文本进行关键词提取,将提取的关键词输入到BERT预训练模型,提升模型在分类任... 为准确分析出影响海上船舶安全的隐患类别,提高船舶、船员、设备的管理制度,提出一种基于双向编码器(BERT)的海上船舶安全隐患分类。采用Text Rank算法对隐患文本进行关键词提取,将提取的关键词输入到BERT预训练模型,提升模型在分类任务上的性能。试验结果表明,训练前采用Text Rank算法进行关键词提取,准确率、召回率和F1值都有所提升,验证了模型的有效性,达到了快速准确对海上船舶安全隐患分类的目的。 展开更多
关键词 海上船舶 隐患类别 关键词提取 BERT text rank算法
原文传递
学术文本的结构功能识别--在关键词自动抽取中的应用 被引量:32
18
作者 方龙 李信 +1 位作者 黄永 陆伟 《情报学报》 CSSCI CSCD 北大核心 2017年第6期599-605,共7页
当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提... 当前的关键词自动提取研究大多基于候选词的词频、文档频率等统计信息,往往忽略了侯选词所在的学术文本的内在结构,导致关键词提取的效果不佳。本文将学术文本看作是5个结构功能域的集合,提出了融合学术文本结构功能特征的多特征组合提取方法,并利用学术文本的章节标题对其结构功能进行识别,然后通过SVM二分类和LambdaMART学习排序算法分别在计算机语言学领域的文献集上进行了实现。实验结果表明,本文提出的组合特征方法相比基准特征在关键词提取的效果上取得了较大的提升,尤其在分类实验中准确率的相对提升上达到10.75%,证明了学术文本结构功能特征在关键词自动提取上的重要性。 展开更多
关键词 结构功能 关键词提取 学术文本 支持向量机 学习排序
在线阅读 下载PDF
科技信息资源内容监测与分析服务平台概况 被引量:3
19
作者 徐硕 乔晓东 +1 位作者 朱礼军 张运良 《数字图书馆论坛》 2011年第11期38-44,共7页
为了方便研究者分析领域的研究动态,了解领域内研究的重要研究者和重要文献,并对科技文献和科技工作者的工作进行准确的评价,作者借助国家科技图书文献中心(NSTL)雄厚的资源优势,联合清华大学等有关优势单位,共同开发了面向西文... 为了方便研究者分析领域的研究动态,了解领域内研究的重要研究者和重要文献,并对科技文献和科技工作者的工作进行准确的评价,作者借助国家科技图书文献中心(NSTL)雄厚的资源优势,联合清华大学等有关优势单位,共同开发了面向西文资源的科技信息资源内容监测与分析服务平台,该平台具有专家、期刊/会议和关键词统一检索功能,具有研究者关联路径发现、主题发现等功能,并且内嵌了专家和论文排名功能。 展开更多
关键词 知识服务 话题模型 关联路径 排名 全文索引
在线阅读 下载PDF
基于混合方法的多语言多文档自动摘要系统构建及实现 被引量:5
20
作者 柯修 王惠临 《图书馆学研究》 CSSCI 北大核心 2013年第2期66-72,共7页
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块... 文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 展开更多
关键词 多语言自动摘要 多文档自动摘要 图排序算法 文本外部特征
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部