期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进的TextRank的自动摘要提取方法 被引量:42
1
作者 余珊珊 苏锦钿 李鹏飞 《计算机科学》 CSCD 北大核心 2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置... 经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。 展开更多
关键词 中文文本 自动摘要提取 textRank 篇章结构 无监督学习方法
在线阅读 下载PDF
文本挖掘技术研究进展 被引量:60
2
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
中文文本中抽取特征信息的区域与技术 被引量:45
3
作者 刘开瑛 薛翠芳 +1 位作者 郑家恒 周晓强 《中文信息学报》 CSCD 北大核心 1998年第2期1-7,共7页
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是... 本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言。 展开更多
关键词 中文文本 特征信息 本文处理 自动标引 抽取技术
在线阅读 下载PDF
基于知识的文本摘要系统研究与实现 被引量:19
4
作者 孙春葵 李蕾 +1 位作者 杨晓兰 钟义信 《计算机研究与发展》 EI CSCD 北大核心 2000年第7期874-881,共8页
提出了一个基于知识的文摘系统模型 ,并基于这种模型实现了一个文本摘要系统 L ADIES.另外 ,还提出了一种文摘系统的评估方法 .
关键词 中文信息处理 知识 文本摘要系统
在线阅读 下载PDF
基于事件抽取的网络新闻多文档自动摘要 被引量:15
5
作者 韩永峰 许旭阳 +2 位作者 李弼程 朱武斌 陈刚 《中文信息学报》 CSCD 北大核心 2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新... 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。 展开更多
关键词 事件抽取 中文信息处理 分类 新闻文档 聚类 自动摘要
在线阅读 下载PDF
中文新闻关键事件的主题句识别 被引量:18
6
作者 王伟 赵东岩 赵伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第5期789-796,共8页
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新... 提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件信息打好了基础。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 事件抽取 新闻标题
在线阅读 下载PDF
基于HowNet概念获取的中文自动文摘系统 被引量:22
7
作者 王萌 何婷婷 +1 位作者 姬东鸿 王晓荣 《中文信息学报》 CSCD 北大核心 2005年第3期87-93,共7页
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于... 本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。 展开更多
关键词 计算机应用 中文信息处理 HOWNET 自动文摘 概念向量空间模型
在线阅读 下载PDF
中文文本自动校对技术现状及展望 被引量:14
8
作者 张仰森 丁冰青 《中文信息学报》 CSCD 北大核心 1998年第3期50-56,共7页
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
关键词 中文文本 自动校对 自动查错 确认纠错 展望
在线阅读 下载PDF
WWW中文信息自动分类方法研究 被引量:9
9
作者 郑家恒 宋文中 《情报学报》 CSSCI 北大核心 2002年第5期532-536,共5页
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按... 本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。 展开更多
关键词 类别权值 可信度 WWW 中文信息 自动分类 文本自动分类 类别词
在线阅读 下载PDF
基于二元接续关系检查的字词级自动查错方法 被引量:29
10
作者 张仰森 丁冰青 《中文信息学报》 CSCD 北大核心 2001年第3期36-43,共8页
本文探讨了基于字字同现、词性二元接续和语义二元接续的中文文本的自动查错原理和查错算法 ;给出了字词接续判断模型 ,并讨论了与接续判断模型相关的查错知识库的构造方法。通过对实验结果的分析和评测 ,证明本文所述方法是可行的。
关键词 中文文本自动校对 自动查错 二元接续关系
在线阅读 下载PDF
中文短文本自动分类中的汉字特征优化研究 被引量:4
11
作者 王昊 邓三鸿 苏新宁 《情报理论与实践》 CSSCI 北大核心 2015年第6期121-127,共7页
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅... 采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。 展开更多
关键词 短文本 文本分类 汉字特征 自动分类 优化
原文传递
中文文本自动校对技术的研究 被引量:21
12
作者 骆卫华 罗振声 宫小瑾 《计算机研究与发展》 EI CSCD 北大核心 2004年第1期244-249,共6页
传统的自动校对技术多是基于字、词级的统计方法 ,有很多局限 ,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同 ,提出了词法、句法、语义多层次结合校对策略 ,从而能够检查以往无法查出的错误 描述了自动校... 传统的自动校对技术多是基于字、词级的统计方法 ,有很多局限 ,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同 ,提出了词法、句法、语义多层次结合校对策略 ,从而能够检查以往无法查出的错误 描述了自动校对系统的整体框架 ,并具体给出可操作的实现方法 这些方法针对非受限领域的文本 。 展开更多
关键词 中文文本自动校对 N元模型 主题相关度 语义共现矩阵
在线阅读 下载PDF
一个中文文本自动分类数学模型 被引量:18
13
作者 曹素青 曾伏虎 曹焕光 《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类... 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 展开更多
关键词 中文文本 自动分类 字频向量 映射函数
在线阅读 下载PDF
中文文本自动校对的语义级查错研究 被引量:13
14
作者 骆卫华 罗振声 龚小谨 《计算机工程与应用》 CSCD 北大核心 2003年第12期115-118,共4页
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略... 目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。 展开更多
关键词 中文文本自动校对 基于实例 语义相邻矩阵 语义共现矩阵
在线阅读 下载PDF
基于《中图法》知识库的自动分类相关问题探析 被引量:11
15
作者 薛春香 何琳 侯汉清 《图书馆建设》 CSSCI 北大核心 2015年第6期16-20,26,共6页
在网络环境下,传统分类法的应用环境和核心功能发生了转变。基于《中图法》知识库的自动分类能够满足当前数字信息资源组织和检索的需要,但其在知识库规模、分类算法、《中图法》分类体系等方面存在问题。这些问题可以从自动分类的适应... 在网络环境下,传统分类法的应用环境和核心功能发生了转变。基于《中图法》知识库的自动分类能够满足当前数字信息资源组织和检索的需要,但其在知识库规模、分类算法、《中图法》分类体系等方面存在问题。这些问题可以从自动分类的适应性改造和知识库更新方面进行改进。 展开更多
关键词 文本自动分类 《中国图书馆分类法》 分类知识库 数字信息资源组织
在线阅读 下载PDF
中文文本校对技术的研究与实现 被引量:7
16
作者 陈笑蓉 秦进 +1 位作者 汪维家 陆汝占 《计算机科学》 CSCD 北大核心 2003年第11期53-55,共3页
文本自动校对工作的计算机化是说所有的校对工作应在计算机上自动完成;具体地说是计算机应在文字处理上增加专为校对服务的功能,主要是查(侦)错和改(纠)错.
关键词 中文文本 校对 技术
在线阅读 下载PDF
基于关联规则的中文文本分类算法的改进 被引量:6
17
作者 张玉芳 杨柯 熊忠阳 《郑州大学学报(理学版)》 CAS 2007年第2期114-117,共4页
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于... 随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值. 展开更多
关键词 关联规则挖掘 中文文本 文本自动分类算法
在线阅读 下载PDF
基于语料和基于标引经验的自动分类模式比较 被引量:10
18
作者 薛春香 夏祖奇 侯汉清 《南京农业大学学报(社会科学版)》 2005年第4期85-92,共8页
从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发... 从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征,数学论证充分,易于维护,比较适合于面向行业和主题的粗分类,但是过分强调了机器学习的效能,忽略了人工智力劳动成果的利用,训练过程和分类过程运算量,算法复杂;而基于标引经验的自动分类模式利用简单的统计学方法从书目数据库中挖掘人工标引经验,适用于面向体系分类法的详细分类,分类算法简单,运算量小,但过分依赖经验,缺乏有说服力的数学证明。知识库的完备性和合理性是影响两者分类效能的主要因素,是两者面临的共同问题。 展开更多
关键词 自动分类 自动标引 语料库 知识库 《中国图书馆分类法》
在线阅读 下载PDF
中文文本自动校对 被引量:23
19
作者 张磊 周明 +1 位作者 黄昌宁 潘海华 《语言文字应用》 CSSCI 北大核心 2001年第1期19-26,共8页
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对... 本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。 展开更多
关键词 中文文本自动校对 拼写检查 自然语言处理
原文传递
自动文摘评价方法综述 被引量:12
20
作者 张瑾 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘... 评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 自动文摘 自然语言处理 多文档文摘 文摘评价方法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部