期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
64
篇文章
<
1
2
…
4
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进的TextRank的自动摘要提取方法
被引量:
42
1
作者
余珊珊
苏锦钿
李鹏飞
《计算机科学》
CSCD
北大核心
2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置...
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。
展开更多
关键词
中文文本
自动摘要提取
text
Rank
篇章结构
无监督学习方法
在线阅读
下载PDF
职称材料
文本挖掘技术研究进展
被引量:
60
2
作者
袁军鹏
朱东华
+2 位作者
李毅
李连宏
黄进
《计算机应用研究》
CSCD
北大核心
2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视...
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。
展开更多
关键词
文本挖掘
中文分词
特征选取
文本摘要
文本分类
文本聚类
关联分析
数据可视化
在线阅读
下载PDF
职称材料
中文文本中抽取特征信息的区域与技术
被引量:
45
3
作者
刘开瑛
薛翠芳
+1 位作者
郑家恒
周晓强
《中文信息学报》
CSCD
北大核心
1998年第2期1-7,共7页
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是...
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言。
展开更多
关键词
中文文本
特征信息
本文处理
自动标引
抽取技术
在线阅读
下载PDF
职称材料
基于知识的文本摘要系统研究与实现
被引量:
19
4
作者
孙春葵
李蕾
+1 位作者
杨晓兰
钟义信
《计算机研究与发展》
EI
CSCD
北大核心
2000年第7期874-881,共8页
提出了一个基于知识的文摘系统模型 ,并基于这种模型实现了一个文本摘要系统 L ADIES.另外 ,还提出了一种文摘系统的评估方法 .
关键词
中文信息处理
知识
文本摘要系统
在线阅读
下载PDF
职称材料
基于事件抽取的网络新闻多文档自动摘要
被引量:
15
5
作者
韩永峰
许旭阳
+2 位作者
李弼程
朱武斌
陈刚
《中文信息学报》
CSCD
北大核心
2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新...
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
展开更多
关键词
事件抽取
中文信息处理
分类
新闻文档
聚类
自动摘要
在线阅读
下载PDF
职称材料
中文新闻关键事件的主题句识别
被引量:
18
6
作者
王伟
赵东岩
赵伟
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第5期789-796,共8页
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新...
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件信息打好了基础。
展开更多
关键词
计算机应用
中文信息处理
自然语言处理
自动文摘
事件抽取
新闻标题
在线阅读
下载PDF
职称材料
基于HowNet概念获取的中文自动文摘系统
被引量:
22
7
作者
王萌
何婷婷
+1 位作者
姬东鸿
王晓荣
《中文信息学报》
CSCD
北大核心
2005年第3期87-93,共7页
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于...
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。
展开更多
关键词
计算机应用
中文信息处理
HOWNET
自动文摘
概念向量空间模型
在线阅读
下载PDF
职称材料
中文文本自动校对技术现状及展望
被引量:
14
8
作者
张仰森
丁冰青
《中文信息学报》
CSCD
北大核心
1998年第3期50-56,共7页
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
关键词
中文文本
自动校对
自动查错
确认纠错
展望
在线阅读
下载PDF
职称材料
WWW中文信息自动分类方法研究
被引量:
9
9
作者
郑家恒
宋文中
《情报学报》
CSSCI
北大核心
2002年第5期532-536,共5页
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按...
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
展开更多
关键词
类别权值
可信度
WWW
中文信息
自动分类
文本自动分类
类别词
在线阅读
下载PDF
职称材料
基于二元接续关系检查的字词级自动查错方法
被引量:
29
10
作者
张仰森
丁冰青
《中文信息学报》
CSCD
北大核心
2001年第3期36-43,共8页
本文探讨了基于字字同现、词性二元接续和语义二元接续的中文文本的自动查错原理和查错算法 ;给出了字词接续判断模型 ,并讨论了与接续判断模型相关的查错知识库的构造方法。通过对实验结果的分析和评测 ,证明本文所述方法是可行的。
关键词
中文文本自动校对
自动查错
二元接续关系
在线阅读
下载PDF
职称材料
中文短文本自动分类中的汉字特征优化研究
被引量:
4
11
作者
王昊
邓三鸿
苏新宁
《情报理论与实践》
CSSCI
北大核心
2015年第6期121-127,共7页
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅...
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。
展开更多
关键词
短文本
文本分类
汉字特征
自动分类
优化
原文传递
中文文本自动校对技术的研究
被引量:
21
12
作者
骆卫华
罗振声
宫小瑾
《计算机研究与发展》
EI
CSCD
北大核心
2004年第1期244-249,共6页
传统的自动校对技术多是基于字、词级的统计方法 ,有很多局限 ,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同 ,提出了词法、句法、语义多层次结合校对策略 ,从而能够检查以往无法查出的错误 描述了自动校...
传统的自动校对技术多是基于字、词级的统计方法 ,有很多局限 ,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同 ,提出了词法、句法、语义多层次结合校对策略 ,从而能够检查以往无法查出的错误 描述了自动校对系统的整体框架 ,并具体给出可操作的实现方法 这些方法针对非受限领域的文本 。
展开更多
关键词
中文文本自动校对
N元模型
主题相关度
语义共现矩阵
在线阅读
下载PDF
职称材料
一个中文文本自动分类数学模型
被引量:
18
13
作者
曹素青
曾伏虎
曹焕光
《情报学报》
CSSCI
北大核心
1999年第1期27-32,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类...
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
展开更多
关键词
中文文本
自动分类
字频向量
映射函数
在线阅读
下载PDF
职称材料
中文文本自动校对的语义级查错研究
被引量:
13
14
作者
骆卫华
罗振声
龚小谨
《计算机工程与应用》
CSCD
北大核心
2003年第12期115-118,共4页
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略...
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。
展开更多
关键词
中文文本自动校对
基于实例
语义相邻矩阵
语义共现矩阵
在线阅读
下载PDF
职称材料
基于《中图法》知识库的自动分类相关问题探析
被引量:
11
15
作者
薛春香
何琳
侯汉清
《图书馆建设》
CSSCI
北大核心
2015年第6期16-20,26,共6页
在网络环境下,传统分类法的应用环境和核心功能发生了转变。基于《中图法》知识库的自动分类能够满足当前数字信息资源组织和检索的需要,但其在知识库规模、分类算法、《中图法》分类体系等方面存在问题。这些问题可以从自动分类的适应...
在网络环境下,传统分类法的应用环境和核心功能发生了转变。基于《中图法》知识库的自动分类能够满足当前数字信息资源组织和检索的需要,但其在知识库规模、分类算法、《中图法》分类体系等方面存在问题。这些问题可以从自动分类的适应性改造和知识库更新方面进行改进。
展开更多
关键词
文本自动分类
《中国图书馆分类法》
分类知识库
数字信息资源组织
在线阅读
下载PDF
职称材料
中文文本校对技术的研究与实现
被引量:
7
16
作者
陈笑蓉
秦进
+1 位作者
汪维家
陆汝占
《计算机科学》
CSCD
北大核心
2003年第11期53-55,共3页
文本自动校对工作的计算机化是说所有的校对工作应在计算机上自动完成;具体地说是计算机应在文字处理上增加专为校对服务的功能,主要是查(侦)错和改(纠)错.
关键词
中文文本
校对
技术
在线阅读
下载PDF
职称材料
基于关联规则的中文文本分类算法的改进
被引量:
6
17
作者
张玉芳
杨柯
熊忠阳
《郑州大学学报(理学版)》
CAS
2007年第2期114-117,共4页
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于...
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.
展开更多
关键词
关联规则挖掘
中文文本
文本自动分类算法
在线阅读
下载PDF
职称材料
基于语料和基于标引经验的自动分类模式比较
被引量:
10
18
作者
薛春香
夏祖奇
侯汉清
《南京农业大学学报(社会科学版)》
2005年第4期85-92,共8页
从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发...
从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征,数学论证充分,易于维护,比较适合于面向行业和主题的粗分类,但是过分强调了机器学习的效能,忽略了人工智力劳动成果的利用,训练过程和分类过程运算量,算法复杂;而基于标引经验的自动分类模式利用简单的统计学方法从书目数据库中挖掘人工标引经验,适用于面向体系分类法的详细分类,分类算法简单,运算量小,但过分依赖经验,缺乏有说服力的数学证明。知识库的完备性和合理性是影响两者分类效能的主要因素,是两者面临的共同问题。
展开更多
关键词
自动分类
自动标引
语料库
知识库
《中国图书馆分类法》
在线阅读
下载PDF
职称材料
中文文本自动校对
被引量:
23
19
作者
张磊
周明
+1 位作者
黄昌宁
潘海华
《语言文字应用》
CSSCI
北大核心
2001年第1期19-26,共8页
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对...
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。
展开更多
关键词
中文文本自动校对
拼写检查
自然语言处理
原文传递
自动文摘评价方法综述
被引量:
12
20
作者
张瑾
王小磊
许洪波
《中文信息学报》
CSCD
北大核心
2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘...
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。
展开更多
关键词
计算机应用
中文信息处理
文本挖掘
自动文摘
自然语言处理
多文档文摘
文摘评价方法
在线阅读
下载PDF
职称材料
题名
基于改进的TextRank的自动摘要提取方法
被引量:
42
1
作者
余珊珊
苏锦钿
李鹏飞
机构
广东药科大学医药信息工程学院
华南理工大学计算机科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2016年第6期240-247,共8页
基金
广东省自然科学基金(2015A030310318)
广东省医学科学技术研究基金项目(A2015065)
国家自然科学基金资助项目(61103038)资助
文摘
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。
关键词
中文文本
自动摘要提取
text
Rank
篇章结构
无监督学习方法
Keywords
chinese
text
s,
automatic
summarization extraction,
text
Rank, Article discourse, Unsupervised learning methods
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
文本挖掘技术研究进展
被引量:
60
2
作者
袁军鹏
朱东华
李毅
李连宏
黄进
机构
清华大学公共管理学院
北京理工大学管理与经济学院
空军济南四站厂
出处
《计算机应用研究》
CSCD
北大核心
2006年第2期1-4,共4页
基金
国家自然科学基金资助项目(70031010)
北京理工大学学校基金项目
北京理工大学育苗基金项目
文摘
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。
关键词
文本挖掘
中文分词
特征选取
文本摘要
文本分类
文本聚类
关联分析
数据可视化
Keywords
text
Mining
Cutting
chinese
Word
Feature Selection
text
automatic
Abstracting
text
Categorization
text
Clustering
text
Association
Data Visualization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
中文文本中抽取特征信息的区域与技术
被引量:
45
3
作者
刘开瑛
薛翠芳
郑家恒
周晓强
机构
山西大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
1998年第2期1-7,共7页
基金
国家基金
国家863智能机接口专题
文摘
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言。
关键词
中文文本
特征信息
本文处理
自动标引
抽取技术
Keywords
chinese
text
signature information document
automatic
document
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于知识的文本摘要系统研究与实现
被引量:
19
4
作者
孙春葵
李蕾
杨晓兰
钟义信
机构
北京邮电大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第7期874-881,共8页
基金
国家"八六三"高技术研究发展计划基金项目资助!(项目编号 863 -3 17-960 1-0 6-0 3 )
文摘
提出了一个基于知识的文摘系统模型 ,并基于这种模型实现了一个文本摘要系统 L ADIES.另外 ,还提出了一种文摘系统的评估方法 .
关键词
中文信息处理
知识
文本摘要系统
Keywords
chinese
information processing,
text
summarization,
automatic
abstracting
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于事件抽取的网络新闻多文档自动摘要
被引量:
15
5
作者
韩永峰
许旭阳
李弼程
朱武斌
陈刚
机构
解放军信息工程大学信息工程学院
出处
《中文信息学报》
CSCD
北大核心
2012年第1期58-66,共9页
基金
国家社科重大基金项目(09&ZD014)
国家"863"计划资助项目(2007AA01Z439)
文摘
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
关键词
事件抽取
中文信息处理
分类
新闻文档
聚类
自动摘要
Keywords
event extraction
chinese
information processing
classification
news
text
clustering
automatic
summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文新闻关键事件的主题句识别
被引量:
18
6
作者
王伟
赵东岩
赵伟
机构
北京大学计算科学与技术研究所
武警工程学院电子技术系
计算语言学教育部重点实验室
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第5期789-796,共8页
基金
国家自然科学基金(61003009)
北京市科委基金(Z101101005010003)
高等学校博士学科点专项科研基金(20100001120029)资助
文摘
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件信息打好了基础。
关键词
计算机应用
中文信息处理
自然语言处理
自动文摘
事件抽取
新闻标题
Keywords
computer application
chinese
information processing
natural language processing
automatic
text
abstract
event extraction
news headline
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于HowNet概念获取的中文自动文摘系统
被引量:
22
7
作者
王萌
何婷婷
姬东鸿
王晓荣
机构
华中师范大学计算机科学系
新加坡信息通讯研究所
出处
《中文信息学报》
CSCD
北大核心
2005年第3期87-93,共7页
基金
国家自然科学基金项目 (6 0 4 42 0 0 5 )
教育部科学技术研究资助项目 (10 5 117)
+1 种基金
国家语言文字应用委员会资助项目 (ZDI10 5 - 43B)
国家重点基础研究 973资助项目 (2 0 0 4CB 31810 4 )
文摘
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。
关键词
计算机应用
中文信息处理
HOWNET
自动文摘
概念向量空间模型
Keywords
computer application
chinese
information processing
HowNet
automatic
text
summarization
conceptual vector space model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文文本自动校对技术现状及展望
被引量:
14
8
作者
张仰森
丁冰青
机构
山西大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
1998年第3期50-56,共7页
文摘
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
关键词
中文文本
自动校对
自动查错
确认纠错
展望
Keywords
chinese
text
automatic
proofread
automatic
checking Confirmative correction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
WWW中文信息自动分类方法研究
被引量:
9
9
作者
郑家恒
宋文中
机构
山西大学计算机科学系
出处
《情报学报》
CSSCI
北大核心
2002年第5期532-536,共5页
文摘
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
关键词
类别权值
可信度
WWW
中文信息
自动分类
文本自动分类
类别词
Keywords
WWW,
chinese
information
automatic
categorization,
text
automatic
categorization,category-word.
分类号
G254.1 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
基于二元接续关系检查的字词级自动查错方法
被引量:
29
10
作者
张仰森
丁冰青
机构
山西大学计算机科学系
中国科学院自动化研究所模式识别国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2001年第3期36-43,共8页
基金
山西省自然科学基金!(9810 31)
文摘
本文探讨了基于字字同现、词性二元接续和语义二元接续的中文文本的自动查错原理和查错算法 ;给出了字词接续判断模型 ,并讨论了与接续判断模型相关的查错知识库的构造方法。通过对实验结果的分析和评测 ,证明本文所述方法是可行的。
关键词
中文文本自动校对
自动查错
二元接续关系
Keywords
chinese
text
automatic
proofread
automatic
error detecting
bi neighborship
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文短文本自动分类中的汉字特征优化研究
被引量:
4
11
作者
王昊
邓三鸿
苏新宁
机构
南京大学信息管理学院
南京大学江苏省数据工程与知识服务重点实验室
出处
《情报理论与实践》
CSSCI
北大核心
2015年第6期121-127,共7页
基金
国家社会科学基金重大招标项目"面向突发事件应急决策的快速响应情报体系研究"(项目编号:13&ZD174)
江苏省自然科学基金青年项目"面向专利预警的中文本体学习研究"(项目编号:BK20130587)的成果
文摘
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。
关键词
短文本
文本分类
汉字特征
自动分类
优化
Keywords
short-
text
text
classification
chinese
character features
automatic
classification
optimization
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
中文文本自动校对技术的研究
被引量:
21
12
作者
骆卫华
罗振声
宫小瑾
机构
清华大学中国语言文学系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第1期244-249,共6页
文摘
传统的自动校对技术多是基于字、词级的统计方法 ,有很多局限 ,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同 ,提出了词法、句法、语义多层次结合校对策略 ,从而能够检查以往无法查出的错误 描述了自动校对系统的整体框架 ,并具体给出可操作的实现方法 这些方法针对非受限领域的文本 。
关键词
中文文本自动校对
N元模型
主题相关度
语义共现矩阵
Keywords
automatic
proofreading for
chinese
text
s
n-gram modal
degree of subject relativity
semantic co-concurrence matrix
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一个中文文本自动分类数学模型
被引量:
18
13
作者
曹素青
曾伏虎
曹焕光
机构
山西大学
出处
《情报学报》
CSSCI
北大核心
1999年第1期27-32,共6页
文摘
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。
关键词
中文文本
自动分类
字频向量
映射函数
Keywords
automatic
chinese
text
categorization,
chinese
character frequency vector,example based mapping method.
分类号
G254.1 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
中文文本自动校对的语义级查错研究
被引量:
13
14
作者
骆卫华
罗振声
龚小谨
机构
清华大学中文系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第12期115-118,共4页
文摘
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。
关键词
中文文本自动校对
基于实例
语义相邻矩阵
语义共现矩阵
Keywords
automatic
Proofreading for
chinese
text
,Instance-based,Semantic Adjacent Matrix,Semantic Co-occurrence Matrix
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于《中图法》知识库的自动分类相关问题探析
被引量:
11
15
作者
薛春香
何琳
侯汉清
机构
南京理工大学信息管理系
南京农业大学信息科技学院
出处
《图书馆建设》
CSSCI
北大核心
2015年第6期16-20,26,共6页
基金
中央高校基本科研业务费专项资金"基于内容与社会化信息融合视角的数字化报纸资源开发利用模式研究"
项目编号:30920130132005
+2 种基金
江苏省社会科学基金项目"新媒体环境下报纸新闻信息资源开发利用研究"
项目编号:14TQB10
国家留学基金资助
文摘
在网络环境下,传统分类法的应用环境和核心功能发生了转变。基于《中图法》知识库的自动分类能够满足当前数字信息资源组织和检索的需要,但其在知识库规模、分类算法、《中图法》分类体系等方面存在问题。这些问题可以从自动分类的适应性改造和知识库更新方面进行改进。
关键词
文本自动分类
《中国图书馆分类法》
分类知识库
数字信息资源组织
Keywords
automatic
text
classification
chinese
Library Classification
Knowledge base for classification
Digital informationresource organization
分类号
G254 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
中文文本校对技术的研究与实现
被引量:
7
16
作者
陈笑蓉
秦进
汪维家
陆汝占
机构
贵州大学计算机科学系
上海交通大学计算机科学与工程系
出处
《计算机科学》
CSCD
北大核心
2003年第11期53-55,共3页
基金
贵州省自然科学基金
文摘
文本自动校对工作的计算机化是说所有的校对工作应在计算机上自动完成;具体地说是计算机应在文字处理上增加专为校对服务的功能,主要是查(侦)错和改(纠)错.
关键词
中文文本
校对
技术
Keywords
automatic
chinese
text
proofreading, Bi-adjoining relation, Likelihood match, Candidate word set
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于关联规则的中文文本分类算法的改进
被引量:
6
17
作者
张玉芳
杨柯
熊忠阳
机构
重庆大学计算机学院
出处
《郑州大学学报(理学版)》
CAS
2007年第2期114-117,共4页
基金
重庆市科委自然科学基金资助项目
编号CSTC2006BB2021
文摘
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.
关键词
关联规则挖掘
中文文本
文本自动分类算法
Keywords
associate rules mining
chinese
documents
text
automatic
classified algorithm
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于语料和基于标引经验的自动分类模式比较
被引量:
10
18
作者
薛春香
夏祖奇
侯汉清
机构
南京农业大学信息科技学院
趋势科技中国研发中心
出处
《南京农业大学学报(社会科学版)》
2005年第4期85-92,共8页
基金
南京农业大学信息科技学院院级资助项目
国家社会科学基金资助项目(02BTQ012)
文摘
从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征,数学论证充分,易于维护,比较适合于面向行业和主题的粗分类,但是过分强调了机器学习的效能,忽略了人工智力劳动成果的利用,训练过程和分类过程运算量,算法复杂;而基于标引经验的自动分类模式利用简单的统计学方法从书目数据库中挖掘人工标引经验,适用于面向体系分类法的详细分类,分类算法简单,运算量小,但过分依赖经验,缺乏有说服力的数学证明。知识库的完备性和合理性是影响两者分类效能的主要因素,是两者面临的共同问题。
关键词
自动分类
自动标引
语料库
知识库
《中国图书馆分类法》
Keywords
automatic
classification
automatic
indexing
text
corpus
knowledge base
chinese
Library Classification
分类号
G254.36 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
中文文本自动校对
被引量:
23
19
作者
张磊
周明
黄昌宁
潘海华
机构
清华大学计算机科学与技术系
微软中国研究院
香港城市大学中文
出处
《语言文字应用》
CSSCI
北大核心
2001年第1期19-26,共8页
基金
国家教委博士点基金
香港"大学拨款委员会"(ROC)的部分资助!项目号是 # 90 4 0 32 9
文摘
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。
关键词
中文文本自动校对
拼写检查
自然语言处理
Keywords
automatic
detection and correction of typed errors in
chinese
text
,spelling check, natural language processing
分类号
H086.6 [语言文字—语言学]
原文传递
题名
自动文摘评价方法综述
被引量:
12
20
作者
张瑾
王小磊
许洪波
机构
中国科学院计算技术研究所信息智能与信息安全研究中心
出处
《中文信息学报》
CSCD
北大核心
2008年第3期81-88,共8页
基金
国家973计划“大规模文本内容计算”课题资助项目(2004CB318109)
文摘
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。
关键词
计算机应用
中文信息处理
文本挖掘
自动文摘
自然语言处理
多文档文摘
文摘评价方法
Keywords
computer application
chinese
information processing
text
mining
automatic
summarization
nature language processing
multi-document summarization
summarization evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进的TextRank的自动摘要提取方法
余珊珊
苏锦钿
李鹏飞
《计算机科学》
CSCD
北大核心
2016
42
在线阅读
下载PDF
职称材料
2
文本挖掘技术研究进展
袁军鹏
朱东华
李毅
李连宏
黄进
《计算机应用研究》
CSCD
北大核心
2006
60
在线阅读
下载PDF
职称材料
3
中文文本中抽取特征信息的区域与技术
刘开瑛
薛翠芳
郑家恒
周晓强
《中文信息学报》
CSCD
北大核心
1998
45
在线阅读
下载PDF
职称材料
4
基于知识的文本摘要系统研究与实现
孙春葵
李蕾
杨晓兰
钟义信
《计算机研究与发展》
EI
CSCD
北大核心
2000
19
在线阅读
下载PDF
职称材料
5
基于事件抽取的网络新闻多文档自动摘要
韩永峰
许旭阳
李弼程
朱武斌
陈刚
《中文信息学报》
CSCD
北大核心
2012
15
在线阅读
下载PDF
职称材料
6
中文新闻关键事件的主题句识别
王伟
赵东岩
赵伟
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011
18
在线阅读
下载PDF
职称材料
7
基于HowNet概念获取的中文自动文摘系统
王萌
何婷婷
姬东鸿
王晓荣
《中文信息学报》
CSCD
北大核心
2005
22
在线阅读
下载PDF
职称材料
8
中文文本自动校对技术现状及展望
张仰森
丁冰青
《中文信息学报》
CSCD
北大核心
1998
14
在线阅读
下载PDF
职称材料
9
WWW中文信息自动分类方法研究
郑家恒
宋文中
《情报学报》
CSSCI
北大核心
2002
9
在线阅读
下载PDF
职称材料
10
基于二元接续关系检查的字词级自动查错方法
张仰森
丁冰青
《中文信息学报》
CSCD
北大核心
2001
29
在线阅读
下载PDF
职称材料
11
中文短文本自动分类中的汉字特征优化研究
王昊
邓三鸿
苏新宁
《情报理论与实践》
CSSCI
北大核心
2015
4
原文传递
12
中文文本自动校对技术的研究
骆卫华
罗振声
宫小瑾
《计算机研究与发展》
EI
CSCD
北大核心
2004
21
在线阅读
下载PDF
职称材料
13
一个中文文本自动分类数学模型
曹素青
曾伏虎
曹焕光
《情报学报》
CSSCI
北大核心
1999
18
在线阅读
下载PDF
职称材料
14
中文文本自动校对的语义级查错研究
骆卫华
罗振声
龚小谨
《计算机工程与应用》
CSCD
北大核心
2003
13
在线阅读
下载PDF
职称材料
15
基于《中图法》知识库的自动分类相关问题探析
薛春香
何琳
侯汉清
《图书馆建设》
CSSCI
北大核心
2015
11
在线阅读
下载PDF
职称材料
16
中文文本校对技术的研究与实现
陈笑蓉
秦进
汪维家
陆汝占
《计算机科学》
CSCD
北大核心
2003
7
在线阅读
下载PDF
职称材料
17
基于关联规则的中文文本分类算法的改进
张玉芳
杨柯
熊忠阳
《郑州大学学报(理学版)》
CAS
2007
6
在线阅读
下载PDF
职称材料
18
基于语料和基于标引经验的自动分类模式比较
薛春香
夏祖奇
侯汉清
《南京农业大学学报(社会科学版)》
2005
10
在线阅读
下载PDF
职称材料
19
中文文本自动校对
张磊
周明
黄昌宁
潘海华
《语言文字应用》
CSSCI
北大核心
2001
23
原文传递
20
自动文摘评价方法综述
张瑾
王小磊
许洪波
《中文信息学报》
CSCD
北大核心
2008
12
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
4
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部