期刊文献+
共找到2,507篇文章
< 1 2 126 >
每页显示 20 50 100
北京大学现代汉语语料库基本加工规范 被引量:133
1
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第5期49-64,共16页
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语... 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 基本加工规范 词语切分 词性标注 汉字处理系统 名词标注 语素子类标注
在线阅读 下载PDF
基于向量空间模型的文本自动分类系统的研究与实现 被引量:295
2
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
在线阅读 下载PDF
中文搜索引擎中的中文信息处理技术 被引量:35
3
作者 邹海山 吴勇 +1 位作者 吴月珠 陈阵 《计算机应用研究》 CSCD 2000年第12期21-24,共4页
就中文搜索引擎中的若干中文信息处理技术作了较深入地探讨,对诸如中文分词、中文码制转换和中文全半角处理等方面提出了较完整的解决方案。
关键词 中文搜索引擎 中文信息处理技术 中文分词 码制转换 全半角处理 汉字编码 Internet
在线阅读 下载PDF
汉字的数学表达式研究 被引量:29
4
作者 孙星明 殷建平 +2 位作者 陈火旺 吴泉源 景新海 《计算机研究与发展》 EI CSCD 北大核心 2002年第6期707-711,共5页
通过深入分析汉字的有关结构知识,提出了一种全新的汉字的数学表达方法,该方法将汉字表示成由505个部件作为操作数、部件间的6种位置关系作为运算符号的数学表达式.这种表达方法接近自然,结构简单,而且可像普通的数学表达式一样按一定... 通过深入分析汉字的有关结构知识,提出了一种全新的汉字的数学表达方法,该方法将汉字表示成由505个部件作为操作数、部件间的6种位置关系作为运算符号的数学表达式.这种表达方法接近自然,结构简单,而且可像普通的数学表达式一样按一定的运算规则处理,它可广泛应用于排版印刷、广告、包装设计、网络传输及中文移动通信等领域.已成功地应用在汉字字形自动生成、互联网上跨平台传播汉字信息、挖掘有关汉字结构知识等方面. 展开更多
关键词 汉字 数学表达式 数据结构 部件 笔画 汉字识别
在线阅读 下载PDF
基于无指导学习策略的无词表条件下的汉语自动分词 被引量:37
5
作者 孙茂松 肖明 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2004年第6期736-742,共7页
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统... 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % . 展开更多
关键词 无指导学习 汉语自动分词 汉字Bigram 互信息 t-测试差 线性叠加 统计量 中文信息处理应用系统
在线阅读 下载PDF
全二分最大匹配快速分词算法 被引量:39
6
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
在线阅读 下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
7
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
在线阅读 下载PDF
汉语多重关系复句的关系层次分析 被引量:24
8
作者 鲁松 白硕 +1 位作者 李素建 刘群 《软件学报》 EI CSCD 北大核心 2001年第7期987-995,共9页
汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成 .将多重关系复句中的层次分析作为研究对象 .它是针对多种逻辑或并列关系 ,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程 .为了有效地形式化... 汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成 .将多重关系复句中的层次分析作为研究对象 .它是针对多种逻辑或并列关系 ,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程 .为了有效地形式化地表示多重关系复句的层次结构 ,提出了关系层次树的概念 ,并以此为基础构造文法 ,采用部分数据驱动的确定性移进 归约算法实现多重关系复句的关系层次分析 .通过开放测试对计算机实现的多重关系复句句法分析器进行考察 ,93.56 %的正确率使所提出的分析方法的有效性和正确性得到了充分的验证 . 展开更多
关键词 句法分析 关系层次树 汉语多重关系复句 自然语言理解
在线阅读 下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:109
9
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
在线阅读 下载PDF
基于SVM和k-NN结合的汉语交集型歧义切分方法 被引量:19
10
作者 李蓉 刘少辉 +1 位作者 叶世伟 史忠植 《中文信息学报》 CSCD 北大核心 2001年第6期13-18,共6页
本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义... 本文提出了基于支持向量机 (SVM)和k 近邻 (k NN)相结合的一种分类方法 ,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程 ,从歧义字段中挑选出一些高频伪歧义字段 ,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理 91 .6%的交集歧义字段 ,而且该算法具有一定的稳定性。 展开更多
关键词 支持向量 类代表点 交集型歧义 汉语自动分词 歧义切分 SVM K-近邻 分类方法
在线阅读 下载PDF
基于对数模型的词义自动消歧 被引量:13
11
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
在线阅读 下载PDF
无词典高频字串快速提取和统计算法研究 被引量:36
12
作者 韩客松 王永成 陈桂林 《中文信息学报》 CSCD 北大核心 2001年第2期23-30,共8页
本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义... 本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制 。 展开更多
关键词 Hash技术 高频字串 统计 算法 提取 文本信息处理 语料库 前缀处理 后缀处理
在线阅读 下载PDF
北京大学现代汉语语料库基本加工规范(续) 被引量:19
13
作者 俞士汶 段慧明 +1 位作者 朱学锋 孙斌 《中文信息学报》 CSCD 北大核心 2002年第6期58-65,共8页
北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规... 北京大学计算语言学研究所已经完成了一个有 2 70 0万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外 ,还包括专有名词 (人名、地名、团体机构名称等 )标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉 ,更广泛地向专家、同行征询意见 ,以便进一步修订。 展开更多
关键词 北京大学 现代汉语语料库 加工规范 词语切分 词性标注 名词标注 汉字处理系统
在线阅读 下载PDF
字典与统计相结合的中文分词方法 被引量:42
14
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
在线阅读 下载PDF
利用串匹配技术实现网上新闻的主题提取(英文) 被引量:11
15
作者 尹中航 王永成 +1 位作者 蔡巍 韩客松 《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上... 从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. 展开更多
关键词 网页 信息处理 网上新闻 主题提取 自然语言处理 串匹配技术
在线阅读 下载PDF
基于规则的汉语句法分析方法研究 被引量:13
16
作者 王鹏 戴新宇 +1 位作者 陈家骏 王启祥 《计算机工程与应用》 CSCD 北大核心 2003年第29期63-66,169,共5页
该文从汉语的句法结构特点出发对基于规则的汉语句法分析方法进行讨论,从中总结出这类方法的一般特征,提出实用化的基于规则的汉语句法分析器必须引入其它辅助分析手段才能提高性能和可靠性。
关键词 句法分析 上下文无关文法 汉语 语料库 知识库
在线阅读 下载PDF
基于义原同现频率的汉语词义排歧方法 被引量:26
17
作者 杨尔弘 张国清 张永奎 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。 展开更多
关键词 自然语言处理 知网 义原同现频率 汉语词义排歧 语料库
在线阅读 下载PDF
基于角色标注的中国人名自动识别研究 被引量:105
18
作者 张华平 刘群 《计算机学报》 EI CSCD 北大核心 2004年第1期85-91,共7页
该文提出了一种基于角色标注的中国人名自动识别方法 .其基本思想是 :根据在人名识别中的作用 ,采取Viterbi算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别 .识别过程中只需要将某个词作... 该文提出了一种基于角色标注的中国人名自动识别方法 .其基本思想是 :根据在人名识别中的作用 ,采取Viterbi算法对切词结果进行角色标注 ,在角色序列的基础上 ,进行模式最大匹配 ,最终实现中国人名的识别 .识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率 .该方法的实用性还在于 :这些角色信息完全可以从真实语料库中自动抽取得到 .通过对 16M字节真实语料库的封闭与开放测试 ,该方法取得了接近 98%的召回率 .文中介绍了计算所汉语词法分析系统ICTCLAS ,集成人名识别算法之后 ,词法分析的准确率提高了 1.4 1% ,同时人名识别的综合指标F 1值达到了 95 .4 0 % .不同实验从各个角度表明 展开更多
关键词 中文自然语言处理 词法分析 角色标注 自动识别 角色序列 VITERBI算法 中国人名
在线阅读 下载PDF
模糊Petri网知识表示方法在入侵检测中的应用 被引量:13
19
作者 危胜军 胡昌振 谭惠民 《计算机工程》 EI CAS CSCD 北大核心 2005年第2期130-132,共3页
根据网络攻击具有并发性,攻击特征的提取具有不确定性等特点,给出了采用模糊Petri网实现攻击知识的表达和入侵检测的推理模型。该模型解决了误用入侵检测系统中现有知识表示方法不能并行推理的问题,以及传统的基于Petri网可达图搜索求... 根据网络攻击具有并发性,攻击特征的提取具有不确定性等特点,给出了采用模糊Petri网实现攻击知识的表达和入侵检测的推理模型。该模型解决了误用入侵检测系统中现有知识表示方法不能并行推理的问题,以及传统的基于Petri网可达图搜索求解导致模型描述复杂、推理缺少智能的问题。最后通过入侵实例验证了该模型的正确性和有效性。 展开更多
关键词 入侵检测系统 攻击特征 知识表示方法 网络攻击 并发性 并行 搜索 模糊PETRI网 问题 模型
在线阅读 下载PDF
基于支持向量机的汉语问句分类 被引量:20
20
作者 余正涛 樊孝忠 郭剑毅 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第9期25-29,34,共6页
目前汉语问句分类一般都依据疑问词及其相关词的组合规则,但由于规则的提取很深地依赖于语言知识,而且很难穷举出所有的特征规则,因此会影响分类的效果.支持向量机(SVM)是建立在统计理论基础上的机器学习方法,对于小样本分类问题有很好... 目前汉语问句分类一般都依据疑问词及其相关词的组合规则,但由于规则的提取很深地依赖于语言知识,而且很难穷举出所有的特征规则,因此会影响分类的效果.支持向量机(SVM)是建立在统计理论基础上的机器学习方法,对于小样本分类问题有很好的识别效果.文中分析和定义了汉语问句的类型,建立了以SVM为基础的问句分类模型,详细描述了问句分类特征的选取过程,并在句法特征的基础上引入语义特征进行汉语问句分类实验,分类准确率达88.7%,表明结合句法和语义特征以SVM进行汉语问句分类具有很好的效果. 展开更多
关键词 问答系统 问句分类 支持向量机 句法特征 语义特征
在线阅读 下载PDF
上一页 1 2 126 下一页 到第
使用帮助 返回顶部