期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
利用JNI实现ICTCLAS系统的Java调用 被引量:24
1
作者 夏天 樊孝忠 刘林 《计算机应用》 CSCD 北大核心 2004年第B12期177-178,182,共3页
介绍了Java本地方法的作用及意义,详细讨论了在Windows平台上,利用JNI(Java NativeInterface)在Java中调用ICTCLAS系统进行词法分析的具体方法和整个过程,并阐述了JNI实 施过程当中的一些注意事项。
关键词 JAVA本地接口 本地方法 ictclas 词法分析
在线阅读 下载PDF
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现 被引量:6
2
作者 蔡小艳 寇应展 +1 位作者 沈巍 郑伟 《军械工程学院学报》 2008年第5期63-66,70,共5页
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统... 分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。 展开更多
关键词 NUTCH LUCENE ictclas 中文分词 汉语词法分析系统
在线阅读 下载PDF
2009共享版ICTCLAS的分析与使用 被引量:17
3
作者 刘克强 《科教文汇》 2009年第22期271-271,280,共2页
汉语的分词是汉语信息化、现代化的一个重要步骤,也是汉语分析的必经之路。本文通过对2009共享版ICTCLAS(中国科学院计算技术研究所汉语词法分析系统)功能的介绍和演示,从而了解其特点和使用方法,以期在汉语信息化和现代化的过程中发挥... 汉语的分词是汉语信息化、现代化的一个重要步骤,也是汉语分析的必经之路。本文通过对2009共享版ICTCLAS(中国科学院计算技术研究所汉语词法分析系统)功能的介绍和演示,从而了解其特点和使用方法,以期在汉语信息化和现代化的过程中发挥更大的作用。 展开更多
关键词 ictclas 分词 汉语信息化
在线阅读 下载PDF
ICTCLAS中文词法分析的Delphi调用研究 被引量:2
4
作者 郭晓云 《电脑编程技巧与维护》 2011年第24期10-11,18,共3页
深入研究了ICTCL AS2011的API,并利用Delphi实现了对其所有API的调用。
关键词 ictclas 中文分词 DELPHI
在线阅读 下载PDF
智能新闻分类算法在报社信息管理中的应用
5
作者 韩丽琪 《计算机应用文摘》 2025年第8期111-113,117,共4页
随着互联网信息的爆炸式增长,报社面临海量新闻数据处理的挑战。基于特征聚类和降维的智能分类算法为解决这一问题提供了新的思路。该算法首先利用ICTCLAS系统对新闻文本进行分词处理,去除停用词并区分词性;然后通过权重函数对特征进行... 随着互联网信息的爆炸式增长,报社面临海量新闻数据处理的挑战。基于特征聚类和降维的智能分类算法为解决这一问题提供了新的思路。该算法首先利用ICTCLAS系统对新闻文本进行分词处理,去除停用词并区分词性;然后通过权重函数对特征进行降维,缩减关键词集;最后采用K-means聚类技术对文本特征进行聚类分类。该算法在TU95,YU75,OP954和ER9W7四个标准数据集上进行了测试,结果显示,分类准确率超过96%,召回率超过98%,相比于BERT-CNN和图注意力网络等主流算法,分别提高了约14%和18%。 展开更多
关键词 特征聚类 降维处理 新闻文本 智能分类 ictclas 权重函数
在线阅读 下载PDF
基于层叠隐马模型的汉语词法分析 被引量:200
6
作者 刘群 张华平 +1 位作者 俞鸿魁 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2004年第8期1421-1429,共9页
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 ... 提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。 展开更多
关键词 汉语词法分析 分词 词性标注 未登录词识别 层叠隐马模型 ictclas
在线阅读 下载PDF
基于层叠隐马尔可夫模型的中文命名实体识别 被引量:165
7
作者 俞鸿魁 张华平 +2 位作者 刘群 吕学强 施水才 《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名... 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。 展开更多
关键词 命名实体识别 角色标注 ictclas
在线阅读 下载PDF
数字图书馆中层关联数据的创建与发布 被引量:17
8
作者 王忠义 夏立新 +1 位作者 石义金 郑森茂 《现代图书情报技术》 CSSCI 北大核心 2013年第5期28-33,共6页
为实现数字图书馆馆藏资源目录数据(中粒度)的中层关联数据的创建与发布,在对现有关联数据创建与发布方法进行研究的基础上,针对目录数据自身的特点,采用自动标引、主题词映射等技术实现目录数据的结构化,借助目录体系与文本匹配实现关... 为实现数字图书馆馆藏资源目录数据(中粒度)的中层关联数据的创建与发布,在对现有关联数据创建与发布方法进行研究的基础上,针对目录数据自身的特点,采用自动标引、主题词映射等技术实现目录数据的结构化,借助目录体系与文本匹配实现关联数据的关联发现,借助D2R最终实现中层关联数据的创建与发布。 展开更多
关键词 数字图书馆 中层关联数据 D2R ictclas
原文传递
基于时空分析的微博演化可视化 被引量:6
9
作者 王松 吴亚东 +2 位作者 李秋生 蒋宏宇 邹勇刚 《西南科技大学学报》 CAS 2014年第3期68-75,共8页
针对海量增长的微博信息不利于快速查阅和筛选的问题,在分析微博数据特点的基础上,利用数据挖掘技术和信息可视化技术的有机结合,开发了基于时空分析的微博演化分析系统。该系统侧重于对热点事件所涉及的微博信息的演化分析,在关注热点... 针对海量增长的微博信息不利于快速查阅和筛选的问题,在分析微博数据特点的基础上,利用数据挖掘技术和信息可视化技术的有机结合,开发了基于时空分析的微博演化分析系统。该系统侧重于对热点事件所涉及的微博信息的演化分析,在关注热点事件从发生、爆发到最终消亡的同时,更加关注当前热点的微博用户群体的情感分析、关键用户追寻、发布时序分析,并在侧重时间演化过程的同时关注于热点事件的空间地理信息分析。该系统广泛适用于普通微博用户、新闻机构、政府机关等单位。 展开更多
关键词 时空分析 信息可视化 数据挖掘 ictclas分词
在线阅读 下载PDF
基于Ontology的农业科学领域知识库构建 被引量:8
10
作者 苏玉宁 姜艺 +1 位作者 陈贺胜 朱俊武 《江苏农业科学》 2018年第5期194-198,共5页
本体(ontology)的概念起源于哲学领域,在农业信息检索领域中,由于本体可用以解决知识概念表示和知识组织体系方面的问题,因此本体概念引起了农学界专家的高度关注。发达国家在农业科学领域已经建成一些很成熟的领域本体库,并得到了实际... 本体(ontology)的概念起源于哲学领域,在农业信息检索领域中,由于本体可用以解决知识概念表示和知识组织体系方面的问题,因此本体概念引起了农学界专家的高度关注。发达国家在农业科学领域已经建成一些很成熟的领域本体库,并得到了实际应用,为加快这方面的工作,我国在"十一五"计划中,将开展以网络农业信息资源组织为主的农业本体构建技术研究列入其中,因此,农业本体研究是响应国家号召,大力发展和提高我国农业技术和服务水平的重要措施。以农业科学领域中的油料作物——油菜为主要对象,构建农业领域本体知识库。首先在中文科技期刊全文数据库中检索包含油菜的论文题目作为基本语料,然后对检索到的题目利用汉语词法分析系统(institute of computing technology,Chinese lexical analysis system,简称ICTCLAS)进行分词分割,按词频出现频率筛选农业科学领域的关键词语并进行定义和细化,最后利用Protégé软件构建农业科学领域知识库。构建简单的农业科学领域本体库模型,目的是为农业领域实现网络信息快速检索和提高农业信息共享水平打下坚实基础,同时为开展以农业本体服务为目的的农业本体论研究与应用作初步探索。 展开更多
关键词 本体 农业科学 油菜 汉语词法分析系统(ictclas) 中图法
在线阅读 下载PDF
基于XML的全文检索原型系统的设计与实现 被引量:9
11
作者 夏立新 王忠义 《现代图书情报技术》 CSSCI 北大核心 2007年第8期67-70,共4页
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实... 针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。 展开更多
关键词 XML LUCENE ictclas 全文检索系统
在线阅读 下载PDF
基于Lucene.net全文检索在文档管理中的应用 被引量:5
12
作者 李文江 陈诗琴 《现代图书情报技术》 CSSCI 北大核心 2010年第11期84-89,共6页
针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中;建立中文分析器,对文档记录进行索引。通过索引检索结果,并结合文档控制信息,实现具有权限控制的文档全... 针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中;建立中文分析器,对文档记录进行索引。通过索引检索结果,并结合文档控制信息,实现具有权限控制的文档全文检索。 展开更多
关键词 LUCENE.NET 文档解析 ictclas 索引 全文检索 文档控制
原文传递
校园网钓鱼邮件监控系统的研究与实现 被引量:1
13
作者 蔡洪民 《计算机技术与发展》 2013年第10期103-106,共4页
随着计算机网络的发展,垃圾邮件问题和邮件欺骗问题变得越来越严重,给广大网民带来巨大危害。为了保障网络公共安全,减轻垃圾邮件和钓鱼邮件对网络用户的危害,基于深度包检测技术设计实现了一个针对钓鱼邮件的监控系统。通过数据包捕获... 随着计算机网络的发展,垃圾邮件问题和邮件欺骗问题变得越来越严重,给广大网民带来巨大危害。为了保障网络公共安全,减轻垃圾邮件和钓鱼邮件对网络用户的危害,基于深度包检测技术设计实现了一个针对钓鱼邮件的监控系统。通过数据包捕获技术和协议解析技术对电子邮件进行还原,实现对邮件内容的检查,结合关键字匹配技术实现了对垃圾邮件和钓鱼邮件的检测和报警。实验证明,通过协议分析与数据包还原技术,可以对垃圾邮件和敏感邮件进行过滤。 展开更多
关键词 网络钓鱼 深度包检测技术 LIBNIDS ictclas 敏感词
在线阅读 下载PDF
沪深股票信息的文本分类
14
作者 詹劲松 李立耀 苏宝英 《福建师大福清分校学报》 2016年第2期64-67,共4页
从网上收集相关的文本信息,用ICTCLAS进行分词,用Java编程处理、转化为Weka的ARFF格式,再利用String To Word Vector过滤器转换为向量矩阵,最后用三种分类器分别进行分类的股票信息文本分类方法。实验表明取得了不错的效果。
关键词 股票文本 ictclas 文本分类
在线阅读 下载PDF
相似度算法分析与比较研究 被引量:6
15
作者 陈天 刘文浩 《现代计算机》 2012年第12期18-20,共3页
针对RSS阅读器中冗余信息带来的不便,在采用中文分词和TF.IDF算法计算相似度进行预处理后,选取Levenshtein、余弦夹角法、Jaccard这三种相似度算法进行冗余信息鉴别。详细讨论这些方法的特征,并从实际应用的角度对这些方法的长处和不足... 针对RSS阅读器中冗余信息带来的不便,在采用中文分词和TF.IDF算法计算相似度进行预处理后,选取Levenshtein、余弦夹角法、Jaccard这三种相似度算法进行冗余信息鉴别。详细讨论这些方法的特征,并从实际应用的角度对这些方法的长处和不足做分析与比较,并选择Jaccard算法实现一个数据过滤机制。 展开更多
关键词 计算机应用技术 TP·IDF 相似度计算:ictclas
在线阅读 下载PDF
基于词性的文本挖掘算法在IDS日志中的应用 被引量:2
16
作者 胡军光 刘力 车奇 《计算机与数字工程》 2010年第2期90-93,共4页
提出一种以词性为参考值的文本挖掘算法,能有效挖掘与种子词有关的关联规则。基于Bootstrapping算法思想,既减少了预处理阶段对于词根还原的依赖,能处理日志中出现的中文词汇。增加了对于日志文本上下的理解,提高了关联规则的有效性,并... 提出一种以词性为参考值的文本挖掘算法,能有效挖掘与种子词有关的关联规则。基于Bootstrapping算法思想,既减少了预处理阶段对于词根还原的依赖,能处理日志中出现的中文词汇。增加了对于日志文本上下的理解,提高了关联规则的有效性,并应用与IDS日志挖掘之中,有效改善挖掘效率,为规则库提供关联规则。 展开更多
关键词 词性 ictclas BOOTSTRAPPING 入侵检测系统 数据挖掘
在线阅读 下载PDF
云计算平台上两种中文分词算法的实现对比研究 被引量:6
17
作者 周寅 龙广富 《电脑知识与技术》 2021年第9期191-192,共2页
现如今,常用的中文分词算法为IKAnalyzer(简称为:IK)和ICTCLAS(简称为:IC)两种,这两种算法也可以说是如今的主流中文分词算法,为了能够更好的研究两种算法的性能,本文首先利用理论对两种算法在单机环境下的性能进行分析,而后通过Hadoop... 现如今,常用的中文分词算法为IKAnalyzer(简称为:IK)和ICTCLAS(简称为:IC)两种,这两种算法也可以说是如今的主流中文分词算法,为了能够更好的研究两种算法的性能,本文首先利用理论对两种算法在单机环境下的性能进行分析,而后通过Hadoop分布式文件管理系统(简称为:HDFS)、Hadoop集群和并行处理大数据集的MapReduce所共同组成的系统框架,并将算法优化后,通过开展大量的实践性实验对两种不同算法在分布式环境下对大数据集进行处理后的表现进行比较,而后得出具体的分析结果,希望能够为相关人士带来帮助。 展开更多
关键词 云计算 IKAnalyzer ictclas HADOOP 比较
在线阅读 下载PDF
A Comparative Study on the Two Chinese Versions of The Apple Tree by John Galsworthy
18
作者 JIAO Jing 《Journal of Literature and Art Studies》 2019年第5期473-478,共6页
The author establishes parallel corpus of The Apple Tree by John Galsworthy and two translated Chinese versions by Huang Zixiang and Dong Hengxun.Wordsmith and ICTCLAS are applied to make a quantitative study on the l... The author establishes parallel corpus of The Apple Tree by John Galsworthy and two translated Chinese versions by Huang Zixiang and Dong Hengxun.Wordsmith and ICTCLAS are applied to make a quantitative study on the linguistic features of the source and the target language.A comparative study is made on the translation skills and styles of the two Chinese versions.Translation samples are analyzed and appreciated.It is concluded that the form and the literal meaning of the source language is retained more in Huang’s version while the implied meaning is conveyed more in Dong’s version,with more standard,fluent,and natural Chinese and more flexible sentence structures.The socio-cultural contexts of the two translators are also considered in analyzing their styles and translation choices. 展开更多
关键词 CORPUS The APPLE TREE COMPARATIVE study WORDSMITH ictclas
在线阅读 下载PDF
基于AP聚类的舆情监测
19
作者 郑东辉 乔立龙 《新一代信息技术》 2019年第3期39-46,共8页
网络舆情监测在当今时代显得尤为重要,目前虽有一些监测方法,但都不完善。近邻传播算法(Affinity Propagation,AP)是数据挖掘领域中非常流行的聚类算法之一,将其应用于热点事件舆情趋向监测,实验证明,取得了优良的结果。
关键词 舆情监测 近邻传播算法 ictclas 聚类
在线阅读 下载PDF
论文相似度的计算研究——基于VSM模型 被引量:7
20
作者 刘翔 施干卫 丁祖荣 《情报杂志》 CSSCI 北大核心 2010年第2期142-144,共3页
当前论文抄袭现象时有发生,对于学术的严谨性产生负面影响。通过基于VSM相似度计算模型,采用ICTCLAS分词技术及MS OLE自动化技术,探讨了论文提交与发布系统中实现论文相似度计算的方法,有利于督促导师对学生论文的指导。
关键词 VSM模型 ictclas OLE自动化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部