期刊文献+
共找到159篇文章
< 1 2 8 >
每页显示 20 50 100
Chinese to Braille Translation Based on Braille Word Segmentation Using Statistical Model 被引量:2
1
作者 王向东 杨阳 +3 位作者 张金超 姜文斌 刘宏 钱跃良 《Journal of Shanghai Jiaotong university(Science)》 EI 2017年第1期82-86,共5页
Automatic translation of Chinese text to Chinese Braille is important for blind people in China to acquire information using computers or smart phones. In this paper, a novel scheme of Chinese-Braille translation is p... Automatic translation of Chinese text to Chinese Braille is important for blind people in China to acquire information using computers or smart phones. In this paper, a novel scheme of Chinese-Braille translation is proposed. Under the scheme, a Braille word segmentation model based on statistical machine learning is trained on a Braille corpus, and Braille word segmentation is carried out using the statistical model directly without the stage of Chinese word segmentation. This method avoids establishing rules concerning syntactic and semantic information and uses statistical model to learn the rules stealthily and automatically. To further improve the performance, an algorithm of fusing the results of Chinese word segmentation and Braille word segmentation is also proposed. Our results show that the proposed method achieves accuracy of 92.81% for Braille word segmentation and considerably outperforms current approaches using the segmentation-merging scheme. 展开更多
关键词 Chinese Braille word segmentation perceptron algorithm TP 391.1 A
原文传递
An Improved Unsupervised Approach to Word Segmentation
2
作者 WANG Hanshi HAN Xuhong +2 位作者 LIU Lizhen SONG Wei YUAN Mudan 《China Communications》 SCIE CSCD 2015年第7期82-95,共14页
ESA is an unsupervised approach to word segmentation previously proposed by Wang, which is an iterative process consisting of three phases: Evaluation, Selection and Adjustment. In this article, we propose Ex ESA, the... ESA is an unsupervised approach to word segmentation previously proposed by Wang, which is an iterative process consisting of three phases: Evaluation, Selection and Adjustment. In this article, we propose Ex ESA, the extension of ESA. In Ex ESA, the original approach is extended to a 2-pass process and the ratio of different word lengths is introduced as the third type of information combined with cohesion and separation. A maximum strategy is adopted to determine the best segmentation of a character sequence in the phrase of Selection. Besides, in Adjustment, Ex ESA re-evaluates separation information and individual information to overcome the overestimation frequencies. Additionally, a smoothing algorithm is applied to alleviate sparseness. The experiment results show that Ex ESA can further improve the performance and is time-saving by properly utilizing more information from un-annotated corpora. Moreover, the parameters of Ex ESA can be predicted by a set of empirical formulae or combined with the minimum description length principle. 展开更多
关键词 word segmentation character sequence smoothing algorithm maximum strategy
在线阅读 下载PDF
基于GA-LGBM算法的文本泄露智能预警
3
作者 叶磊 李卫国 +3 位作者 蔡翔 魏绪亮 孙露露 杜成斌 《电子设计工程》 2026年第4期178-181,187,共5页
为有效识别和预警文本数据中的隐私泄露风险,设计基于GA-LGBM算法的文本泄露智能预警方法。对文本数据实施清洗、分词、去除停用词等预处理操作。使用Word2Vec模型实施文本向量化,将文本数据转换为数值特征。提出遗传算法(Genetic Algor... 为有效识别和预警文本数据中的隐私泄露风险,设计基于GA-LGBM算法的文本泄露智能预警方法。对文本数据实施清洗、分词、去除停用词等预处理操作。使用Word2Vec模型实施文本向量化,将文本数据转换为数值特征。提出遗传算法(Genetic Algorithm,GA)优化的轻量梯度提升机(Light Gradient Boosting Machine,LGBM)模型(GA-LGBM算法),将GA的全局搜索优势与Light GBM的预测能力相结合,优化文本泄露智能预警效果。测试结果表明,设计方法在数据量较大的情况下错误预警与无法预警的情况较少,正确预警的占比高;当测试集中的数据从较为平衡的状态转变为极度不平衡时,设计方法的AUC值较高,具有较好的预警效果。 展开更多
关键词 分词 停用词 word2Vec模型 GA-LGBM算法 智能预警
在线阅读 下载PDF
基于Word2Vec及TextRank算法的长文档摘要自动生成研究 被引量:1
4
作者 朱玉婷 刘乐 +2 位作者 辛晓乐 陈珑慧 康亮河 《现代信息科技》 2023年第4期36-38,42,共4页
近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec... 近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec算法进行特征提取,并利用WordCloud对提取的关键词进行可视化展示;最后利用TextRank算法计算语句间的相似度,生成摘要候选句,根据候选句的权重生成该专利文档的摘要信息。实验表明,采用Word2Vec和TextRank生成的专利摘要质量高,概括性也强。 展开更多
关键词 Jieba分词 关键词提取 word2Vec算法 TextRank算法
在线阅读 下载PDF
数据业务语义自动识别模型的构建与应用 被引量:1
5
作者 苏志勇 朱艺媛 +2 位作者 陈伟 曾荣甫 何秋芸 《粘接》 2025年第1期145-148,共4页
针对数据业务语句的词语解析和信息抽取存在较大差异的问题,研究一种基于自然语言处理(NLP)技术的语义自动识别系统。在本识别系统的功能基础上,加入了基于卷积神经网络(CNN)算法的人工智能模块,对所接收的信息数据语义进行卷积和池化,... 针对数据业务语句的词语解析和信息抽取存在较大差异的问题,研究一种基于自然语言处理(NLP)技术的语义自动识别系统。在本识别系统的功能基础上,加入了基于卷积神经网络(CNN)算法的人工智能模块,对所接收的信息数据语义进行卷积和池化,使数据业务语句解析和信息抽取的差异问题有很大改善。为了提高语义识别效率,进一步采用分词法(WS),来对接收的语句进行分词解读,达到降低词语歧义的目的,减少对整体语义识别的影响。试验结果表明,通过本系统对数据业务的语义识别精准度在90%以上,表明该系统对解决语义识别问题具有较强的实用性和优越性。 展开更多
关键词 语义识别 NLP技术 CNN算法 分词法 人工智能
在线阅读 下载PDF
基于改进ADAM算法的变电站SCD文本分词方法
6
作者 郑翔 陈韶昱 +3 位作者 吴俊飞 阮黎翔 骆兆军 徐小俊 《微型电脑应用》 2025年第1期255-258,共4页
针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF... 针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。 展开更多
关键词 中文分词技术 ADAM算法 CNN-Bi-GRU-CRF 变电站SCD文本
在线阅读 下载PDF
面向信息检索的自适应中文分词系统 被引量:49
7
作者 曹勇刚 曹羽中 +1 位作者 金茂忠 刘超 《软件学报》 EI CSCD 北大核心 2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和... 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 展开更多
关键词 分词系统 分词算法 信息检索 新词识别 歧义消解
在线阅读 下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:46
8
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 PMI改进算法 中文分词
在线阅读 下载PDF
一种改进的中文分词正向最大匹配算法 被引量:42
9
作者 王瑞雷 栾静 +1 位作者 潘晓花 卢修配 《计算机应用与软件》 CSCD 2011年第3期195-197,共3页
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与... 正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端。针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法。与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法。改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高。 展开更多
关键词 中文分词 分词词典 正向最大匹配算法
在线阅读 下载PDF
支持智能中文分词的互联网搜索引擎的构建 被引量:8
10
作者 曹羽中 曹勇刚 +1 位作者 金茂忠 刘超 《计算机工程与设计》 CSCD 北大核心 2006年第23期4395-4398,4407,共5页
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可... 中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 展开更多
关键词 中文分词 分词算法 搜索引擎 词法分析器 检索精度
在线阅读 下载PDF
吕苏语口语标注语料的自动分词方法研究 被引量:35
11
作者 于重重 操镭 +2 位作者 尹蔚彬 张泽宇 郑雅 《计算机应用研究》 CSCD 北大核心 2017年第5期1325-1328,共4页
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立... 濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。 展开更多
关键词 吕苏语 汉语标注语料 自动分词 改进结巴算法
在线阅读 下载PDF
词典与统计方法结合的中文分词模型研究及应用 被引量:19
12
作者 蒋建洪 赵嵩正 罗玫 《计算机工程与设计》 CSCD 北大核心 2012年第1期387-391,共5页
为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和... 为了解决传统的基于词典的分词法和基于统计的分词方法的效率和识别能力的不足,根据电子商务中商品名称信息这一特定领域的文本数据的特点进行分析,研究了mmseg分词法和基于互信息的处理方法,结合两类分词方法的优点,将mmseg分词算法和互信息的算法应用于分词处理过程中,设计并实现了一个快速、准确度高的分词模型,通过测试结果表明,该模型能够较好地解决分词的速度与效率问题。 展开更多
关键词 分词 mmseg算法 互信息 词典 统计
在线阅读 下载PDF
基于EM算法的汉语自动分词方法 被引量:24
13
作者 李家福 张亚非 《情报学报》 CSSCI 北大核心 2002年第3期269-272,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectat... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 展开更多
关键词 EM算法 语料库 HMM 中文信息处理 汉语自动分词 自然语言处理 极大似然原则 零阶马尔可夫模型
在线阅读 下载PDF
基于本体的智能语义检索模型设计与研究 被引量:22
14
作者 马斌 王金虹 +1 位作者 闫娟娟 芦倩 《情报科学》 CSSCI 北大核心 2015年第2期46-49,71,共5页
针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的... 针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的有效查询,实现了面向领域的智能检索系统。 展开更多
关键词 领域本体 语义检索 中文分词算法 信息抽取
原文传递
自然语言检索中的中文分词技术研究进展及应用 被引量:25
15
作者 何莘 王琬芜 《情报科学》 CSSCI 北大核心 2008年第5期787-791,共5页
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中... 中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 展开更多
关键词 中文分词 自动分词 分词算法
在线阅读 下载PDF
一种实用的资源稀缺条件下的分词方法 被引量:4
16
作者 马宁 李亚超 +1 位作者 何向真 于洪志 《计算机应用研究》 CSCD 北大核心 2016年第1期68-70,97,共4页
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料... 在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。 展开更多
关键词 分词 无监督分词 最大匹配 VE算法 间隔标注 资源
在线阅读 下载PDF
维汉机器翻译未登录词识别研究 被引量:9
17
作者 米成刚 王磊 +1 位作者 杨雅婷 陈科海 《计算机应用研究》 CSCD 北大核心 2013年第4期1112-1115,共4页
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维... 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。 展开更多
关键词 维汉机器翻译 短语表 字符串相似度算法 未登录词 词切分 编辑距离
在线阅读 下载PDF
综合最大匹配和歧义检测的中文分词粗分方法 被引量:3
18
作者 李国和 刘光胜 +2 位作者 秦波波 吴卫江 李洪奇 《计算机工程与应用》 CSCD 2012年第14期139-142,167,共5页
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规... 中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。 展开更多
关键词 中文分词 粗分 最大匹配算法 全切分算法 歧义检测
在线阅读 下载PDF
一种基于概率模型的分词系统 被引量:16
19
作者 李家福 张亚非 《系统仿真学报》 CAS CSCD 2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。 展开更多
关键词 概率模型 分词系统 EM算法 语料库 系统仿真 汉语自动分词 中文信息处理
在线阅读 下载PDF
智能人机交互中自动分词技术的实现 被引量:3
20
作者 赵志靖 周静 +1 位作者 冯锐 齐丙辰 《扬州大学学报(自然科学版)》 CAS CSCD 2005年第3期58-61,共4页
根据实际工作,开发了一个自动分词系统,对汉语自动分词技术在智能人机交互中的实现进行探讨.基于系统的情况,分词算法采用了最大匹配法,在词库检索中提出了化查询为直接存取的方法,提高了检索效率,节省了内存,有利于分词速度的提高.
关键词 智能人机交互 自动分词 词库 分词算法
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部