期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
基于社交媒体平台的短文本相似性度量方法及应用综述
1
作者 范星 周晓航 张宁 《计算机科学》 北大核心 2025年第S1期157-164,共8页
短文本相似性度量作为自然语言处理领域中的一项关键任务,随着社交媒体平台的用户活跃度不断攀升,短文本数据已成为互联网信息传播的核心载体。这类数据对于企业在大数据中深入理解消费者情感、精准描绘用户画像具有显著的应用价值。文... 短文本相似性度量作为自然语言处理领域中的一项关键任务,随着社交媒体平台的用户活跃度不断攀升,短文本数据已成为互联网信息传播的核心载体。这类数据对于企业在大数据中深入理解消费者情感、精准描绘用户画像具有显著的应用价值。文中首先对短文本相似性度量方法进行了系统梳理,将其归结为基于字符串的方法、基于词向量的方法以及基于深度学习的方法3类,并深入探讨了不同方法的优势与局限性。其次,聚焦于短文本相似性在企业商业分析中的实际运用,揭示了短文本相似性度量如何助力企业洞察消费者意见、态度以及优化市场营销策略。最后,研究对社交媒体平台短文本相似性度量所面临的挑战进行了全面总结,并对未来的发展前景进行了展望,旨在为相关研究者提供有益的参考和启示。 展开更多
关键词 短文本相似性 社交媒体平台 基于字符串 基于词向量 深度学习 情感分析 用户分析
在线阅读 下载PDF
文本相似度计算方法综述 被引量:14
2
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
在线阅读 下载PDF
A Hybrid Algorithm for Stemming of Nepali Text
3
作者 Chiranjibi Sitaula 《Intelligent Information Management》 2013年第4期136-139,共4页
In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is languag... In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is language dependent algorithm. Context free stemmer means that stemmer which stems the word that is not based on the context i.e., for every context such rule is applied. After stripping the words using traditional context free rule based approach, it may over stem or under stem the inflected words which are overcome by applying string similarity function of dynamic programming. For measuring the string similarity function, edit distance is used. The stripped inflected word is compared with the words stored in a text database available. That word having minimum distance is taken as the substitution of the stripped inflected word which leads to the stem of it. The concept of traditional rule based system and corpus based approach is heavily used in this approach. This algorithm is tested for Nepali Language which is based on Devanagari Script. The approach has given better result in comparison to traditional rule based system particularly for Nepali Language only. The total accuracy of this hybrid algorithm is 70.10% whereas the total accuracy of traditional rule based system is 68.43%. 展开更多
关键词 string SIMILARITY Information RETRIEVAL text Mining Natural Language Processing Dynamic PROGRAMMING
在线阅读 下载PDF
一种改进的KMP高效模式匹配算法 被引量:26
4
作者 鲁宏伟 魏凯 孔华锋 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第10期41-43,共3页
针对KMP算法存在着主串与模式串中多个相同字符重复比较的缺陷,在KMP算法的基础上,给出了一种新的模式匹配算法,该算法不像KMP算法那样向左滑动模式串的指针,而是每次比较字符不匹配时,根据模式串当前字符的特征值k,使主串的指针向前跳... 针对KMP算法存在着主串与模式串中多个相同字符重复比较的缺陷,在KMP算法的基础上,给出了一种新的模式匹配算法,该算法不像KMP算法那样向左滑动模式串的指针,而是每次比较字符不匹配时,根据模式串当前字符的特征值k,使主串的指针向前跳跃k个值,且使模式串的指针置于起始位置,开始新一轮的匹配,加快了主串的匹配速度.理论分析和试验证明,该算法需要的比较次数比KMP算法减少将近一半. 展开更多
关键词 模式匹配 算法 模式串 主串 时间复杂度
在线阅读 下载PDF
一种基于熵的文本相似性计算方法 被引量:13
5
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
在线阅读 下载PDF
一种快速的基于BM模式匹配的改进算法 被引量:9
6
作者 马占飞 杨树英 郭广丰 《控制与决策》 EI CSCD 北大核心 2013年第12期1855-1858,1863,共5页
模式匹配算法是入侵检测系统(IDS)中非常重要的一种算法.在研究和分析几种常用模式匹配算法的基础上,提出一种快速的基于BM(Boyer-Moore)模式匹配的改进算法—–IBM算法.该算法充分利用模式串的末字符和末字符所对应的文本串的后两字符... 模式匹配算法是入侵检测系统(IDS)中非常重要的一种算法.在研究和分析几种常用模式匹配算法的基础上,提出一种快速的基于BM(Boyer-Moore)模式匹配的改进算法—–IBM算法.该算法充分利用模式串的末字符和末字符所对应的文本串的后两字符的唯一性,同时参考文本串本身的信息来提高模式串的移动量,使得每次失配后,在保证不丢失匹配成功可能性的前提下尽可能多地向后跳跃.实验结果表明,该算法相比其他模式匹配算法,在检测性能和匹配效率上均具有很大优势,并且能够有效地提高IDS的检测效率和性能. 展开更多
关键词 模式匹配算法 入侵检测系统 IBM算法 模式串 文本串
原文传递
基于线条识别的扫描工程图字线分割方法 被引量:2
7
作者 宋继强 苏丰 蔡士杰 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期535-541,共7页
在扫描工程图矢量化中 ,文字位图与图形位图分割的问题一直被广泛关注 .许多现有方法根据连通区的形态特征和空间分布来分割文字和图形的位图 ,然后分别识别 ,其处理能力都局限在无粘连情况下 ,无法处理字线粘连及相交的情况 ,且难以区... 在扫描工程图矢量化中 ,文字位图与图形位图分割的问题一直被广泛关注 .许多现有方法根据连通区的形态特征和空间分布来分割文字和图形的位图 ,然后分别识别 ,其处理能力都局限在无粘连情况下 ,无法处理字线粘连及相交的情况 ,且难以区分尺寸范围相近或形态相似的文字与图形 .提出一种基于线条识别的文字 /图形分割方法 ,通过准确地识别线条并抽取其位图来分离文字 ,不仅保证了分割的正确性 。 展开更多
关键词 字线分割 矢量化 字符串组织 线条识别 图纸识别 扫描程图 位图
在线阅读 下载PDF
一种字符串模式匹配算法的实现 被引量:3
8
作者 陈芳 沈虹 张霞 《西安工业大学学报》 CAS 2007年第3期272-273,共2页
为寻求更有效的字符串搜索方法,利用有穷自动机的定义,分析KMP算法以及自动机状态转换规律,提出了一种新的字符串模式匹配算法.结果表明此算法具有比基本的串匹配算法更优越的算法复杂度,并且相对KMP算法而言更简洁易懂,在计算机上容易... 为寻求更有效的字符串搜索方法,利用有穷自动机的定义,分析KMP算法以及自动机状态转换规律,提出了一种新的字符串模式匹配算法.结果表明此算法具有比基本的串匹配算法更优越的算法复杂度,并且相对KMP算法而言更简洁易懂,在计算机上容易实现. 展开更多
关键词 模式匹配 模式串 目标串 有穷自动机 算法复杂度
在线阅读 下载PDF
一种改进的KMP算法 被引量:13
9
作者 俞松 郑骏 胡文心 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期92-97,共6页
在给出改进的KMP模式匹配算法的定义和步骤的同时,对其进行了严格推导和证明.实验证明,当模式首次出现在文本后半段的情况下,该算法较原KMP算法具有更少的比较次数和更高的效率.
关键词 匹配 模式 时间复杂度 文本
在线阅读 下载PDF
BM串匹配的一个改进算法 被引量:4
10
作者 庞善臣 王淑栋 蒋昌俊 《计算机应用》 CSCD 北大核心 2004年第12期11-13,共3页
在分析BM算法和文献[12]的基础上,给出了BM串匹配的一个改进算法。该算法有以下重要的特点:1)最坏情况下,算法有效地减少了字符重复比较的次数,提高了匹配效率;2)匹配算法在二维匹配和不精确匹配中较易推广。
关键词 串匹配 正文 模式 时间复杂度
在线阅读 下载PDF
工程图中字符分离和标注字符串生成技术 被引量:3
11
作者 胡友兰 黄树槐 常明 《华中理工大学学报》 CSCD 北大核心 1997年第3期30-33,共4页
提出了同步边缘特性检测的轮廓跟踪算法,并基于规则从扫描图像全图轮廓中分离字符轮廓;在此基础上,针对机械工程图,采用全方位的邻域搜索技术生成不同方向的字符串,通过分类树进行识别,并根据专业领域知识进行校正.实验测试表明。
关键词 工程图理解 字符分离 轮廓跟踪 字符串生成 字符识别
在线阅读 下载PDF
一种基于模式最长前缀正文分割的串匹配新算法 被引量:4
12
作者 庞善臣 王淑栋 《小型微型计算机系统》 CSCD 北大核心 2004年第3期404-406,共3页
字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 s... 字符串的模式匹配问题是计算机科学的基本问题之一 ,本文提出了基于模式最长前缀正文分割的匹配新算法(Text Divided Algorithm,以下简称 TD算法 ) .首先在模式 P中寻找最长的前缀子串 subp,使其末字符在 subp中只出现一次 ;然后根据 subp末字符的特点 ,将正文 T进行分段 ,按段对模式 P进行匹配 .新算法有以下重要的特点 :1.最坏情况下 ,本算法有效地减少了字符重复比较的次数 ,从而提高了算法的匹配效率 ;2 .匹配算法在二维匹配和不精确匹配中较易推广 ;3.匹配过程近似于直接算法 。 展开更多
关键词 字符串 模式匹配 模式最长前缀正文分割 串匹配算法 时间复杂度 TD算法
在线阅读 下载PDF
一个改进的BM串匹配算法 被引量:13
13
作者 赵一瑾 《计算机研究与发展》 EI CSCD 北大核心 1998年第1期45-48,共4页
文中利用BM算法中依据d函数来右移模式距离大小的特点,在一定条件下,将模式分解成具有一定性质的两个子串.通过子模式各自的性质及相互间的关系,控制模式匹配过程,以减少字符重复比较次数,从而提高算法匹配效率.
关键词 算法 BM算法 匹配
在线阅读 下载PDF
一种优化的并行汉字/字符串匹配算法 被引量:4
14
作者 王素琴 邹旭楷 《中文信息学报》 CSCD 1995年第1期49-53,共5页
字符串检索指在一个文本Text=t1…tn中找出一个字符串Pat=p1…pm的所有出现.本文给出了在CREW/CRCWPRAM机器模型上并行检索汉字/字符串的算法,它使用n/m个处理机,预处理时间为O(m+|Σ|),... 字符串检索指在一个文本Text=t1…tn中找出一个字符串Pat=p1…pm的所有出现.本文给出了在CREW/CRCWPRAM机器模型上并行检索汉字/字符串的算法,它使用n/m个处理机,预处理时间为O(m+|Σ|),并行执行时间为0(m)。 展开更多
关键词 并行算法 字符串检索 汉字 并行匹配
在线阅读 下载PDF
一种提高中英文混编文本标引准确性的方法 被引量:1
15
作者 赵衍 陈恒 《现代图书情报技术》 CSSCI 北大核心 2012年第6期36-42,共7页
分析生命科学领域中英文混编文本的内在特点,基于控制论原理,提出一种旨在提高中英文混编文本的信息自动标引准确性的整合新方法。该方法包含三个相对独立而又相互联系的部分,即前馈控制、中期控制和反馈控制。实验表明,该新方法可以被... 分析生命科学领域中英文混编文本的内在特点,基于控制论原理,提出一种旨在提高中英文混编文本的信息自动标引准确性的整合新方法。该方法包含三个相对独立而又相互联系的部分,即前馈控制、中期控制和反馈控制。实验表明,该新方法可以被成功应用在乙肝专题文献知识数据库的标引中,并能大幅度提高信息标引的准确性。 展开更多
关键词 中英文混编文本 字符串匹配 自动标引准确性 控制论 乙肝专题文献知识数据库
原文传递
一种基于词共现的文本相似度计算 被引量:14
16
作者 曹恬 周丽 张国煊 《计算机工程与科学》 CSCD 2007年第3期52-53,73,共3页
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词 文本相似度 中文信息处理 特征串 词共现
在线阅读 下载PDF
结合语义和文本特征位串的高效KNN算法 被引量:1
17
作者 林啟锋 蒙祖强 +1 位作者 陈秋莲 陈智敏 《计算机工程与设计》 CSCD 北大核心 2013年第7期2417-2421,2469,共6页
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串... 为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。 展开更多
关键词 概念聚合 语义关联 文本特征位串 K最近邻算法 文本分类
在线阅读 下载PDF
文本自动校核的一种算法 被引量:2
18
作者 陶霖 《计算机工程》 CAS CSCD 北大核心 1998年第1期70-72,F003,共4页
提出并证明一种求取两个文本间的最大匹配的算法。
关键词 文本匹配 串匹配 CAI 算法
在线阅读 下载PDF
一种有效的并行汉字/字符串相似检索技术 被引量:2
19
作者 王素琴 邹旭楷 《软件学报》 EI CSCD 北大核心 1995年第8期463-467,共5页
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.... 本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性. 展开更多
关键词 并行算法 字符串检索 汉字检索
在线阅读 下载PDF
允许错误的并行字符串匹配技术 被引量:1
20
作者 邹旭楷 王素琴 《计算机研究与发展》 EI CSCD 北大核心 1995年第2期34-38,共5页
本文提出了一种允许错误的并行字符串查找技术。通过引入搜索状态向量及字符-模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对字符串的并行相似检索。文中也给出了... 本文提出了一种允许错误的并行字符串查找技术。通过引入搜索状态向量及字符-模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对字符串的并行相似检索。文中也给出了并行实现算法,同时分析了算法的复杂性。 展开更多
关键词 并行算法 字符串检索 并行字符串匹配
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部