期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
A method for improving the accuracy of automatic indexing of Chinese-English mixed documents
1
作者 Yan ZHAO Hui SHI 《Chinese Journal of Library and Information Science》 2012年第4期77-92,共16页
Purpose: The thrust of this paper is to present a method for improving the accuracy of automatic indexing of Chinese-English mixed documents.Design/methodology/approach: Based on the inherent characteristics of Chines... Purpose: The thrust of this paper is to present a method for improving the accuracy of automatic indexing of Chinese-English mixed documents.Design/methodology/approach: Based on the inherent characteristics of Chinese-English mixed texts and the cybernetics theory,we proposed an integrated control method for indexing documents. It consists of 'feed-forward control','in-progress control' and 'feed-back control',aiming at improving the accuracy of automatic indexing of Chinese-English mixed documents. An experiment was conducted to investigate the effect of our proposed method.Findings: This method distinguishes Chinese and English documents in grammatical structures and word formation rules. Through the implementation of this method in the three phases of automatic indexing for the Chinese-English mixed documents,the results were encouraging. The precision increased from 88.54% to 97.10% and recall improved from97.37% to 99.47%.Research limitations: The indexing method is relatively complicated and the whole indexing process requires substantial human intervention. Due to pattern matching based on a bruteforce(BF) approach,the indexing efficiency has been reduced to some extent.Practical implications: The research is of both theoretical significance and practical value in improving the accuracy of automatic indexing of multilingual documents(not confined to Chinese-English mixed documents). The proposed method will benefit not only the indexing of life science documents but also the indexing of documents in other subject areas.Originality/value: So far,few studies have been published about the method for increasing the accuracy of multilingual automatic indexing. This study will provide insights into the automatic indexing of multilingual documents,especially Chinese-English mixed documents. 展开更多
关键词 Chinese-English mixed documents string matching Accuracy of automatic indexing CYBERNETICS Dedicated hepatitis B virus(HBV) database
原文传递
排卤指数在盐穴储气库造腔过程中的应用
2
作者 姜海涛 陈飞 +3 位作者 李锐敏 郭宏帅 杜玉洁 齐磊 《石油化工应用》 2025年第4期10-15,共6页
盐穴储气库造腔过程中,注水压力、排卤压力和排卤量等参数的变化没有相对应的具体量化指标,不能及时准确地判断井下故障类型并给出补救措施,容易造成经济损失。基于金坛储气库造腔井资料分析,结合油气田开发动态分析方法,提出了排卤指... 盐穴储气库造腔过程中,注水压力、排卤压力和排卤量等参数的变化没有相对应的具体量化指标,不能及时准确地判断井下故障类型并给出补救措施,容易造成经济损失。基于金坛储气库造腔井资料分析,结合油气田开发动态分析方法,提出了排卤指数的概念及计算方法,并进行了实例分析。总结出三大特征:(1)排卤指数下降,表明管柱结晶或发生堵塞;(2)排卤指数下降后又恢复正常,表明井下卤水或阻溶剂存在漏失;(3)排卤指数上升且排出卤水密度下降,表明管柱穿孔或脱落。在盐穴储气库造腔阶段,排卤指数分析法可以提前预防井下复杂问题,并能及时、准确地找到故障原因,从而防止井下故障的发生和扩大,有助于盐穴储气库造腔的安全高效生产建设。 展开更多
关键词 盐穴储气库 井下故障分析 造腔 排卤指数 盐结晶堵塞 管柱异常
在线阅读 下载PDF
RM树:一种支持字符串相似性操作的索引 被引量:6
3
作者 王金宝 高宏 +1 位作者 李建中 杨东华 《计算机学报》 EI CSCD 北大核心 2011年第11期2142-2154,共13页
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符... 字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性. 展开更多
关键词 字符串 相似性 索引 查询处理 连接处理
在线阅读 下载PDF
一种基于知识组织的关键词自动标引方法 被引量:8
4
作者 李千驹 李思达 刘建毅 《情报科学》 CSSCI 北大核心 2016年第11期107-110,139,共5页
针对人工标引中存在的问题,提出了关键词自动标引应在增量、组合、排序三个方面对人工标引的结果加以优化。以"核反应堆工程"领域的期刊论文为语料开展实证研究,通过引入知识组织工具,利用字符串模式匹配法自动抽取候选词,按... 针对人工标引中存在的问题,提出了关键词自动标引应在增量、组合、排序三个方面对人工标引的结果加以优化。以"核反应堆工程"领域的期刊论文为语料开展实证研究,通过引入知识组织工具,利用字符串模式匹配法自动抽取候选词,按照比例归一化方法赋权值,设置一定的入口条件,以获取足量、优质、有序的标引词。实验结果表明,利用该方法进行关键词自动标引,有助于提高关键词标引的质量。 展开更多
关键词 自动标引 知识组织 字符串模式匹配
原文传递
基于“弓弦箭”模型的公共安全风险测度组合评价 被引量:4
5
作者 孙华丽 周冰雁 薛耀锋 《中国安全科学学报》 CAS CSCD 北大核心 2013年第7期133-138,共6页
为科学评估我国各地区公共安全风险,基于"弓弦箭"模型,构建包括能力和脆弱性指标的公共安全发展水平评价指标体系。采用因子分析、主成分分析(PCA)、灰色关联度分析、熵值法和加权TOPSIS法构成的组合评价法,综合评价我国31个... 为科学评估我国各地区公共安全风险,基于"弓弦箭"模型,构建包括能力和脆弱性指标的公共安全发展水平评价指标体系。采用因子分析、主成分分析(PCA)、灰色关联度分析、熵值法和加权TOPSIS法构成的组合评价法,综合评价我国31个省、自治区、直辖市的公共安全发展水平。对各评价方法运用KENDALL-W协和系数法,通过事前一致性检验后,使用算术平均法、Borda法和Copeland法,对上述结果进行组合评价。采用Spearman等级相关系数,衡量各组合评价结果与原始评价结果之间的吻合性,根据Spearman等级相关系数的大小选取最优的评价结果。结果表明:我国各地区的公共安全发展状况存在显著差异,基本呈现出东部地区强,中部地区弱,西部地区更弱的阶梯状递减趋势。在未来的发展中,需加大宣传及投资力度,引导中西部地区逐步构建完整的公共安全管理机制,提高其公共安全水平。 展开更多
关键词 公共安全 弓弦箭模型 评价指标 风险测度 组合评价
原文传递
面向垃圾短信过滤的亚文档集成学习 被引量:1
6
作者 刘伍颖 王琳 《郑州大学学报(理学版)》 CAS 北大核心 2017年第3期59-64,共6页
针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一... 针对垃圾短信过滤问题,提出了一种亚文档集成学习方法.该方法采用亚文档集成学习框架将短文本在线二值分类问题转化成若干个子分类问题,并通过线性组合多个子问题的分类结果得出最终的分类预测.利用基于串频索引的文本分类算法实现了一种有效的弱分类器.实验数据表明亚文档集成学习框架能够提高现有文本分类算法的效能,而在亚文档集成学习框架下,基于串频索引的弱分类器过滤效果最佳. 展开更多
关键词 垃圾短信过滤 亚文档集成学习 串频索引 TREC评测
在线阅读 下载PDF
专家分配问题的KMP优化求解方法研究 被引量:1
7
作者 傅妍芳 高祥 +1 位作者 张弘 周黎萍 《西安工业大学学报》 CAS 2014年第5期355-359,共5页
专家分配问题是项目申报系统中评审环节(盲审)重点解决的问题.根据系统模型,针对项目和专家的多因素匹配问题,对专家分配问题进行研究,建立了专家分配问题的模型.应用KM P方法和索引顺序查找的求解方法,提出了基于多信息因素的... 专家分配问题是项目申报系统中评审环节(盲审)重点解决的问题.根据系统模型,针对项目和专家的多因素匹配问题,对专家分配问题进行研究,建立了专家分配问题的模型.应用KM P方法和索引顺序查找的求解方法,提出了基于多信息因素的专家分配优化求解方法.通过测试与应用表明,该系统的专家分配算法能实现专家与申请书的匹配,结果有较高的准确性和合理性,该方法将评审工作的效率提高了8~12倍,同时将传统人工操作过程中的出错概率降至0.15%~0%. 展开更多
关键词 专家分配 KMP方法 索引顺序查找 多因素 优化求解方法
在线阅读 下载PDF
单汉字标引方法的改进研究 被引量:4
8
作者 李培 《情报学报》 CSSCI 北大核心 1999年第5期416-421,共6页
本文根据信息论中的交互信息,给出了相邻汉字相关度的测量方法,在此基础上提出了基于字串预分割的单汉字标引检索方法,对当前具有代表性的单汉字标引方法进行了改进研究。
关键词 单汉字标引 字串分割 汉字标引 标引方法 计算机
在线阅读 下载PDF
弦反常中的指标定理与Witten模函数 被引量:1
9
作者 颜骏 陶必友 《四川师范大学学报(自然科学版)》 CAS CSCD 2000年第6期621-623,共3页
:用简洁的方法研究了旋流形M上的指标定理和Witten模函数 。
关键词 弦反常 指标定理 Witten模函数 量子场论 旋流形
在线阅读 下载PDF
支持块编辑距离的索引结构 被引量:3
10
作者 王斌 郭庆 +1 位作者 李中博 杨晓春 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期191-199,共9页
在近似字符串匹配中,传统的编辑距离不能很好地衡量诸如人名、地址等数据的相似关系,而块编辑距离可以很好地衡量两个字符串的相似性.如何有效地支持块编辑距离,进行近似字符串查询处理具有重要的意义.计算两个字符串的块编辑距离是一... 在近似字符串匹配中,传统的编辑距离不能很好地衡量诸如人名、地址等数据的相似关系,而块编辑距离可以很好地衡量两个字符串的相似性.如何有效地支持块编辑距离,进行近似字符串查询处理具有重要的意义.计算两个字符串的块编辑距离是一个NP完全问题,因此希望提供有效的方法可以增强过滤能力,并减少假通过率.设计了一种支持移动编辑距离的新颖的索引结构SHV-Trie,通过研究移动编辑距离的操作特性,使用字母出现的频率作为支持移动编辑距离操作的一个下界,并且提出相应的查询过滤算法,同时,针对索引SHV-Trie的空间开销过大的问题,提出一种优化字母排列的索引结构和一种压缩的索引结构及相关查询过滤算法.真实数据集上的实验结果与分析显示了所提出的索引结构具有良好的过滤能力,并通过减少效率假通过率提高查询的效率. 展开更多
关键词 近似字符串匹配 块编辑距离 压缩 索引 NP完全问题
在线阅读 下载PDF
一种基于Bigram二级哈希的中文索引结构 被引量:2
11
作者 孙德才 王晓霞 《电子设计工程》 2014年第12期1-4,共4页
为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,... 为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。 展开更多
关键词 串匹配 中文 倒排索引
在线阅读 下载PDF
一种支持多种子近似串匹配的q-gram索引 被引量:3
12
作者 孙德才 王晓霞 《计算机科学》 CSCD 北大核心 2014年第9期279-284,共6页
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过... 如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。 展开更多
关键词 大数据 近似串匹配 种子 q-gram索引 多种子索引
在线阅读 下载PDF
基于“弓弦箭模型”的地区公共卫生风险测度与评价 被引量:3
13
作者 陈秋玲 黄舒婷 孔令超 《中国安全科学学报》 CAS CSCD 北大核心 2010年第10期141-146,共6页
为评估我国各地区的公共卫生风险,基于"弓弦箭模型",从划分功能性指标和标志性指标入手,构建公共卫生风险评价指标体系。运用SPSS软件,对指标数据进行主成分分析,测度中国内地31个省区市的公共卫生风险指数,找出影响公共卫生... 为评估我国各地区的公共卫生风险,基于"弓弦箭模型",从划分功能性指标和标志性指标入手,构建公共卫生风险评价指标体系。运用SPSS软件,对指标数据进行主成分分析,测度中国内地31个省区市的公共卫生风险指数,找出影响公共卫生安全的最主要因子,研究了我国各省市公共卫生风险的排序及地区发展不平衡的特征,并为我国公共卫生安全较高风险和高风险地区改善安全状况提供启示意义。结果表明卫生资源和经济因子、婴幼保健因子和传染病控制因子是影响公共卫生风险的最主要因子,中西部地区公共卫生风险较高。 展开更多
关键词 弓弦箭模型 公共卫生 评价指标 风险测度 高风险区域
原文传递
高效的top-k相似字符串查询算法 被引量:1
14
作者 陈子阳 韩玉俊 +1 位作者 王璿 周军锋 《通信学报》 EI CSCD 北大核心 2014年第12期10-20,共11页
研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符... 研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。 展开更多
关键词 字符串相似性 非对称特征方案 长度跳跃索引
在线阅读 下载PDF
基于划分的增量式字符串相似性连接方法
15
作者 燕彩蓉 朱斌 +1 位作者 王健 黄永锋 《计算机应用》 CSCD 北大核心 2016年第1期27-32,共6页
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——IncJoin,并对方法的索引技术进行了优化... 字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——IncJoin,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、短字符串重复匹配次数减少为n^(1/2)(n是批处理方式的匹配次数)。实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。 展开更多
关键词 字符串相似性连接 增量处理 划分 字符串匹配 反向索引
在线阅读 下载PDF
基于过滤的并行字符串相似性连接方法 被引量:1
16
作者 杜明 夏龙雷 朱斌 《计算机工程与设计》 北大核心 2017年第2期389-394,共6页
对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并... 对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并行地对每个记录候选集进行验证。实验结果表明,在双核处理器环境下,相似连接方法节省时间在20%~25%,相似连接时间随着阈值减小和数据量增大急剧降低。对PP-Join处理方式进行优化,减少对相同字符串的重复处理,使其并行效果更优,进一步降低字符串相似连接时间。 展开更多
关键词 字符串相似连接 候选集 反向索引表 过滤 并行
在线阅读 下载PDF
汉语主题检索标识因素构成和词串序列的扩展 被引量:2
17
作者 顾潇华 黄连娜 《图书馆学研究》 CSSCI 2008年第9期81-83,共3页
做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复... 做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复合主题、概念联结型复合主题的构成因素和词串序列,这对于信息标引实际工作和信息管理类专业信息组织课程的教学工作有着重要的指导意义。 展开更多
关键词 主题检索标识 主题因素 词串序列
在线阅读 下载PDF
一种提高中英文混编文本标引准确性的方法 被引量:1
18
作者 赵衍 陈恒 《现代图书情报技术》 CSSCI 北大核心 2012年第6期36-42,共7页
分析生命科学领域中英文混编文本的内在特点,基于控制论原理,提出一种旨在提高中英文混编文本的信息自动标引准确性的整合新方法。该方法包含三个相对独立而又相互联系的部分,即前馈控制、中期控制和反馈控制。实验表明,该新方法可以被... 分析生命科学领域中英文混编文本的内在特点,基于控制论原理,提出一种旨在提高中英文混编文本的信息自动标引准确性的整合新方法。该方法包含三个相对独立而又相互联系的部分,即前馈控制、中期控制和反馈控制。实验表明,该新方法可以被成功应用在乙肝专题文献知识数据库的标引中,并能大幅度提高信息标引的准确性。 展开更多
关键词 中英文混编文本 字符串匹配 自动标引准确性 控制论 乙肝专题文献知识数据库
原文传递
改进敏感性指标法的杆系结构易损性分析
19
作者 刘国光 武志玮 +1 位作者 程国勇 陈琦 《深圳大学学报(理工版)》 EI CAS 北大核心 2014年第5期504-512,共9页
为分析空间杆系结构的易损性,将日本钢结构协会建议的结构敏感性指标改进为体现移除杆件影响的单元敏感性指标.利用有限元软件ALGOR,计算平面梯形桁架在5种杆件移除工况下剩余杆件的敏感性指标,检验利用单元敏感性指标法判断杆件移除顺... 为分析空间杆系结构的易损性,将日本钢结构协会建议的结构敏感性指标改进为体现移除杆件影响的单元敏感性指标.利用有限元软件ALGOR,计算平面梯形桁架在5种杆件移除工况下剩余杆件的敏感性指标,检验利用单元敏感性指标法判断杆件移除顺序和识别结构倒塌模态的可行性.将单元敏感性指标法用于张弦桁架结构易损性分析,研究双索张弦桁架结构在不同工况下剩余杆件的单元敏感性指标和结构竖向位移,阐述冗余索降低张弦桁架结构易损性的作用机理,通过有限元软件ANSYS,对构件敏感性指标进行数值计算,分析双索张弦桁架结构动力破坏模态和连续倒塌特性.结果表明,单元敏感性指标法适用于空间杆系结构易损性分析;冗余索和X型支撑杆的设计方法可增加结构冗余度,降低动力荷载作用下杆件敏感性指标和结构易损性,增强结构抗连续倒塌能力;验证了利用单元敏感性指标法分析杆系结构易损性的可行性. 展开更多
关键词 空间结构 杆系结构 张弦桁架结构 易损性分析 敏感性指标 抗连续倒塌
在线阅读 下载PDF
基于Python的ABAQUS有限元强度折减法程序在边坡稳定性分析中的应用 被引量:7
20
作者 荣光旭 彭艳 田凯 《中北大学学报(自然科学版)》 CAS 2021年第4期332-339,共8页
强度折减法是边坡稳定性分析的主要方法之一.以ABAQUS为平台,基于ABAQUS中自带的方法(method),应用脚本语言Python编写了基于场变量的有限元强度折减法程序.通过Python语言中的文件处理方式,利用字符串索引修改关键字,完成了对模型输入... 强度折减法是边坡稳定性分析的主要方法之一.以ABAQUS为平台,基于ABAQUS中自带的方法(method),应用脚本语言Python编写了基于场变量的有限元强度折减法程序.通过Python语言中的文件处理方式,利用字符串索引修改关键字,完成了对模型输入文件的修改,从而可以控制场变量的变化范围,实现自动提交分析.通过工程实例讨论了二次开发中对象模型的调用流程,以及数据读取、结果输出等技术,验证了该Python脚本程序的可行性.本研究为后续Python的岩土工程仿真二次开发应用提供了借鉴. 展开更多
关键词 ABAQUS PYTHON 有限元强度折减法 二次开发 字符串索引
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部