期刊文献+
共找到543篇文章
< 1 2 28 >
每页显示 20 50 100
Application of Full Text Search Engine Based on Lucene
1
作者 Rujia Gao Danying Li +1 位作者 Wanlong Li Yaze Dong 《Advances in Internet of Things》 2012年第4期106-109,共4页
This paper introduces us the full-text search engine based on Lucene and full-text retrieval technology, including indexing and system architecture, compares the full-text search of Lucene with the String search retri... This paper introduces us the full-text search engine based on Lucene and full-text retrieval technology, including indexing and system architecture, compares the full-text search of Lucene with the String search retrieval’s response time, the experimental results show that the full text search of Lucene has faster retrieval speed. 展开更多
关键词 Full text search ENGINE System ARCHITECTURE LUCENE
在线阅读 下载PDF
On Multi-Thread Crawler Optimization for Scalable Text Searching
2
作者 Guang Sun Huanxin Xiang Shuanghu Li 《Journal on Big Data》 2019年第2期89-106,共18页
Web crawlers are an important part of modern search engines.With the development of the times,data has exploded and humans have entered a“big data era”.For example,Wikipedia carries the knowledge from all over the w... Web crawlers are an important part of modern search engines.With the development of the times,data has exploded and humans have entered a“big data era”.For example,Wikipedia carries the knowledge from all over the world,records the realtime news that occurs every day,and provides users with a good database of data,but because of the large amount of data,it puts a lot of pressure on users to search.At present,single-threaded crawling data can no longer meet the requirements of text crawling.In order to improve the performance and program versatility of single-threaded crawlers,a high-speed multi-threaded web crawler is designed to crawl the network hyper-scale text database.Multi-threaded crawling uses multiple threads to process web pages in parallel,combining breadth-first and depth-first algorithms to control web crawling.The practice project is based on the Python language to achieve multi-threaded optimization network hyper-large-scale text database-Wikipedia book crawling method,the project is inspired by the article on the Wikipedia article in the Big Data Digest public number. 展开更多
关键词 MULTI-THREADING text database OPTIMIZATION breadth-first search depth-first search.
在线阅读 下载PDF
基于检索增强Text-to-SQL生成的书目搜索对话问答系统研究
3
作者 王震宇 朱学芳 +2 位作者 张君冬 杨睿 刘崧印 《数据分析与知识发现》 北大核心 2025年第11期165-174,共10页
【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-... 【目的】针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-SQL生成易受噪声与领域差异影响的问题,设计了一种基于对比学习的示例选择策略,通过微调文本嵌入模型,使其更关注查询的句法结构与检索意图,从而提升相似度排序质量。实验基于构建的书目搜索语义解析数据集进行,在零样本与少样本条件下对系统性能进行对比验证。【结果】相较于零样本设置,采用本文方法的DeepSeek-V3模型在5-Shot场景下的SQL执行准确率提高了18.5个百分点,验证了该示例选择策略在专业领域Text-to-SQL任务中的有效性。【局限】由于实验数据集覆盖范围有限,系统对跨领域查询的适应性仍需进一步增强。【结论】研究证明了大语言模型结合对比学习示例选择策略在书目智能搜索场景中的有效性,可为其他垂直领域对话问答系统的构建与优化提供参考。 展开更多
关键词 书目搜索 检索增强生成 text-to-SQL 对话问答系统 模型上下文协议
原文传递
基于结构感知与蒙特卡洛树搜索的SQL生成
4
作者 富宇 李浩冉 《计算机技术与发展》 2026年第3期118-123,117,共7页
自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力... 自然语言到SQL(Text-to-SQL)任务旨在将用户查询映射为可执行的SQL语句,是自然语言与数据库交互的核心技术。当前主流大型语言模型在处理复杂结构、多表关联及嵌套逻辑时,常出现结构错误、语义偏离和执行失败,限制了其可靠性与泛化能力。为此,该文提出Struct-MCTS,一种基于结构感知与蒙特卡洛树搜索(MCTS)的Text-to-SQL生成框架。该框架通过细粒度结构化动作建模SQL生成过程,并结合多模型并行生成与协同辩论对候选路径进行动态打分,从而提升生成结果的鲁棒性与一致性。在零样本条件下,Struct-MCTS在Spider和BIRD等复杂数据集上表现出领先的执行准确率,显示出强泛化能力与实际应用潜力。 展开更多
关键词 text-to-SQL 大语言模型 结构感知 蒙特卡洛树搜索 多模型辩论 零样本学习
在线阅读 下载PDF
基于RAG-LATS的古籍零样本命名实体识别方法 被引量:1
5
作者 伊豪涵 王昊 +2 位作者 周抒 郑旭辉 周正达 《数据分析与知识发现》 北大核心 2026年第1期116-132,共17页
【目的】解决古籍文本因语言复杂性、多样性及标注数据缺乏而带来的命名实体识别难题。【方法】构建一种融合古籍知识库和AI-Search的检索增强生成框架,结合LATS框架的生成、搜索、反思与修正机制,优化大语言模型在古籍领域的零样本命... 【目的】解决古籍文本因语言复杂性、多样性及标注数据缺乏而带来的命名实体识别难题。【方法】构建一种融合古籍知识库和AI-Search的检索增强生成框架,结合LATS框架的生成、搜索、反思与修正机制,优化大语言模型在古籍领域的零样本命名实体识别性能。【结果】在CHisIEC公共数据集上的实验表明,与古籍领域微调模型Xunzi-Qwen1.5-7B-Chat相比,本文方法的Micro F1值提升14.44个百分点,与Qwen1.5-7BChat相比提升16.99个百分点。【局限】Prompt构造方法有进一步优化空间;LATS框架计算复杂度较高,可能影响大规模数据场景的效率。【结论】检索增强生成有效增强了大语言模型的领域知识,LATS框架优化了大语言模型输出的准确性与条理性,显著提升了大语言模型在古籍领域零样本命名实体识别任务上的性能。 展开更多
关键词 古籍文本 零样本命名实体识别 检索增强生成 大语言模型 智能体树搜索
原文传递
Oracle Text技术在复杂结构数据库中的应用 被引量:5
6
作者 蒙辉 陈燕 《计算机技术与发展》 2007年第4期38-40,44,共4页
全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle9i的一个组件,提供了强大的全文检索功能。但Oracle Text全文检索技术只是针对表结构相对固定的数据库,而对表结构以及表数量不断变化的数据库实现全文检索的能力是不... 全文检索技术是智能信息管理的关键技术之一,Oracle Text作为Oracle9i的一个组件,提供了强大的全文检索功能。但Oracle Text全文检索技术只是针对表结构相对固定的数据库,而对表结构以及表数量不断变化的数据库实现全文检索的能力是不足的。文中介绍了Oracle Text全文检索技术的方法和步骤,阐述了其在复杂结构数据库中的具体应用,最后程序实现了所设计的全文检索技术。 展开更多
关键词 ORACLE text 复杂结构数据库 全文检索
在线阅读 下载PDF
面向长文本的通配符对称搜索加密方案
7
作者 张茜 王柳旭 +4 位作者 苏烨 杨海宁 李青茹 谷志斌 王长广 《河北师范大学学报(自然科学版)》 2026年第1期9-24,共16页
针对数据要素在生命周期使用过程中面临的安全检索问题,以能够准确描述多种数据类型的长文本为研究对象,聚焦对称加密场景下的长文本安全检索需求,围绕长文本密文搜索的问题建模、算法设计与安全模型构建等方面展开研究,设计了一种面向... 针对数据要素在生命周期使用过程中面临的安全检索问题,以能够准确描述多种数据类型的长文本为研究对象,聚焦对称加密场景下的长文本安全检索需求,围绕长文本密文搜索的问题建模、算法设计与安全模型构建等方面展开研究,设计了一种面向长文本的对称可搜索加密方案.针对长文本数据字符规模大、字符空间固定和位置特征显著等特点,提出了粒子化搜索思想,并构建了相应的实例化位图索引结构,进而设计出支持任意通配符的长文本密文搜索方案.该方案在基于模拟的框架下被证明满足L-适应性安全.为进一步评估方案的实际效率,首先在理论上与多个现有方案在存储、计算和通信开销方面进行了对比分析,证明了所提方案在理论上的高效性,进一步地,通过实验将所提方案与明文基线方案进行性能对比.结果表明,所提方案的索引构建时间约为基线方案的100倍,而搜索时间与基线方案处于同一量级,验证了方案在搜索阶段的实用性与高效性. 展开更多
关键词 可搜索加密 对称可搜索加密 通配符可搜索加密 适应性安全 长文本密文搜索
在线阅读 下载PDF
一种基于多样性对比搜索解码的影像报告生成方法
8
作者 余航 蒙佳健 +1 位作者 余绍德 孙秋瑞 《现代电子技术》 北大核心 2026年第3期145-150,共6页
微调大语言模型中的语义不一致问题常常导致文本摘要的质量不尽如人意,针对该问题,文中提出一种调和对比学习和交叉熵的目标函数,旨在增强语义表征的准确性。同时,设计了一种多样性对比搜索解码方法,通过选择令牌重复率最低的生成文本... 微调大语言模型中的语义不一致问题常常导致文本摘要的质量不尽如人意,针对该问题,文中提出一种调和对比学习和交叉熵的目标函数,旨在增强语义表征的准确性。同时,设计了一种多样性对比搜索解码方法,通过选择令牌重复率最低的生成文本来提升文本摘要的语义一致性。基于大语言模型GPT-2,利用30000对脱敏的影像描述和诊断报告样本进行训练。通过词匹配、语义相关性、内容相似度和令牌重复率等指标进行评估,结果表明,文中提出的框架提升了文本摘要的准确性(BLEU为0.49、METEOR为0.26、ROUGE-L为0.52、CIDEr为1.43)和语义一致性(mTRR为0.12)。通过使用先进的语言模型和微调策略,借助多模态数据学习,语义不一致问题得到更好的控制。 展开更多
关键词 文本摘要 对比学习 交叉熵 对比搜索 大语言模型 语义表征
在线阅读 下载PDF
基于Microsoft Search Service为图书馆自建数据库创建Web全文检索系统
9
作者 唐光前 《现代图书情报技术》 CSSCI 北大核心 2003年第6期50-52,共3页
分析了基于 Microsoft Search Service为图书馆自建数据库创建 Web全文检索系统的理由、Microsoft SearchService的索引机制和检索机制 ,并运用 ASP.
关键词 Microsoft-search-Service 图书馆 数据库 全文检索系统 索引机制 检索机制 ASP NET
在线阅读 下载PDF
基于Lucene的MYSearch全文搜索引擎
10
作者 刘亚姝 黄岳 《微型机与应用》 2010年第18期86-88,共3页
基于Lucene开源框架设计实现了MYSearch全文搜索引擎。给出了MYSearch实现的基本原理和设计流程,以及实验结果,并针对Lucene在中文分词方面的不足展开了讨论,给出了改进方法。
关键词 全文搜索引擎 Lucence 分词 索引
在线阅读 下载PDF
基于麻雀搜索算法优化Transformer的短文本情感分析方法
11
作者 胡翔 《微处理机》 2026年第1期53-58,共6页
短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短... 短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短文本的表现形式;利用Transformer模型提取情感特征,并引入SSA优化模型超参数;将所提取情感特征输入全连接层+Softmax分类器中,采用交叉熵损失的梯度下降算法衡量文本预测情感与真实情感之间的差异,完成短文本情感分析。SSA具有全局搜索能力强、收敛速度快等优点,能有效优化Transformer模型的超参数,提升模型性能。试验结果表明,所提出方法的迭代损失值较低,分类精度较高,能够较好地捕捉情感特征且对各类情感区分能力强。 展开更多
关键词 麻雀搜索算法 Transformer模型 短文本情感分析 情感特征
在线阅读 下载PDF
利用interMedia-Text实现基于Web的大型文档库的全文检索模块 被引量:2
12
作者 夏戈 卜家岐 《计算机应用与软件》 CSCD 北大核心 2004年第1期22-23,102,共3页
随着电子文档的大量使用 ,如何建立高效的文档管理系统成为一个新的研究方向。本文就实现管理系统的一项技术难点 ,即大型文档的全文检索功能 ,提出了一种新的可行方案。其核心选用了最新的数据库技术interMedia -Text 。
关键词 数据库 interMedia-text WEB 大型文档库 全文检索模块 文档管理系统
在线阅读 下载PDF
基于ElasticSearch的医疗数据检索系统的设计与实现 被引量:5
13
作者 汪睿 胡外光 +1 位作者 胡珊珊 周颖 《信息技术》 2024年第4期76-82,共7页
随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearc... 随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearch的医疗数据检索系统。该系统将医疗数据进行标准化,填补缺失值,选取合适的分词算法进行分词,将处理后的数据存入ElasticSearch中,同时使用SpringBoot构建系统应用,消耗多个医疗基础业务系统产生的数据,最终形成统一的医疗数据检索系统,给用户提供便捷、精确的查询服务。 展开更多
关键词 lasticsearch 医疗数据 文本分词 全文检索 分布式搜索
在线阅读 下载PDF
基于ElasticSearch全文检索的农业地理信息大数据平台设计与实现 被引量:10
14
作者 刘吉 孙俊英 +1 位作者 陈忠超 蔡忠亮 《测绘与空间地理信息》 2021年第6期162-164,共3页
针对目前农业大数据平台地理要素纳入不足、研究尺度受限、搜索功能相对薄弱等问题,本文充分发挥了测绘部门自然地理要素数据精细、农业遥感监测数据精准、野外全景采样数据完整的优势,基于ElasticSearch搜索引擎,利用网络技术、电子地... 针对目前农业大数据平台地理要素纳入不足、研究尺度受限、搜索功能相对薄弱等问题,本文充分发挥了测绘部门自然地理要素数据精细、农业遥感监测数据精准、野外全景采样数据完整的优势,基于ElasticSearch搜索引擎,利用网络技术、电子地图技术与空间数据库技术设计并实现了全文检索的农业地理信息大数据平台,多角度、多维度、多层次精确地展示数据信息内容,为农业大数据的规律寻找、价值挖掘与有效利用提供了有力支撑。 展开更多
关键词 农业大数据 地理信息平台 Elasticsearch 全文检索
在线阅读 下载PDF
面向工程数据检索的ElasticSearch索引优化策略 被引量:10
15
作者 许贤慧 王淑营 曾文驱 《计算机与现代化》 2022年第2期79-84,119,共7页
随着生产制造业的发展,各行业在生产制造的过程中都会产生大量的工程数据,现代工程领域的数据检索需求要求能够通过关键字快速且准确检索出相应的结果,利用ElasticSearch可以实现工程数据的检索,但是其性能方面还有优化的空间。为了解... 随着生产制造业的发展,各行业在生产制造的过程中都会产生大量的工程数据,现代工程领域的数据检索需求要求能够通过关键字快速且准确检索出相应的结果,利用ElasticSearch可以实现工程数据的检索,但是其性能方面还有优化的空间。为了解决这个问题,本文对ElasticSearch的底层原理进行深入研究,在ElasticSearch的索引创建、索引分片以及索引段合并方面进行优化。首先对ElasticSearch的分词器进行修改并配置自定义词典,其次提出基于集群节点性能与索引数据量大小的索引分片策略,最后,根据节点性能对索引段合并的时机进行优化。通过基于地铁工程数据的检索进行实验,实验结果表明,改进的方法确实能够提高ElasticSearch的数据写入与查询性能。 展开更多
关键词 Elasticsearch全文搜索引擎 索引 分片 段合并 性能优化
在线阅读 下载PDF
一种基于Context Graph主题爬虫系统的算法实现 被引量:1
16
作者 高庆芳 蒲宝卿 包蕾 《兰州文理学院学报(自然科学版)》 2022年第6期41-45,共5页
对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较... 对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较大规模的汽车网站为研究对象,设置“汽车”为关键词对全部内容展开不同类别的爬取,进而分析所得结果,根据查全率、查准率和F1值综合评价系统的性能.与原有系统相比,升级后算法的模型准确性更好,在一定程度上提高爬取工作的效率. 展开更多
关键词 搜索引擎 主题爬虫 文本分析 机器学习
在线阅读 下载PDF
基于ElasticSearch和语义相似度匹配的教学资源搜索策略 被引量:8
17
作者 陶磊 苏晨阳 +2 位作者 李正丹 朱静雯 张玉志 《数据与计算发展前沿》 CSCD 2022年第2期50-62,共13页
【目的】整合多种教学资源,并在此场景下设计和实现一种高效准确的搜索策略,帮助用户获取丰富的教学内容。【应用背景】教学资源类型众多,数量庞大,用户对于准确检索的需求日益增长,仅基于ElasticSearch进行搜索的效果不尽人意。【方法... 【目的】整合多种教学资源,并在此场景下设计和实现一种高效准确的搜索策略,帮助用户获取丰富的教学内容。【应用背景】教学资源类型众多,数量庞大,用户对于准确检索的需求日益增长,仅基于ElasticSearch进行搜索的效果不尽人意。【方法】在对用户输入的Query进行预处理和分词后,通过ER-BERT语义相似度模型在Query库中匹配出n条近似结果,将其输入到ElasticSearch并构建相关度计算公式,最后按照综合评估的最终得分将匹配结果进行排序。【结果】利用知识图谱技术整合复杂的教学资源,并在此基础上实现了一种基于ElasticSearch和语义相似度匹配的教学资源搜索策略,在保证检索速度的同时可以根据用户检索Query的语义信息进行检索。【结论】实验结果表明使用该教学资源搜索策略增加了检索结果的数量,并在保证检索速度的同时提升了结果的准确性,显著改善了用户的搜索体验。 展开更多
关键词 Elasticsearch 文本相似度 搜索策略 知识图谱
在线阅读 下载PDF
Oracle Text全文检索技术在文档资料管理中的应用 被引量:3
18
作者 李培军 毕于慧 +1 位作者 张权 董玮 《计算机系统应用》 2014年第4期57-60,共4页
本文利用Oracle Text全文检索技术,根据数据库业务逻辑构建了关键词表,通过为关键词表建立索引的方式进行检索,提高了检索效率;以ViusalC++6为开发平台,采用C/S结构技术研发了多类型文档资料管理系统,实现了办公文档资料的高效管理.
关键词 全文检索 文档资料管理系统
在线阅读 下载PDF
基于ElasticSearch分布式搜索引擎的信息检索方法研究 被引量:10
19
作者 董元和 贾炎 +2 位作者 朱勇 李恩泽 薛贤红 《湖北师范大学学报(自然科学版)》 2023年第4期56-61,共6页
随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引... 随着信息量的骤增,传统关系型数据库很难做到实时高效地检索用户需要的信息,并且无法对信息进行分词及关键词组合的短文本搜索,从而很难优化信息检索结果的推荐展示。针对大量信息频繁检索的问题,采取一种基于ElasticSearch分布式搜索引擎,并采用分词器和倒排索引等技术,能较好地解决这些问题。同时在研究过程中利用代码实现了基础功能搜索、地理位置搜索以及通过算分排序推荐展示等功能。 展开更多
关键词 分布式搜索引擎 短文本搜索 倒排索引 分词器 信息检索
在线阅读 下载PDF
基于ElasticSearch的输变电工程全文检索研究 被引量:1
20
作者 张建广 徐鲲 +3 位作者 董鉥涛 刘迪 王向上 李春林 《黑龙江科学》 2024年第16期94-97,共4页
随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对... 随着输变电工程建设工作的开展,多源异构的全过程非结构化文档体量日益增大,需要对这些非结构化文档进行稳定管理。为实现输变电工程非结构化文档的高效检索,研究了基于ElasticSearch的输变电工程全文检索方案,构建电网专用术语词典对智能化分词进行辅助优化,融合输变电工程资料的特征信息,对分词成果进行语义赋值,基于语义标签改进分词算法,进一步提升全文检索效率和准确率,搭建了输变电工程全文检索系统,以验证此技术方案的可行性。 展开更多
关键词 输变电工程 全文检索 Elasticsearch 中文分词 语义检索
在线阅读 下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部