期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Text-to-SQL文本信息处理技术研究综述 被引量:4
1
作者 彭钰寒 乔少杰 +5 位作者 薛骐 李江敏 谢添丞 徐康镭 冉黎琼 曾少北 《无线电工程》 2024年第5期1053-1062,共10页
信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无... 信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL)也能够熟练操作数据库。介绍Text-to-SQL的研究背景及面临的挑战;介绍Text-to-SQL关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer等主流技术,用于模型训练的基准数据集包括WikiSQL和Spider;介绍Text-to-SQL不同阶段模型的特点,详细阐述Text-to-SQL最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL未来的发展方向及研究重点。 展开更多
关键词 文本转结构化查询语言 解析器 文本信息处理 数据库 深度学习
在线阅读 下载PDF
基于Swing的HTML解析器的实现与应用
2
作者 宋宇 《科技资讯》 2024年第14期43-45,49,共4页
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开... HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索器Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。 展开更多
关键词 解析器 HTML SWING 超文本链接 链接文本
在线阅读 下载PDF
Web页面清洗技术的研究与实现 被引量:20
3
作者 周源远 王继成 +1 位作者 郑刚 张福炎 《计算机工程》 CAS CSCD 北大核心 2002年第9期48-50,197,共4页
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的... 文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。 展开更多
关键词 WEB页面 清洗技术 文本块 链接块 DOM 解析器 Internet 信息检索
在线阅读 下载PDF
基于文档集的生物信息挖掘模型研究 被引量:2
4
作者 孙红敏 姜楠楠 李想 《计算机工程与应用》 CSCD 北大核心 2016年第24期102-106,188,共6页
针对生物医学文献的数量急剧增长,人工从文献中获取所需要的信息已不能适应生物医学文献数量迅速生长的需要。利用Stanford Parser等开源工具,采用自然语言处理技术、统计学等多种方法,提出了一种新型的生物信息挖掘模型,并对其关键技... 针对生物医学文献的数量急剧增长,人工从文献中获取所需要的信息已不能适应生物医学文献数量迅速生长的需要。利用Stanford Parser等开源工具,采用自然语言处理技术、统计学等多种方法,提出了一种新型的生物信息挖掘模型,并对其关键技术进行分析。该模型在对全文文本SBQTL(Soybean Quantitative Trait Loci)测试中父母本信息提取的准确率和召回率分别为93.0%和78.4%;在对Pub Med测试中,准确率和召回率分别为94.3%和80.0%。解决了生物医学研究者从海量文献中更有效、快速地找到所需信息的问题,以便生物学家发现隐藏的生物医学知识并验证得到新的科学发现,从而使人们对生物医学现象的认识得到了提高。 展开更多
关键词 文本挖掘 STANFORD parser 文本预处理 依存关系 信息抽取
在线阅读 下载PDF
基于Lucene.net全文检索在文档管理中的应用 被引量:5
5
作者 李文江 陈诗琴 《现代图书情报技术》 CSSCI 北大核心 2010年第11期84-89,共6页
针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中;建立中文分析器,对文档记录进行索引。通过索引检索结果,并结合文档控制信息,实现具有权限控制的文档全... 针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中;建立中文分析器,对文档记录进行索引。通过索引检索结果,并结合文档控制信息,实现具有权限控制的文档全文检索。 展开更多
关键词 LUCENE.NET 文档解析 ICTCLAS 索引 全文检索 文档控制
原文传递
基于概念图的中文信息自动转化技术研究 被引量:3
6
作者 刘岩 张蕾 《计算机工程与应用》 CSCD 北大核心 2008年第15期151-154,共4页
概念图是一种基于语言学、心理学、哲学为一体的一种知识表示方法,目前主要应用于自然语言处理、知识获取、规划及推理等方面。在哈工大IR-Lab资源基础之上,并结合《知网》的世界知识信息,基于概念图理论提出了一种中文文本信息自动转... 概念图是一种基于语言学、心理学、哲学为一体的一种知识表示方法,目前主要应用于自然语言处理、知识获取、规划及推理等方面。在哈工大IR-Lab资源基础之上,并结合《知网》的世界知识信息,基于概念图理论提出了一种中文文本信息自动转化为概念图的实现方案。可以实现从中文文本直接转化到概念图结构。 展开更多
关键词 计算机应用 概念图 中文信息处理 知网 文本理解 句法分析
在线阅读 下载PDF
基于Lucene的中文分词器的改进与实现 被引量:1
7
作者 罗惠峰 郭淑琴 《微型机与应用》 2015年第11期76-78,82,共4页
Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结... Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 全文检索 中文分词器 文本解析器 最大匹配算法(MMSEG)
在线阅读 下载PDF
利用实体与依存句法结构特征的病历短文本分类方法 被引量:2
8
作者 吕愿愿 邓永莉 +2 位作者 刘明亮 崔宇佳 陆起涌 《中国医疗器械杂志》 2016年第4期245-249,共5页
近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础。该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法。首先对病历文本进行自然语言处理,包括分句、分词、词性标注以及实体提取,构建实体词典,利用TF-... 近年来,电子病历文本的分类、挖掘成为医学大数据研究的基础。该文提出一种利用实体与依存句法结构分析构特征集的电子病历短文本分类方法。首先对病历文本进行自然语言处理,包括分句、分词、词性标注以及实体提取,构建实体词典,利用TF-IDF方法构建词-文本矩阵并利用潜在语义分析LSA方法进行词汇特征的选择,然后分析病历文本的依存句法关系,挖掘出词汇之间的依存关系并构建特征三元组作为分类特征的扩展,最后构建出分类特征向量集对病历短文本进行分类。实验证明,相比于未进行特征扩展的短文本分类,所提方法能有效地提高分类器的分类性能,其分类的准确率与F值均有明显的提高。 展开更多
关键词 电子病历 短文本 TF-IDF LSA 依存句法结构分析 特征三元组
在线阅读 下载PDF
通用格式的Lucene文档解析器框架的构建 被引量:1
9
作者 李浩 《计算机与现代化》 2011年第3期127-130,共4页
Lucene是一款优秀的开源全文本搜索技术框架。首先介绍高性能的全文检索工具Lucene,详细分析Lucene的系统结构、程序运行逻辑和各个模块功能,以及在Lucene上的扩展;然后针对Lucene在不同类型文档解析方面的不足,提出一种通用的文档解析... Lucene是一款优秀的开源全文本搜索技术框架。首先介绍高性能的全文检索工具Lucene,详细分析Lucene的系统结构、程序运行逻辑和各个模块功能,以及在Lucene上的扩展;然后针对Lucene在不同类型文档解析方面的不足,提出一种通用的文档解析器框架,并给出具体的应用实例。 展开更多
关键词 全文检索技术 LUCENE 开源框架 文档解析器
在线阅读 下载PDF
一种基于概念向量空间的文本相似度计算方法 被引量:22
10
作者 李琳 李辉 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第5期48-58,共11页
【目的】将文本建模为一个概念向量空间,提出一种该模型下的文本相似度计算方法。【方法】对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间;提出一种向量空间之间的相似度定量刻画文本间的相似程度;采用... 【目的】将文本建模为一个概念向量空间,提出一种该模型下的文本相似度计算方法。【方法】对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间;提出一种向量空间之间的相似度定量刻画文本间的相似程度;采用标准测试集对短文本的相似度进行评测,并利用该相似度实现一种面向长文本的文本分类算法。【结果】实验结果表明定义在概念向量空间上的相似度可以有效评估文本间的语义相似性,在长文本的文档分类数据集上达到92%以上的分类准确率。【局限】该算法依赖于依存语法的分析效果和词嵌入向量的质量。【结论】将语言学知识与词嵌入技术有机结合,可以有效衡量文本间的相似度,具有较低的计算复杂度,能够广泛应用于文档分类和聚类、自动问答系统等应用。 展开更多
关键词 文本相似度 词嵌入 依存句法分析 文本分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部