期刊文献+
共找到288篇文章
< 1 2 15 >
每页显示 20 50 100
Improving the precision of the keyword-matching pornographic text filtering method using a hybrid model 被引量:3
1
作者 苏贵洋 李建华 +1 位作者 马颖华 李生红 《Journal of Zhejiang University Science》 EI CSCD 2004年第9期1106-1113,共8页
With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applica... With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applications which can block or filter such information are used. Approaches in those systems can be roughly classified into two kinds: metadata based and content based. With the development of distributed technologies, content based filtering technologies will play a more and more important role in filtering systems. Keyword matching is a content based method used widely in harmful text filtering. Experiments to evaluate the recall and precision of the method showed that the precision of the method is not satisfactory, though the recall of the method is rather high. According to the results, a new pornographic text filtering model based on reconfirming is put forward. Experiments showed that the model is practical, has less loss of recall than the single keyword matching method, and has higher precision. 展开更多
关键词 Pornographic text filtering Content based filtering Information filtering Network content security
在线阅读 下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
2
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
在线阅读 下载PDF
图文跨模态检索双重过滤与动态补全的注意力区域优化方法研究
3
作者 孟凡奇 田凯迪 田研 《现代信息科技》 2026年第1期41-46,共6页
当前图文跨模态检索存在两个主要瓶颈:传统注意力机制往往包含大量冗余区域,引入无关语义噪声;过度筛选又会导致有效区域不足,造成关键视觉信息丢失。这两种情况均会显著降低模型的匹配精度与鲁棒性。针对该问题,提出一种双重优化策略:... 当前图文跨模态检索存在两个主要瓶颈:传统注意力机制往往包含大量冗余区域,引入无关语义噪声;过度筛选又会导致有效区域不足,造成关键视觉信息丢失。这两种情况均会显著降低模型的匹配精度与鲁棒性。针对该问题,提出一种双重优化策略:首先通过双重过滤机制自适应保留高响应区域,有效抑制冗余噪声;同时创新性引入Top-K动态补全方法,在检测到特征不足时自动补充关键语义区域。实验验证表明,该方法在保持特征选择精度的同时,有效避免关键信息丢失,显著提升了模型在复杂场景下的跨模态匹配性能。 展开更多
关键词 跨模态检索 图文检索 特征对齐 阈值过滤 注意力优化
在线阅读 下载PDF
基于知识和语义的地理信息深度文本匹配模型——知地
4
作者 毛陈圣雪 梁霄 +2 位作者 宁紫檀 陈雨荷 肖仲涛 《计算机应用文摘》 2026年第1期155-157,共3页
随着互联网的快速发展,网络文本中蕴含的地理信息日益丰富,且其具有庞大的数量和较强的专业性。传统的信息搜索引擎技术主要致力于从海量数据中筛选出对用户有用的信息,但无法有效获取和解析这些结果之间的内在关联。基于知识检索、知... 随着互联网的快速发展,网络文本中蕴含的地理信息日益丰富,且其具有庞大的数量和较强的专业性。传统的信息搜索引擎技术主要致力于从海量数据中筛选出对用户有用的信息,但无法有效获取和解析这些结果之间的内在关联。基于知识检索、知识过滤和深度文本匹配的思路,结合Attention机制、CNN、GRU等方法,提出了一种基于知识和语义的地理信息深度文本匹配模型——知地。实验结果表明,知地模型在离线测试集上展现了良好的性能和鲁棒性。 展开更多
关键词 地理信息 知地模型 文本匹配 知识过滤
在线阅读 下载PDF
针对直播弹幕的TextCNN过滤模型 被引量:7
5
作者 明建华 胡创 +1 位作者 周建政 姚金良 《计算机工程与应用》 CSCD 北大核心 2021年第3期162-167,共6页
网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非... 网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题。提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法。通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率。 展开更多
关键词 直播弹幕 带噪短文本 文本过滤 卷积神经网络
在线阅读 下载PDF
基于IFilter的非文本文件中抽取文本的关键技术
6
作者 徐辉 《电脑知识与技术》 2011年第9X期6682-6683,共2页
文本抽取是信息检索的一个重要问题。设计并实现了一个利用IFilter接口的过滤器组件,抽取非文本文件的文本信息的程序。对这一设计过程论述了其主要的关键技术。
关键词 文本抽取 非文本文件 Ifilter接口 过滤器组件
在线阅读 下载PDF
结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法 被引量:4
7
作者 孙瑞安 张云华 《智能计算机与应用》 2021年第4期9-13,共5页
为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量... 为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。 展开更多
关键词 AdaBERT textCNN 弹幕 文本过滤
在线阅读 下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:3
8
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
在线阅读 下载PDF
基于标签感知融合与多尺度双向注意力交互的多标签文本分类模型
9
作者 郑启扬 《湖北大学学报(自然科学版)》 2026年第1期69-78,共10页
在多标签文本分类任务中,现有方法主要针对文本信息的提取,普遍存在对标签语义利用不足的问题。对此,提出一种基于标签感知融合与多尺度双向注意力机制的多标签分类模型。基于BERT模型,设计一种标签感知融合机制,将文本与标签嵌入统一序... 在多标签文本分类任务中,现有方法主要针对文本信息的提取,普遍存在对标签语义利用不足的问题。对此,提出一种基于标签感知融合与多尺度双向注意力机制的多标签分类模型。基于BERT模型,设计一种标签感知融合机制,将文本与标签嵌入统一序列,通过跨度预测捕捉局部关联性;引入词过滤器模块,依据词-标签余弦相似度筛选关键词汇,抑制噪声干扰;构建多尺度双向注意力网络,通过不同卷积核捕捉词级、短语级与句子级语义,并利用标签-文本与文本-标签双向注意力机制挖掘深层交互特征,实现动态语义适配。在公开数据集AAPD、ArXiv-ACM与Reuters-21578上的实验表明,本模型在maF1、miF1和HL指标上与基线方法相比均得到了最佳表现。 展开更多
关键词 多标签文本分类 标签感知融合机制 词过滤器 多尺度双向注意力网络
在线阅读 下载PDF
面向军事领域知识问答系统的多策略检索增强生成方法 被引量:7
10
作者 张艳萍 陈梅芳 +4 位作者 田昌海 易子博 胡文鹏 罗威 罗准辰 《计算机应用》 北大核心 2025年第3期746-754,共9页
基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成... 基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。 展开更多
关键词 检索增强生成 军事知识问答 信息检索 文本过滤 查询改写
在线阅读 下载PDF
面向开源科技情报分析的智能文本分类方法研究 被引量:3
11
作者 彭鹏 徐红姣 《数字图书馆论坛》 2025年第2期65-72,共8页
随着网络信息的爆发式增长,从海量的网络文本信息中识别有价值的科技情报并对其进行智能分类成为开源科技情报分析的关键。针对开源科技情报文本的特点,构建了面向开源科技情报分析的文本智能去噪与分类一体化模型。结合大语言模型与提... 随着网络信息的爆发式增长,从海量的网络文本信息中识别有价值的科技情报并对其进行智能分类成为开源科技情报分析的关键。针对开源科技情报文本的特点,构建了面向开源科技情报分析的文本智能去噪与分类一体化模型。结合大语言模型与提示工程的自动标注方法进行噪声数据标注及文本分类数据标注;基于预训练语言模型进行噪声识别与过滤,过滤非科技情报文本;利用多语言预训练模型及蒸馏技术,改进损失函数设计,解决类别分布不均和数据不足的问题,实现在一定程度上提升多标签科技情报文本分类的精度和稳定性的目标。实验结果表明,与TextCNN与BERT方法相比,所提出的方法具有较高的分类性能、更好的鲁棒性和适应性。 展开更多
关键词 开源科技情报 文本分类 信息过滤 预训练语言模型
在线阅读 下载PDF
基于特征过滤和自适应融合机制的不规则场景文本检测算法
12
作者 杨帅磊 李岐龙 +2 位作者 陈杰 凡高娟 张重生 《哈尔滨工业大学学报》 北大核心 2025年第10期165-170,共6页
自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network)... 自然场景图像中的文本存在背景复杂、形状各异、方向多样、光线多变等特点,为提升场景文本尤其是不规则场景文本的检测性能,提出一种基于特征过滤和自适应特征融合机制的不规则场景文本检测网络FGANet(feature guided adaptive network),其特征聚合引导模块通过空洞卷积扩大感受野、提升网络的特征表达能力,其自适应特征融合模块能够将深层的语义信息与浅层的细节信息进行综合利用,使算法获得更强的文本感知能力。结果表明,在场景文本检测方面,FGANet相较于对比算法,在ICDAR2015、CTW1500、MSRA-TD500和Total Text 4个基准数据集上的F值分别提升了2.4%、1.3%、1.8%和1.4%,性能提升较为显著。 展开更多
关键词 自然场景图像 场景文本检测 特征过滤 自适应特征融合 文本感知能力
在线阅读 下载PDF
基于多模态交叉融合的多图表联合问答方法
13
作者 王鑫鑫 陈亮 +1 位作者 刘昌宏 刘晋宇 《计算机集成制造系统》 北大核心 2025年第8期2829-2842,共14页
为了满足在无法直接访问底层数据库的情况下,用户对于多张图表间关联性问题的交互式探索需求,提出了一种多图表联合问答方法。该方法通过两个核心阶段——数据准备和答案生成,实现了对多张图表数据的联合解读。在数据准备阶段,通过将图... 为了满足在无法直接访问底层数据库的情况下,用户对于多张图表间关联性问题的交互式探索需求,提出了一种多图表联合问答方法。该方法通过两个核心阶段——数据准备和答案生成,实现了对多张图表数据的联合解读。在数据准备阶段,通过将图表数据提取重构为表格数据并对其每个单元格进行文本描述,为后续模型提供统一的数据格式。此外,为提高模型的准确性和回答效率,提出文本事实筛选方法,该方法能够在大量的表格文本描述中筛选出与用户问题相关的文本,为后续的答案生成提供精准的数据支持。在答案生成阶段,采用多模态融合技术,将这两种不同模态的信息进行交叉融合,以获取更精确的回答。 展开更多
关键词 多图表联合问答 多模态融合 表格文本描述 事实筛选
在线阅读 下载PDF
大数据环境下科学文献多维语义跨模态检索算法研究
14
作者 岑丹 闫奕文 《情报科学》 北大核心 2025年第9期133-138,共6页
【目的/意义】大数据环境下,科学文献涵盖了大量不同领域、主题和模态的信息,例如文本、图像、音频等,因此如何有效地滤除多模态冗余数据是现阶段难点之一。【方法/过程】为此,本研究提出大数据环境下科学文献多维语义跨模态检索算法。... 【目的/意义】大数据环境下,科学文献涵盖了大量不同领域、主题和模态的信息,例如文本、图像、音频等,因此如何有效地滤除多模态冗余数据是现阶段难点之一。【方法/过程】为此,本研究提出大数据环境下科学文献多维语义跨模态检索算法。采用有偏卡尔曼滤波过滤掉科学文献数据库冗余数据。基于此,采用文本频次-逆文档频次(Term Frequency-Inverse Document Frequency,TF-IDF)算法提取表征文本的特征词。通过文献检索元素值计算特征词之间的语义相似度,并结合检索元素的关联度生成检索矩阵,完成大数据环境下科学文献多维语义跨模态的检索。【结果/结论】实验结果显示,所提算法的检索精度高,NDCG数值高,且检索时间更短。【创新/局限】该算法的研究对解决传统关键词检索方法的局限性,通过融合多模态数据、利用丰富的语义信息和解决语义鸿沟问题,提高科学文献检索的效果和准确性,为研究者和学者提供更便捷、全面的信息检索服务。 展开更多
关键词 科学文献数据库过滤 文本特征词 均值化词频 语义相似度 元素隶属度
原文传递
基于特征提取的音乐资源数据分类方法研究 被引量:1
15
作者 陈梦楠 高雯 《信息技术》 2025年第6期30-34,共5页
与传统文字资源不同,音乐资源不带有明显文本语义特性,音频数据呈现高维度,缺少可挖掘的关键标记性衡量特征,导致音乐资源数据分类方法存在分类效率较低、检索精度较低、抗噪性能较差等问题,为此,研究基于特征提取的音乐资源数据分类方... 与传统文字资源不同,音乐资源不带有明显文本语义特性,音频数据呈现高维度,缺少可挖掘的关键标记性衡量特征,导致音乐资源数据分类方法存在分类效率较低、检索精度较低、抗噪性能较差等问题,为此,研究基于特征提取的音乐资源数据分类方法。采用经验模态分解法(Empirical Mode Decomposition,EMD)对含有噪声的音乐资源数据进行处理;对去噪后的数据进行标准化处理,分类成含有关键特征变量的数据集,实现数据的降维处理。从关键特征变量的数据集中提取出“绝对量”特征,作为初始聚类中心。将特征向量集合分成不同类别,通过计算不同类别之间的距离,实现音乐资源数据的分类。实验结果表明,所提方法能提高分类效率、检索精度,并具有良好的抗噪性能。 展开更多
关键词 文本语义 特征提取 EMD法 滤波处理 数据分类
在线阅读 下载PDF
基于两端注意力卷积神经网络的劳动教育案例筛选方法
16
作者 郭建华 彭克峰 +2 位作者 姚冬琳 段慧莹 韩明东 《广东技术师范大学学报》 2025年第3期1-10,共10页
互联网分享的劳动教育案例是劳动教育因地制宜实施分析的重要资源,但案例筛选时面临报道文本长、区分度低等挑战,对此提出一种基于两端注意力卷积神经网络的劳动教育案例筛选方法。方法将案例筛选问题抽象为文本分类问题,设计了两端注... 互联网分享的劳动教育案例是劳动教育因地制宜实施分析的重要资源,但案例筛选时面临报道文本长、区分度低等挑战,对此提出一种基于两端注意力卷积神经网络的劳动教育案例筛选方法。方法将案例筛选问题抽象为文本分类问题,设计了两端注意力机制主要包含首端注意力和尾端注意力,分别施加于卷积神经网络的输入层后和输出层前,用于从长文本中提取与案例相关的局部细节和整体结构特征。实验结果表明,两端注意力卷积神经网络对于劳动教育案例筛选的分类准确率达到84.55%,与普通卷积神经网络相比提升了2.67%,与BiLSTM、Transformer、GCN等算法相比则更具优势。 展开更多
关键词 劳动教育案例筛选 数据采集 文本分类 卷积神经网络 注意力机制
在线阅读 下载PDF
一种标签融合驱动的中文医疗实体关系抽取方法
17
作者 陈闯 张维彦 +1 位作者 阮彤 郑红 《华东理工大学学报(自然科学版)》 北大核心 2025年第2期260-269,共10页
医疗实体关系抽取是推动医疗信息化建设的关键步骤,旨在从医疗文本中抽取结构化的三元组信息。针对现有方法对实体类型标签和关系标签利用不充分的问题,提出了一种标签融合驱动的中文医疗实体关系抽取框架。首先,将实体关系抽取任务拆... 医疗实体关系抽取是推动医疗信息化建设的关键步骤,旨在从医疗文本中抽取结构化的三元组信息。针对现有方法对实体类型标签和关系标签利用不充分的问题,提出了一种标签融合驱动的中文医疗实体关系抽取框架。首先,将实体关系抽取任务拆分成双向的4个命名实体识别任务,并将每个任务的标签替换为头尾实体类型标签和关系标签的融合;其次,设计了三元组构造策略以最大限度利用双向抽取出的三元组;最后,利用三元组双向过滤模型筛选候选三元组。结果表明,该方法相较于GPLinker在F1指标上提升了3.01%。此外,该方法在医疗领域的重叠关系、多三元组和跨句三元组复杂场景中也表现出了优秀的性能。 展开更多
关键词 医疗文本 实体关系抽取 标签融合 双向抽取 三元组过滤模型
在线阅读 下载PDF
多视角事件重构的摘要生成
18
作者 孙锐 《计算机系统应用》 2025年第10期229-237,共9页
在当前互联网信息多元分布的背景下,单文档信息抽取的传统范式已难以满足用户对事件全局认知的需求.针对多源文本数据中信息冗余与观点碎片化的问题,本文提出基于过滤机制的多维度文本摘要生成模型(FMMDSG),该框架通过3阶段创新架构实... 在当前互联网信息多元分布的背景下,单文档信息抽取的传统范式已难以满足用户对事件全局认知的需求.针对多源文本数据中信息冗余与观点碎片化的问题,本文提出基于过滤机制的多维度文本摘要生成模型(FMMDSG),该框架通过3阶段创新架构实现跨源信息的结构化融合,首先采用微调RoBERTa模型构建层次化语义表征,捕获输入文本的上下文依赖.其次,设计双层过滤机制,同步执行基于注意力权重的显著性检测与领域自适应的冗余抑制,筛选出信息密度优化的语义单元.最后,构建知识增强的ERNIE解码器,通过动态门控策略实现多层级语义特征的协同生成.在CSL数据集上的实验表明,该模型ROUGE-1/2/L的F值分别达到55.37%、47.28%和49.56%, ROUGE-L较经典基线模型提升6.8个百分点.消融实验进一步验证,过滤机制通过噪声抑制带来9.22%的ROUGE-1性能增益.该模型实现了对异构来源证据的系统性整合,能够在开放域场景下重构多视角观测的完整事件范式. 展开更多
关键词 文本生成 信息抽取 过滤机制 多维度文本 知识增强
在线阅读 下载PDF
基于全局滤波器和视觉置换器的多语种古籍文本行分割
19
作者 赵晶莹 高月 +1 位作者 朱大伟 郭海 《广西民族大学学报(自然科学版)》 2025年第3期71-78,共8页
针对文档图像文本行分割方法在处理书写方式多样的多语种古籍时效果不佳的问题,提出一种基于全局滤波器和视觉置换器的多语种古籍文档图像的文本行切分方法(Global Filter and Vision Permutator based U-Net,GVUnet)。构建一个多语种... 针对文档图像文本行分割方法在处理书写方式多样的多语种古籍时效果不佳的问题,提出一种基于全局滤波器和视觉置换器的多语种古籍文档图像的文本行切分方法(Global Filter and Vision Permutator based U-Net,GVUnet)。构建一个多语种古籍文档图像文本行分割数据集,包含汉字、古布依文、满文这3个类别,每个类别各50张图像,共150张。GVUnet利用全局滤波器和视觉置换器在提取全局信息的同时,关注文本行位置信息,对古籍文档进行有效分割。实验结果表明,该文提出的文本行分割方法在新构建的数据集上mIoU(mean intersection over union,mIoU)得分达到92.78%,可以有效处理排版方式不同的汉字、古布依文、满文古籍文档。 展开更多
关键词 古籍数字化 文本行分割 全局滤波器
在线阅读 下载PDF
基于Tesseract-O的抽水蓄能电站工程项目电子档案管理数字化研究
20
作者 范纪琨 王艳 +2 位作者 钱向清 周保宗 刘芳 《自动化技术与应用》 2025年第6期61-66,共6页
针对抽水蓄能电站工程项目中,传统的纸质档案管理方式效率低下,易丢失、难查找等问题,研究系统将数据采集、图像预处理、文字识别等多个核心模块集成在一个统一的框架中,设计一种新的基于Tesseract-O的抽水蓄能电站工程项目电子档案数... 针对抽水蓄能电站工程项目中,传统的纸质档案管理方式效率低下,易丢失、难查找等问题,研究系统将数据采集、图像预处理、文字识别等多个核心模块集成在一个统一的框架中,设计一种新的基于Tesseract-O的抽水蓄能电站工程项目电子档案数字化管理系统。实验结果表明,该系统的识别准确率为81.2%,成本效益得分为63.4,易用性得分为85.9。综合来看,所提系统在提升档案管理效率、降低丢失风险、增强信息检索便捷性等方面展现出了显著优势。 展开更多
关键词 文字识别 管理系统 双边滤波器
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部