期刊文献+
共找到1,225篇文章
< 1 2 62 >
每页显示 20 50 100
多智能体驱动的虚拟学生模拟助力教师答疑能力提升
1
作者 孙建文 冯锦天 万仟 《华中师范大学学报(自然科学版)》 北大核心 2025年第5期721-729,共9页
随着大模型等生成式人工智能技术的快速发展,其在教育领域的应用不断拓展,为教师专业发展带来了新的机遇.答疑能力作为教师教学过程中的关键技能,在高度抽象化和逻辑化的数理学科教学中尤为重要.然而,当前教师教育中缺乏贴近真实、可反... 随着大模型等生成式人工智能技术的快速发展,其在教育领域的应用不断拓展,为教师专业发展带来了新的机遇.答疑能力作为教师教学过程中的关键技能,在高度抽象化和逻辑化的数理学科教学中尤为重要.然而,当前教师教育中缺乏贴近真实、可反复练习的答疑训练手段,限制了教师实践能力的提升.基于此背景,本文提出学生模拟引擎(student simulation engine,SSE),由大模型驱动的多智能体协作构成.该系统基于IDEAL问题解决理论,将学生的答题过程拆解为读题、思考、解题和检查四个子步骤,通过动态建模学生状态,并在各阶段引入类人错误,以实现不同能力水平学生的真实模拟.SSE包括控制模块与执行模块,前者负责推理学生状态与规划错误策略,后者逐阶段执行任务并生成自然对话.在公开数学数据集GSM8K上的实验表明,SSE能够生成具有人类学生特征的互动过程,并显著提升教师的答疑训练体验.本研究为教师答疑能力提升提供了新的训练场景,同时为大模型赋能教师教育提供了实践路径. 展开更多
关键词 教师教育 答疑能力 学生模拟 大模型 智能体
在线阅读 下载PDF
基于TILT、DBNet与CRNN的图书封面文字识别算法
2
作者 秦燕 《图书情报导刊》 2025年第5期27-34,共8页
从图书封面自动识别文字是获取元数据的关键,但书籍摆放角度、复杂设计及光照条件显著影响识别精度。为此,提出多阶段协同的级联框架,融合DBNet检测网络、改进的TILT姿态矫正算法与CRNN序列模型,构建“检测—矫正—再检测”闭环流程。... 从图书封面自动识别文字是获取元数据的关键,但书籍摆放角度、复杂设计及光照条件显著影响识别精度。为此,提出多阶段协同的级联框架,融合DBNet检测网络、改进的TILT姿态矫正算法与CRNN序列模型,构建“检测—矫正—再检测”闭环流程。首先通过DBNet初步定位文字区域,随后采用局部低秩优化的TILT算法对所有文字区域进行一次性几何校正,再通过DBNet二次检测精确定位文字位置,最终结合CRNN实现多语言混合文本的高效识别。双重检测机制抑制误差传播,局部低秩优化避免全局矫正对背景的敏感性,在常规与倾斜场景下均提升识别鲁棒性。实验表明,较传统OCR及主流深度学习模型,该方法在复杂图书封面场景中准确性与适应性更优,为图书馆数字化管理的文字信息提取提供有效技术路径。 展开更多
关键词 深度学习 光学字符识别 神经网络 图书馆自动化 图书元数据管理
在线阅读 下载PDF
基于语义特征提取的隐式情感分析方法 被引量:1
3
作者 丛眸 彭涛 朱蓓蓓 《吉林大学学报(理学版)》 北大核心 2025年第1期107-113,共7页
针对目前隐式情感语句中情感词不明显或较少、表达方式委婉等问题,提出一种基于语义特征提取的隐式情感分析方法.该方法通过引入与隐式情感语句相关的事实信息作为辅助特征,并利用RoBERTa预训练模型对文本及其辅助特征进行深度语义交互... 针对目前隐式情感语句中情感词不明显或较少、表达方式委婉等问题,提出一种基于语义特征提取的隐式情感分析方法.该方法通过引入与隐式情感语句相关的事实信息作为辅助特征,并利用RoBERTa预训练模型对文本及其辅助特征进行深度语义交互,以获取全局特征;同时,采用双向门控循环单元(BiGRU)捕捉局部特征,最后结合注意力池化技术计算情感权重,从而更准确地识别和理解隐含的情感信息.在数据集Snopes和PolitiFact上进行仿真实验,实验结果表明,该方法在隐式情感分析方面性能优异,不仅在多个评价指标上超越了现有方法,且整体性能得到显著提升,为更广泛的情感分析应用场景提供了有效的解决方案,特别是在处理复杂和间接表达的情感内容时,具有重要的应用价值和意义. 展开更多
关键词 语义特征 隐式情感分析 双向门控循环单元 注意力池化
在线阅读 下载PDF
文本问答中基于双向叠加注意力的证据区间预测
4
作者 吐尔地·托合提 罗长虹 艾斯卡尔·艾木都拉 《计算机工程与科学》 北大核心 2025年第8期1470-1482,共13页
文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉... 文本问答通常仅依靠文本与问题的单向匹配关系来定位证据区间并作答,在面临远端干扰及多处答案词等语义困难时难以捕捉精短证据区间。针对此问题,提出一种基于双向叠加注意力机制的证据区间预测模型ESP-BSA。首先,将问题与文本进行交叉匹配来丰富隐式交互的文本语义;其次,根据证据分布互异性设计软证据标签对来表示前向和后向证据得分;最后,对序列中每个位置的证据得分双向叠加以获得更符合上下文语境要求的证据区间。实验结果表明,所提方法在Span-F1,Span-EM等评价指标上较基线模型有所提升,证实了其在复杂语境中能够有效提高证据区间预测精确度和问答准确性。 展开更多
关键词 文本问答 证据区间 注意力机制 双向叠加 软证据标签
在线阅读 下载PDF
融合多特征的藏语方言自动辨识方法
5
作者 尕藏才让 高定国 仁青东主 《计算机工程与科学》 北大核心 2025年第6期1114-1120,共7页
藏语方言众多,内部差异显著,因此藏语方言自动辨识研究在语言学、语音信息处理和刑事侦查与公共安全等领域均具有重要价值。目前,藏语方言辨识的常用方法依赖于各种声学特征和基于大数据的深度学习模型。然而,传统声学特征不能充分表示... 藏语方言众多,内部差异显著,因此藏语方言自动辨识研究在语言学、语音信息处理和刑事侦查与公共安全等领域均具有重要价值。目前,藏语方言辨识的常用方法依赖于各种声学特征和基于大数据的深度学习模型。然而,传统声学特征不能充分表示藏语各方言之间的细微差别,深度学习在小规模数据集上难以实现高精度的方言识别。为解决这一问题,提出了一种融合多种特征的藏语方言自动辨识方法。该方法结合梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)以及包含清浊音信息的短时能量(STE)值,形成一个多信息融合的方言辨识特征,采用双向长短期记忆(Bi-LSTM)网络对卫藏、安多和康巴等主要藏语方言进行了识别。实验结果表明,提出的多特征融合方法相对于采用单一特征的MFCC,GFCC和STE方法分别提高了10.73%、10.78%和59.48%的辩识准确率,最终达到94.89%的辨识准确率,有效地验证了所提方法的有效性和实用性。 展开更多
关键词 多特征融合 藏语方言 自动辨识
在线阅读 下载PDF
基于知识图谱中多维元路径的科技文档查询扩展
6
作者 徐建民 仝思梦 张国防 《计算机工程与科学》 北大核心 2025年第8期1493-1502,共10页
针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档... 针对现有科技文档的查询扩展方法存在文档信息利用不充分、文档间关联关系未能有效利用等方面的局限性,提出一种基于知识图谱中多维元路径的科技文档查询扩展方法。首先,对伪相关反馈文档集进行处理得到候选扩展词集;其次,在对科技文档知识图谱进行分析的基础上,寻找合适的元路径表示用户查询与候选扩展词的关联关系,并基于节点间不同的元路径关联计算用户查询与候选扩展词之间的多维语义相关度;最后,融合多维语义相关度以及候选扩展词在伪相关反馈文档集中的权重选择最终扩展词,实现对用户查询的扩展。实验结果显示,与已有的查询扩展方法相比,基于知识图谱中多维元路径的科技文档查询扩展方法在mAP,DCG和NDCG上分别至少提升了9.21%,10%和11.7%。 展开更多
关键词 知识图谱 查询扩展 多维元路径 科技文档 信息检索
在线阅读 下载PDF
一种基于改进加权LDA模型的敏感词识别模型
7
作者 曾玲 林天余 +2 位作者 何秋霞 陈莹 胡娟娟 《兵工自动化》 北大核心 2025年第6期28-32,共5页
针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗... 针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗粒度文本分类;通过加权模型,提高共现频率低但敏感特征明显的词的分布权重,从而可以发现更多具有低频隐式关系的词;以主流新闻网站爬取的数据为例,对所提模型进行验证。结果表明:该模型可识别和提取每个类别的文本更详细的敏感信息主题,该模型有效且准确。 展开更多
关键词 主题识别 敏感词 自然语言处理 潜在狄利克雷分配
在线阅读 下载PDF
低资源场景下的汉语—传统蒙古语跨语言摘要方法研究
8
作者 班琪 云静 邓磊 《计算机工程与科学》 北大核心 2025年第5期931-939,共9页
跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言... 跨语言摘要任务旨在给定一种语言的源文档(如中文)生成目标语言(如传统蒙古文)的摘要。传统的多任务框架通常采用序列到序列的网络,应用多个专用于各特定任务的解码器。然而,在将文档从一种语言提炼为另一种具有不同形态和结构特性语言的摘要时,多任务框架无法有效捕捉和理解2种语言之间的关系和差异。特别是对于传统蒙古语,其形态变化繁杂、构词形式多样的特点,使得低资源下语言特征的学习和处理变得更加困难。为了解决这一问题,提出一种在多任务框架中引入一致性学习的跨语言摘要模型。通过计算源语言摘要和生成的目标语言摘要之间概率分布差异的距离度量进行一致性建模,在交叉熵损失和一致性损失的约束下优化跨语言摘要模型。此外,构建了一个中—蒙跨语言摘要数据集,在此数据集上获得了有竞争力的ROUGE分数,表明了所提模型在资源匮乏情况下的有效性。 展开更多
关键词 中—蒙跨语言摘要 一致性学习 低资源
在线阅读 下载PDF
手写体数字识别技术的研究 被引量:34
9
作者 柳回春 马树元 +1 位作者 吴平东 李晓梅 《计算机工程》 CAS CSCD 北大核心 2003年第4期24-25,61,共3页
手写体数字识别特征提取方面,有模板匹配,统计特征和结构特征,在分类器设计上有基于距离的分类器和神经网络分类器等。分析和评价了这些问题后,指出今后的研究方向应在特征综合、分类器集成以及新的分类器的研究上。
关键词 手写体数字识别 手写字符识别 信息处理 神经网络 特征提取 分类器 支持向量机
在线阅读 下载PDF
中文金融新闻中公司名的识别 被引量:55
10
作者 王宁 葛瑞芳 +2 位作者 苑春法 黄锦辉 李文捷 《中文信息学报》 CSCD 北大核心 2002年第2期1-6,共6页
在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别... 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。 展开更多
关键词 公司名 金融领域 专名识别 信息抽取 金融新闻 中文识别 识别策略
在线阅读 下载PDF
基于统计方法的中文姓名识别 被引量:34
11
作者 黄德根 杨元生 +2 位作者 王省 张艳丽 钟万勰 《中文信息学报》 CSCD 北大核心 2001年第2期31-37,44,共8页
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式... 专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式精确率和召回率分别达 95 .97%和 95 .5 2 % ,开式精确率和召回率分别达 92 .37%和 88.6 2 % 展开更多
关键词 双词同现频度 单词频度 学习机制 中文姓名识别 自动分词 统计模型 召回率 可信度
在线阅读 下载PDF
基于分解与动态规划策略的汉语未登录词识别 被引量:43
12
作者 吕雅娟 赵铁军 +2 位作者 杨沐昀 于浩 李生 《中文信息学报》 CSCD 北大核心 2001年第1期28-33,共6页
:未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过... :未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试 。 展开更多
关键词 未登录词识别 分解处理 动态规划 汉语自动分词 路径搜索 整体识别
在线阅读 下载PDF
基于SVM和纹理的笔迹鉴别方法 被引量:32
13
作者 刘宏 李锦涛 +1 位作者 崔国勤 唐胜 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2003年第12期1479-1484,共6页
针对与书写内容无关的笔迹 ,提出利用快速Gabor小波提取笔迹图像的整体纹理特征、用支持向量机(SVM)进行训练和识别的方法 SVM是解决两类问题的算法 ,而笔迹鉴别是一个多类问题 ,通过“一对多”的方法将多类问题转化为两类问题 在 87人... 针对与书写内容无关的笔迹 ,提出利用快速Gabor小波提取笔迹图像的整体纹理特征、用支持向量机(SVM)进行训练和识别的方法 SVM是解决两类问题的算法 ,而笔迹鉴别是一个多类问题 ,通过“一对多”的方法将多类问题转化为两类问题 在 87人笔迹库上的实验结果表明 。 展开更多
关键词 笔迹鉴别 SVM 纹理 生物识别 计算机 文字识别
在线阅读 下载PDF
提高汉语自动分词精度的多步处理策略 被引量:30
14
作者 赵铁军 吕雅娟 +2 位作者 于浩 杨沐昀 刘芳 《中文信息学报》 CSCD 北大核心 2001年第1期13-18,共6页
:汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子... :汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 展开更多
关键词 汉语自动分词 多步处理 消除伪岐义 句子全切金 部分确定性切分 数词串处理 重叠词处理
在线阅读 下载PDF
一种改进的LDA主题模型 被引量:48
15
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 LDA Dirichlet分布 加权主题模型
在线阅读 下载PDF
基于有向单连通链的表格框线检测算法 被引量:25
16
作者 郑冶枫 刘长松 +1 位作者 丁晓青 潘世言 《软件学报》 EI CSCD 北大核心 2002年第4期790-796,共7页
表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息提出了一种基于所定义的图像结构基元“有向单连通链”的自底向上表格框线检测算法.在此算法中,有向单连通链是... 表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息提出了一种基于所定义的图像结构基元“有向单连通链”的自底向上表格框线检测算法.在此算法中,有向单连通链是一种黑像素游程序列,作为非常合适的矢量基元,在引入一定表格框线约束信息的条件下合并单连通链,有效地去除伪框线,补全断裂的框线,提高了算法的鲁棒性,可以准确而快速地提取表格框线.通过滤除噪声单连通链,加快单连通链的合并速度,算法速度提高了3~10倍,满足了实用要求、实验证明,该算法具有速度较快、鲁棒性高、抗任意角度的倾斜、抗断裂等优点. 展开更多
关键词 表格识别 图像分析 光学字符识别 智能文档处理 表格框线检测算法 有向单连通链
在线阅读 下载PDF
印刷体现代藏文识别研究 被引量:24
17
作者 王维兰 丁晓青 +1 位作者 陈力 王华 《计算机工程》 CAS CSCD 北大核心 2003年第3期37-38,94,共3页
以印刷体现代藏文白体、黑体、圆体、长体、竹体为字体样张,通过预处理、文 本行字切分、特征选择和分类识别的初步研究,获得对5种字体文本的平均识别率为89.582 % ,对其他字体的文本平均识别率为93.867%。
关键词 印刷体藏文 预处理 特征选择 分类识别 模式识别 藏文识别
在线阅读 下载PDF
一种组合特征抽取的新方法 被引量:25
18
作者 杨健 杨静宇 +1 位作者 王正群 郭丽 《计算机学报》 EI CSCD 北大核心 2002年第6期570-575,共6页
该文提出了一种基于特征级融合的特征抽取新方法 .首先 ,给出了一种合理的特征融合策略 ,即利用复向量给出组合特征的表示 ,将特征空间从实向量空间拓广到复向量空间 .然后 ,发展了具有统计不相关性的鉴别分析的理论 ,并将其用于复向量... 该文提出了一种基于特征级融合的特征抽取新方法 .首先 ,给出了一种合理的特征融合策略 ,即利用复向量给出组合特征的表示 ,将特征空间从实向量空间拓广到复向量空间 .然后 ,发展了具有统计不相关性的鉴别分析的理论 ,并将其用于复向量空间内最优鉴别特征的抽取 .最后 ,在 Concordia大学的 CENPARMI手写体阿拉伯数字数据库以及南京理工大学 NUST6 0 3HW手写汉字库上的试验结果表明 ,所提出的组合特征抽取方法不仅具有很强的维数压缩能力 。 展开更多
关键词 组合特征抽取 特征融合 线性鉴别分析 手写体字符识别 计算机
在线阅读 下载PDF
一种新的基于统计的自动文本分类方法 被引量:48
19
作者 刘斌 黄铁军 +1 位作者 程军 高文 《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上... 自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。 展开更多
关键词 统计 自动文本分类 多层次特征提取 距离加权KNN算法 样本重要性分析 汉字识别
在线阅读 下载PDF
一种新的文本图像二值化方法 被引量:19
20
作者 方敏 徐俊艳 +1 位作者 王建平 刘泓 《合肥工业大学学报(自然科学版)》 CAS CSCD 2001年第2期166-169,共4页
文章针对常用文本二值化方法 Ostu算法与 Bernsen算法所存在的缺点 ,在图像局部特性基础上 ,结合图像的整体特性提出了一种整体与局部相结合的图像二值化算法 ,该算法对由于光线不均等噪声影响的图像具有良好的适应性。
关键词 二值化 局部阈值 整体阈值 光学学符 Ostn算法 Bersen算法 文本图像
在线阅读 下载PDF
上一页 1 2 62 下一页 到第
使用帮助 返回顶部