期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于公众体验感知的大连市王家岛旅游研究 被引量:1
1
作者 温增凤 杨翠霞 闫钰昊 《绿色科技》 2025年第5期188-192,共5页
探求岛屿旅游的公众体验感知,有助于明确沿海岛屿旅游发展的优化方向。以大连市王家岛为研究对象,运用ROST-CM6软件技术,对携程、抖音等平台的评价数据进行体验感知分析,利用高频词构建其体验感知评价指标,并结合问卷调查与IPA四象限图... 探求岛屿旅游的公众体验感知,有助于明确沿海岛屿旅游发展的优化方向。以大连市王家岛为研究对象,运用ROST-CM6软件技术,对携程、抖音等平台的评价数据进行体验感知分析,利用高频词构建其体验感知评价指标,并结合问卷调查与IPA四象限图分析对其重要性和满意度情况进行实证研究。结果表明,公众对王家岛体验感知良好,其中“海王”“景色”“海水”等为高频词汇。公众积极情绪占比达80%,主要为特色海洋景观与游憩项目;但在设施服务层面存在交通不便、餐饮性价比低及设施不完善等问题。构建公众体验感知评价指标体系显示,区位环境与食宿服务重要性高,自然景观与项目体验满意度高,IPA明确交通设施与食宿服务亟待改进。在此基础上,从优化岛上环海观光线路、提升餐饮住宿品质、提质海岛公共设施等层面提出针对性的改进策略,为王家岛旅游发展和乡村振兴提供参考。 展开更多
关键词 岛屿旅游 公众体验感知 网络文本分析 重要性-满意度 王家岛
在线阅读 下载PDF
传注的文体特性与焦循“文莫重于注经”说
2
作者 伏煦 《浙江大学学报(人文社会科学版)》 北大核心 2025年第1期148-160,共13页
以传注为代表的解经类文体被纳入文学畛域,始于《经史百家杂钞》等兼选四部之文的总集将《周易》“十翼”作为序跋体选入,近人王葆心、高步瀛则进一步将传注与论辨、序跋等文类并列,归入“著述门”或“论议门”,使之获得了相对独立的地... 以传注为代表的解经类文体被纳入文学畛域,始于《经史百家杂钞》等兼选四部之文的总集将《周易》“十翼”作为序跋体选入,近人王葆心、高步瀛则进一步将传注与论辨、序跋等文类并列,归入“著述门”或“论议门”,使之获得了相对独立的地位。从文体源流和表达方式上看,传注发挥经文义理和相对独立于经文成篇的属性,与序体述作者之意,作为“副文本”独立于著作本身有着相通之处。传注还包括附经而行的注以及唐宋以降文集中的说经之文,在乾嘉考据学的背景下,焦循提出“文莫重于注经”之说,强调说经之文在“意”与“事”两方面达到“精而兼实”的理想境界,不仅从理论上确立说经之文的文学价值,而且促使传注在结合义理与考据之学的基础上兼备辞章之学的意义。 展开更多
关键词 解经类文体 传注 序体 “文莫重于注经”
原文传递
签字会计师任期对关键审计事项文本相似度的影响研究
3
作者 鲁清仿 邵彦彦 《管理评论》 北大核心 2025年第9期198-207,共10页
以2017—2022年中国A股上市公司为样本,考察了上市公司审计报告签字会计师任期对关键审计事项文本相似度的影响。研究发现,签字会计师在同一上市公司连续签署审计报告时间越长,关键审计事项段的文本相似度越高,关键审计事项提供的增量... 以2017—2022年中国A股上市公司为样本,考察了上市公司审计报告签字会计师任期对关键审计事项文本相似度的影响。研究发现,签字会计师在同一上市公司连续签署审计报告时间越长,关键审计事项段的文本相似度越高,关键审计事项提供的增量信息越少,且审计客户重要性程度进一步强化关键审计事项的文本相似度,从而导致审计报告再次被同质化。进一步分析发现,在分组检验中,签字会计师任期对治理薄弱的公司关键审计事项文本相似度的影响更为显著。本研究结论拓展了关键审计事项披露影响因素的研究,为进一步完善上市公司信息披露、改进签字会计师轮换制度和优化关键审计事项披露提供了经验参考。 展开更多
关键词 签字会计师任期 关键审计事项 关键审计事项文本相似度 客户重要性程度
原文传递
贸易文本深度、合作政策与中国农产品进出口
4
作者 梁伟 刘志鹏 《对外经贸实务》 2025年第4期27-35,共9页
本文探讨贸易文本深度与合作政策对农产品进出口的影响及其机制。研究结果显示,贸易文本深度与农产品进出口总额之间存在显著正相关关系,且WTO规则外的条款对农产品进出口的推动作用更为突出。《区域全面经济伙伴关系协定》(RCEP)与中... 本文探讨贸易文本深度与合作政策对农产品进出口的影响及其机制。研究结果显示,贸易文本深度与农产品进出口总额之间存在显著正相关关系,且WTO规则外的条款对农产品进出口的推动作用更为突出。《区域全面经济伙伴关系协定》(RCEP)与中国—东盟自贸区的建立显著促进了农产品进出口,并且随着贸易文本深度的增加,其正面效应愈发显著。涉农支出与涉农贷款的增加是贸易文本深度影响农产品进出口的重要作用路径。本文剖析了自贸协定条款与合作政策在农产品贸易中的交互作用机制,对优化协定条款执行及制定针对性的区域农业政策具有一定指导意义。 展开更多
关键词 贸易文本 中国农产品贸易 RCEP 中国—东盟自贸区
在线阅读 下载PDF
基于网络文本与IPA分析的太姥山旅游形象游客感知与官方传播对比分析 被引量:1
5
作者 施婷婷 欧阳欢 +2 位作者 王帅 高菁菁 杨立娟 《武夷学院学报》 2024年第5期39-46,共8页
互联网时代,大数据已成为获取和传播旅游形象的重要工具,大量网络文本为研究旅游形象提供了全面且科学的数据。研究旅游形象对于提高旅游经济质量及旅游服务品质,构建更为完善的旅游服务体系具有重要意义。以太姥山为研究区,以游客在线... 互联网时代,大数据已成为获取和传播旅游形象的重要工具,大量网络文本为研究旅游形象提供了全面且科学的数据。研究旅游形象对于提高旅游经济质量及旅游服务品质,构建更为完善的旅游服务体系具有重要意义。以太姥山为研究区,以游客在线评论和网络游记以及官方传播文本为样本,利用ROST Content Mining软件进行文本分析,对比研究太姥山游客感知形象与官方传播形象。在此基础上,构建IPA模型,划分供给过度区、重点改进区等象限。研究表明:太姥山的旅游形象包括旅游吸引物、旅游环境与氛围、旅游设施与服务、历史与文化等4个主题。官方与游客对于太姥山的情感评价皆以中性评价为主,其次为积极评价,最后为消极评价。官方对于太姥山的整体形象评价较为全面,但游客对太姥山的整体形象评价则是凝聚于旅游资源。太姥山的官方营销投射现阶段可以划分为供给过度区、重点改进区两个区域。研究结果可为太姥山旅游可持续发展提供对策建议。 展开更多
关键词 旅游形象 网络文本 IPA分析法 太姥山
在线阅读 下载PDF
基于网络文本的禹州城市公园居民景观感知研究 被引量:2
6
作者 杨颜冰 杨翠霞 孙俊伟 《绿色科技》 2024年第13期39-42,50,共5页
公园绿地已成为提升城市环境品质的重要载体之一。公众对公园游憩的多样性、体验性、参与性、专业性等品质的需求也越来越高。采用网络文本分析方法,以“携程”“高德地图”等8个APP上的网络文本数据作为样本,以居民景观感知为基础,从... 公园绿地已成为提升城市环境品质的重要载体之一。公众对公园游憩的多样性、体验性、参与性、专业性等品质的需求也越来越高。采用网络文本分析方法,以“携程”“高德地图”等8个APP上的网络文本数据作为样本,以居民景观感知为基础,从交通路线环境、场地空间性、植物友好性、设施包容性、管理服务性5个方面构建城市公园景观感知评价体系,探讨居民在公园感知体验活动中的满意度和重要性等。结果表明:“景色”“公园”“优美”为出现频次最高词汇,设施包容性是满意度相对较高的,标识系统的引导性是重要性相对较高的;根据重要性与满意度的综合评价,运用IPA四象限图得出公园改进的优先区域,即优势区、现象维持区、次要改进区和亟待改进区;并从优化休憩座椅、丰富多样体验活动、完善智能标识引导等方面对亟待改进区的环境、空间和设施提出建议。 展开更多
关键词 城市公园 景观感知 网络文本 重要性-满意度
在线阅读 下载PDF
融入习近平关于科技创新重要论述的文本教学路径 被引量:2
7
作者 张正清 王娜 《自然辩证法研究》 CSSCI 北大核心 2024年第7期139-144,共6页
习近平关于科技创新重要论述是自然辩证法概论课程教学的重要内容,目前关于以文本为基础的创新教学语言研究、将科技创新重要论述中的科技精神融入课程的方法研究较少。为了将重要论述文本更好地融入到教学中,可以通过四条路径入手:以... 习近平关于科技创新重要论述是自然辩证法概论课程教学的重要内容,目前关于以文本为基础的创新教学语言研究、将科技创新重要论述中的科技精神融入课程的方法研究较少。为了将重要论述文本更好地融入到教学中,可以通过四条路径入手:以道理进,讲深、讲透、讲活重要论述;以方法进,以方法论选择引导学生树立正确的专业态度;以问题进,引导学生对重要论述形成完整理解、把握其现实指导意义;以规范进,凸显重要论述中的职业精神内涵与科技共同体规范。从而提高重要论述作为教学内容对于理工类学生的针对性,强化自然辩证法概论课程的价值引领作用。 展开更多
关键词 自然辩证法概论 习近平关于科技创新重要论述 文本教学
原文传递
基于文本挖掘的进口跨境电商服务质量研究 被引量:1
8
作者 宋春燕 《物流科技》 2024年第3期55-57,65,共4页
利用Python采集京东国际个护产品消费者的在线评论,通过文本特征分析得出“物流”、“效果”、“包装”等是影响进口跨境电商消费者满意度的关键要素。随后利用LDA主题聚类模型,结合困惑度和主题可视化,得到反映进口跨境电商服务质量的... 利用Python采集京东国际个护产品消费者的在线评论,通过文本特征分析得出“物流”、“效果”、“包装”等是影响进口跨境电商消费者满意度的关键要素。随后利用LDA主题聚类模型,结合困惑度和主题可视化,得到反映进口跨境电商服务质量的4类关键因素,包括物流效率、产品功效、感知价值和产品体验。基于此,提出改善进口跨境电商服务质量的策略。 展开更多
关键词 在线评论 进口跨境电商 服务质量 文本挖掘
在线阅读 下载PDF
读史与读文,孰轻孰重?——谈英语专业美国文学课教学 被引量:18
9
作者 陈立华 王娜 《外国文学研究》 北大核心 2003年第2期140-143,176,共5页
在英语系美国文学的教学中历来存在着两种倾向 ,一种主张以史为主 ,认为让学生了解文学史的发生、发展是文学课的宗旨 ,零散文本的阅读不利于学生对系统知识的掌握 ;另一种则认为文学贵在文本的分析和欣赏 ,提倡侧重具体的作品选读。笔... 在英语系美国文学的教学中历来存在着两种倾向 ,一种主张以史为主 ,认为让学生了解文学史的发生、发展是文学课的宗旨 ,零散文本的阅读不利于学生对系统知识的掌握 ;另一种则认为文学贵在文本的分析和欣赏 ,提倡侧重具体的作品选读。笔者认为由于美国文学有着极其独特的历史 ,只有将文学史的讲授与文学精品赏析结合起来 ,才能使学生从宏观上去了解和把握美国文学的经纬 ,从而使他们更加透彻地理解和欣赏每一部文学作品。 展开更多
关键词 美国文学教学 文学史 文学作品 并重
在线阅读 下载PDF
基于多因素的中文文本主题自动抽取方法 被引量:3
10
作者 刘金岭 谈芸 +1 位作者 李健普 袁娜 《计算机技术与发展》 2010年第7期72-75,79,共5页
提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位... 提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题。实验结果表明,该方法具有较高的抽准率。 展开更多
关键词 主题句 主题抽取 文本主题 重要词汇 语句权值
在线阅读 下载PDF
一种基于特征重要度的文本分类特征加权方法 被引量:25
11
作者 刘赫 刘大有 +1 位作者 裴志利 高滢 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1693-1703,共11页
针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表... 针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Nave Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值. 展开更多
关键词 文本分类 特征加权 特征重要度 粗糙集 决策表
在线阅读 下载PDF
基于组合深度学习模型的突发事件新闻识别与分类研究 被引量:16
12
作者 宋英华 吕龙 刘丹 《情报学报》 CSSCI CSCD 北大核心 2021年第2期145-151,共7页
针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征... 针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征词语与类别间关系;其次,考虑CNN(convolutional neural networks)模型学习局部空间特征信息的优势、LSTM(long short-term memory)模型学习时间序列特征信息的优势和MLP(multilayer perceptron)模型学习词语与类别间关系的优势,构建DCLSTM-MLP(deep convolution long short-term memory neural network with multilayer perceptron)深度学习组合模型;最后,爬取5477条具有词语间相互关系和词语与类别间相互关系的突发事件新闻文本,以及2815条普通新闻,通过实验对比分析组合模型性能。研究结果表明:第一级突发事件识别模型准确率、召回率和综合值均达到99.55%;第二级突发事件分类组合模型准确率达到94.82%,且准确率和召回率的综合值比MLP、Text-CNN、Text-LSTM、CNN-MLP和CLSTM(convolutional long short-term memory neural network)等5种模型分别提高了6.06%、2.36%、2.47%、1.14%和1.79%,该组合模型能够更为精确地实现新闻文本分类任务。 展开更多
关键词 深度学习 突发事件 文本分类 时空特征 重要度
在线阅读 下载PDF
群文阅读在语文课程教学中的应用刍论
13
作者 苟艳宁 《成才之路》 2024年第20期89-92,共4页
在语文阅读教学中,群文阅读不仅有助于激发学生的阅读兴趣,培养学生的阅读习惯,提高学生的阅读能力,还有助于拓宽学生的视野和知识面,促进学生的思考和表达,提升学生的综合素养。在语文群文阅读教学中,教师可基于基础目标、重要目标、... 在语文阅读教学中,群文阅读不仅有助于激发学生的阅读兴趣,培养学生的阅读习惯,提高学生的阅读能力,还有助于拓宽学生的视野和知识面,促进学生的思考和表达,提升学生的综合素养。在语文群文阅读教学中,教师可基于基础目标、重要目标、高阶目标、最终目标,科学组合群文,采取针对性的教学方法,积极提升群文阅读指导的科学性和有效性,帮助学生掌握群文阅读方法,提升阅读理解能力与思维能力。 展开更多
关键词 小学语文 群文阅读 基础目标 重要目标 高阶目标 最终目标 群文组合
在线阅读 下载PDF
中国共产党关于维护人民健康创新理论成果的文本研究 被引量:1
14
作者 潘莉 柴红 《重庆交通大学学报(社会科学版)》 2021年第3期18-24,共7页
采用文本挖掘方法,对习近平总书记关于人民健康系列讲话词频的研究,是厘清其逻辑架构的新路径。研究表明:坚持以人民为中心、以健康为指向的发展理念是逻辑主线;以大健康观统筹推进健康中国战略规划;聚焦重点和重大问题解决;推动中西医... 采用文本挖掘方法,对习近平总书记关于人民健康系列讲话词频的研究,是厘清其逻辑架构的新路径。研究表明:坚持以人民为中心、以健康为指向的发展理念是逻辑主线;以大健康观统筹推进健康中国战略规划;聚焦重点和重大问题解决;推动中西医协同发展;关心爱护医卫工作人员;以人类命运共同体理念参与全球健康治理。 展开更多
关键词 习近平 人民健康 重要论述 文本研究
在线阅读 下载PDF
生态翻译学视角下的城市旅游形象提升 被引量:2
15
作者 陶潇婷 《长沙大学学报》 2014年第6期105-107,共3页
从目的地形象策划体系出发,认定对城市旅游形象有着显著影响力的文本典型要件,对城市旅游形象研究十分必要。以生态整体主义视角综观,将"翻译群落"、翻译生态环境和翻译伦理应用于景介文本和以旅游事件志愿者宣言为代表的文... 从目的地形象策划体系出发,认定对城市旅游形象有着显著影响力的文本典型要件,对城市旅游形象研究十分必要。以生态整体主义视角综观,将"翻译群落"、翻译生态环境和翻译伦理应用于景介文本和以旅游事件志愿者宣言为代表的文本典型要件的英译,有利于提升城市旅游形象。 展开更多
关键词 城市旅游形象 生态翻译学 文本典型要件
在线阅读 下载PDF
试论《新视野大学英语》(读写教程)中篇章结构分析的重要性
16
作者 盛凡 《邵阳学院学报(社会科学版)》 2005年第2期147-148,共2页
文章结合大学英语教学实践,从篇章结构分析的特点、方法角度,探讨了《新视野大学英语》(读写教程)教材中篇章结构分析的重要性,指出篇章结构分析不仅能帮助提高学生对教材的理解能力和一定的写作能力,而且还有助于活跃课堂学习气氛,调... 文章结合大学英语教学实践,从篇章结构分析的特点、方法角度,探讨了《新视野大学英语》(读写教程)教材中篇章结构分析的重要性,指出篇章结构分析不仅能帮助提高学生对教材的理解能力和一定的写作能力,而且还有助于活跃课堂学习气氛,调动学生学习的积极性。 展开更多
关键词 新视野大学英语 篇章结构分析 精读 重要性
在线阅读 下载PDF
深圳市不同类型公园服务评价及提升策略 被引量:19
17
作者 刘娟 殷豪 +3 位作者 曹可心 胡诗旸 欧阳底梅 陈义勇 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2021年第4期433-440,共8页
为使城市公园服务贴合公众实际需求,采用社交媒体公园点评文本数据,基于网络文本分析与重要性-满意度分析(importance performance analysis,IPA)方法,研究公众对不同类型公园服务感知及需求差异,探索公园质量提升对策.获取大众点评网... 为使城市公园服务贴合公众实际需求,采用社交媒体公园点评文本数据,基于网络文本分析与重要性-满意度分析(importance performance analysis,IPA)方法,研究公众对不同类型公园服务感知及需求差异,探索公园质量提升对策.获取大众点评网络平台上公众对深圳市主要公园的1.5万条共计160万字的点评文本,通过高频词分析建立公园服务评价指标体系.将文本中涉及的公园服务质量的感知要素按照指标体系编码,并以要素出现的频率为重要性,要素评分的均值为满意度,构建不同类型公园的服务质量评价IPA模型.结果表明,深圳的公园在总体环境景观及硬件设施、安全、休憩设施和咨询服务等方面,公众关注度和满意度高;在配套服务设施与商业和文化等增值管理服务方面,公众仍有较高期待.针对不同类型和不同年代建成的公园,结合公众服务感知及需求差异,从配套基础设施和管理服务等方面提出了针对性的提升策略. 展开更多
关键词 城市规划 城市公园 服务质量评价 网络文本分析 重要性-满意度分析 服务需求
在线阅读 下载PDF
卷积神经网络特征重要性分析及增强特征选择模型 被引量:35
18
作者 卢泓宇 张敏 +1 位作者 刘奕群 马少平 《软件学报》 EI CSCD 北大核心 2017年第11期2879-2890,共12页
卷积神经网络等深度神经网络凭借着其强大的表达能力、突出的分类性能,已在不同领域内得到了广泛应用.当面对高维特征时,深度神经网络通常被认为具有较好的鲁棒性,能够隐含地对特征进行选择,但由于网络参数巨大,如果数据量达不到足够的... 卷积神经网络等深度神经网络凭借着其强大的表达能力、突出的分类性能,已在不同领域内得到了广泛应用.当面对高维特征时,深度神经网络通常被认为具有较好的鲁棒性,能够隐含地对特征进行选择,但由于网络参数巨大,如果数据量达不到足够的规模,则会导致学习不充分,因而可能无法达到最优的特征选择.而神经网络的黑箱特性使得无法观测神经网络选择了哪些特征,也无法评估其特征选择的能力.为此,以卷积神经网络为例,首先研究如何显式地表达神经网络中的特征重要性,提出了基于感受野的特征贡献度分析方法;其次,将神经网络特征选择与传统特征评价方法进行对比分析发现,在非海量样本的情况下,传统特征评价方法对高重要性特征和噪声特征的识别能力反而能够超过神经网络.因此,进一步地提出了卷积神经网络增强特征选择模型,将传统特征评价方法对特征重要性的理解结合到神经网络的学习过程中,以辅助深度神经网络进行特征选择.在基于文本的社交媒体用户属性建模任务下进行了对比实验,结果验证了该模型的有效性. 展开更多
关键词 卷积神经网络 特征重要性分析 特征选择 文本分类
在线阅读 下载PDF
《类要》地理部分文献再考索
19
作者 唐雯 《唐宋历史评论》 2020年第1期107-125,225,共20页
北宋名臣晏殊所编类书《类要》中的地理部分在全书中自成体系,其编成时间居于《太平寰宇记》和《元丰九域志》之间,其是否来自某种现已亡佚的地理文献,是否能系统展示某一时段的地理沿革,是否反映了时人特别的地理观念?为解答这些问题,... 北宋名臣晏殊所编类书《类要》中的地理部分在全书中自成体系,其编成时间居于《太平寰宇记》和《元丰九域志》之间,其是否来自某种现已亡佚的地理文献,是否能系统展示某一时段的地理沿革,是否反映了时人特别的地理观念?为解答这些问题,本文从路、州、县三个层次重新考索了《类要》地理部分的年代断限,指出其年代断限在景德四年至天禧二年(1007-1018)之间,县一级反映的是景德四年至大中祥符五年(1007~1012)的状况,可能来自大中祥符三年(1010)成书的《祥符图经》,而州一级地名则可能据天禧三年(1019)成书的《十道图》做了统一。在此基础上,本文揭示了《类要》地理部分文献在一定程度上填补了《太平寰宇记》和《元丰九域志》之间的空白,并显示出某些我们未知的地理观念。 展开更多
关键词 《类要》 地理文献 地理观念
在线阅读 下载PDF
自然语言处理文本查重优化算法设计 被引量:12
20
作者 董星彤 陈士宏 陈淑鑫 《科学技术与工程》 北大核心 2022年第3期1091-1097,共7页
为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分... 为了探索高校学生实习时提交的实践报告文本存在着重复的问题,从高校教学管理部门收集到相关文本的分类数据,结合Jieba分词工具处理文本信息,利用Word2vec词向量转换技术,表现了自然语言精准的语义分析能力。考虑到主题词抽取、概率分布情况及时间复杂度三个方面,使用Python的OS库完成批处理去重、去停用词和去非中文词,运用重要采样思想优化LDA(latent dirichlet allocation),模型,提出了新的训练模型ISLDA(importance sampling latent dirichlet allocation)抽取主题词汇,并采用余弦相似度计算重复率。更好地实现了文本查重算法模型的优化,对比两个模型的主题词类别、各词汇分布概率,结果表明新训练模型优化了主题模型,提高了计算模型训练准确率及测试文本的查重能力,较理想地实现了文本查重分析设计方法。 展开更多
关键词 语义分析 查重模型 重要性采样 文本向量化 相似度计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部