期刊文献+
共找到203篇文章
< 1 2 11 >
每页显示 20 50 100
Smart Approaches to Efficient Text Mining for Categorizing Sexual Reproductive Health Short Messages into Key Themes
1
作者 Tobias Makai Mayumbo Nyirenda 《Open Journal of Applied Sciences》 2024年第2期511-532,共22页
To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved a... To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved access to information on various Sexual Reproductive Health topics through Short Messaging Service (SMS) messages. Over the years, the platform has accumulated millions of incoming and outgoing messages, which need to be categorized into key thematic areas for better tracking of sexual reproductive health knowledge gaps among young people. The current manual categorization process of these text messages is inefficient and time-consuming and this study aims to automate the process for improved analysis using text-mining techniques. Firstly, the study investigates the current text message categorization process and identifies a list of categories adopted by counselors over time which are then used to build and train a categorization model. Secondly, the study presents a proof of concept tool that automates the categorization of U-report messages into key thematic areas using the developed categorization model. Finally, it compares the performance and effectiveness of the developed proof of concept tool against the manual system. The study used a dataset comprising 206,625 text messages. The current process would take roughly 2.82 years to categorise this dataset whereas the trained SVM model would require only 6.4 minutes while achieving an accuracy of 70.4% demonstrating that the automated method is significantly faster, more scalable, and consistent when compared to the current manual categorization. These advantages make the SVM model a more efficient and effective tool for categorizing large unstructured text datasets. These results and the proof-of-concept tool developed demonstrate the potential for enhancing the efficiency and accuracy of message categorization on the Zambia U-report platform and other similar text messages-based platforms. 展开更多
关键词 Knowledge Discovery in text (KDT) Sexual Reproductive Health (SRH) text categorization text Classification text Extraction text mining Feature Extraction Automated Classification Process Performance Stemming and Lemmatization Natural Language Processing (NLP)
在线阅读 下载PDF
Enhancing disaster management effectiveness: An integrated analysis of key factors and practical strategies through Structural Equation Modeling (SEM)and scopus data text mining 被引量:2
2
作者 Samuel Mores Geddam C.A.Raj Kiran 《Geohazard Mechanics》 2024年第2期95-107,共13页
In the 21st century, the surge in natural and human-induced disasters necessitates robust disaster managementframeworks. This research addresses a critical gap, exploring dynamics in the successful implementation andp... In the 21st century, the surge in natural and human-induced disasters necessitates robust disaster managementframeworks. This research addresses a critical gap, exploring dynamics in the successful implementation andperformance monitoring of disaster management. Focusing on eleven key elements like Vulnerability and RiskAssessment, Training, Disaster Preparedness, Communication, and Community Resilience, the study utilizesScopus Database for secondary data, employing Text Mining and MS-Excel for analysis and data management.IBM SPSS (26) and IBM AMOS (20) facilitate Exploratory Factor Analysis (EFA) and Structural Equation Modeling(SEM) for model evaluation.The research raises questions about crafting a comprehensive, adaptable model, understanding the interplaybetween vulnerability assessment, training, and disaster preparedness, and integrating effective communicationand collaboration. Findings offer actionable insights for policy, practice, and community resilience against disasters. By scrutinizing each factor's role and interactions, the research lays the groundwork for a flexible model.Ultimately, the study aspires to cultivate more resilient communities amid the escalating threats of an unpredictable world, fostering effective navigation and thriving. 展开更多
关键词 Disaster Management Structural Equation Modeling(SEM) text mining Scopus Data Exploratory Factor Analysis(EFA)
在线阅读 下载PDF
An incremental learning approach for the text categorization using hybrid optimization
3
作者 Mamta Kayest Sanjay Kumar Jain 《International Journal of Intelligent Computing and Cybernetics》 EI 2019年第3期333-351,共19页
Purpose–Document retrieval has become a hot research topic over the past few years,and has been paid more attention in browsing and synthesizing information from different documents.The purpose of this paper is to de... Purpose–Document retrieval has become a hot research topic over the past few years,and has been paid more attention in browsing and synthesizing information from different documents.The purpose of this paper is to develop an effective document retrieval method,which focuses on reducing the time needed for the navigator to evoke the whole document based on contents,themes and concepts of documents.Design/methodology/approach–This paper introduces an incremental learning approach for text categorization using Monarch Butterfly optimization–FireFly optimization based Neural Network(MB–FF based NN).Initially,the feature extraction is carried out on the pre-processed data using Term Frequency–Inverse Document Frequency(TF–IDF)and holoentropy to find the keywords of the document.Then,cluster-based indexing is performed using MB–FF algorithm,and finally,by matching process with the modified Bhattacharya distance measure,the document retrieval is done.In MB–FF based NN,the weights in the NN are chosen using MB–FF algorithm.Findings–The effectiveness of the proposed MB–FF based NN is proven with an improved precision value of 0.8769,recall value of 0.7957,F-measure of 0.8143 and accuracy of 0.7815,respectively.Originality/value–The experimental results show that the proposed MB–FF based NN is useful to companies,which have a large workforce across the country. 展开更多
关键词 text categorization Monarch butterfly optimization Neural network Holoentropy Cluster-based indexing Data mining
在线阅读 下载PDF
基于文本挖掘的民用机场特种车辆运行风险分析 被引量:1
4
作者 赵泽海 李弘毅 +1 位作者 刘思慧 杜红兵 《安全》 2025年第3期27-33,共7页
为研究机场特种车辆运行作业风险,收集航空安全报告系统中1989—2024年间涉及机场特种车辆的752条严重不安全事件报告,并对报告中叙述和简述部分进行文本挖掘和文本分析;用分析人活动的SHEL模型对主题要素与机场特种车辆种类、人为因素... 为研究机场特种车辆运行作业风险,收集航空安全报告系统中1989—2024年间涉及机场特种车辆的752条严重不安全事件报告,并对报告中叙述和简述部分进行文本挖掘和文本分析;用分析人活动的SHEL模型对主题要素与机场特种车辆种类、人为因素、不安全事件后果之间的相关性进行分析;参照质量功能展开结构设计机场特种车辆运行风险安全屋并进行安全功能展开,对机场特种车辆运行风险进行可视化。研究发现:依据文本挖掘结果,识别出机场特种车辆作业的18个风险主题要素;降低机场特种车辆运行风险需重点在车速过快、机场能见度低、地面人员警戒失效这3个方面采取防控措施。 展开更多
关键词 机场特种车辆 安全功能展开 KHCoder软件 文本挖掘 风险评价
在线阅读 下载PDF
法律与技术的协同演化——以日本文本与数据挖掘权利限制条款为例 被引量:2
5
作者 刘影 《知识产权》 北大核心 2025年第4期111-126,共16页
基于技术与制度协同演化理论来应对机器学习对于著作权权利限制条款的挑战,有助于突破技术作用于制度或者制度作用于技术的单向视角局限,填补制度与技术相互作用的动态视角盲区。日本著作权法的立法创新体现在两方面:一是通过权利限制... 基于技术与制度协同演化理论来应对机器学习对于著作权权利限制条款的挑战,有助于突破技术作用于制度或者制度作用于技术的单向视角局限,填补制度与技术相互作用的动态视角盲区。日本著作权法的立法创新体现在两方面:一是通过权利限制条款的结构重塑,来应对人工智能等新兴技术对现行著作权法的制度挑战;二是通过将文本与数据挖掘特定技术场景纳入权利限制范畴,为人工智能技术进步创设更为充分的制度允纳空间。我国《著作权法》中权利限制条款的结构重塑,应在制度与技术协同演化的总体思路下展开,根据著作权人的不利益程度划分成为三大类,并为之单独设计权利限制条款。机器学习对于作品的使用不会给著作权人带来规范性损害,其权利限制条款的设计思路可分为三步:首先通过抽象性条款来增强法律适用的灵活性,然后通过列举方式将以文本与数据挖掘为代表的特定技术纳入其中,最后通过但书条款的设计来确保著作权人的利益不受显著损害。 展开更多
关键词 协同演化 机器学习 文本与数据挖掘 权利限制条款 结构重塑
在线阅读 下载PDF
基于文本数据挖掘的蛋白功能预测:机遇与挑战 被引量:1
6
作者 张成辛 《合成生物学》 北大核心 2025年第3期603-616,共14页
理解蛋白质的生物学功能是定量合成生物学成功的前提。然而,除了少数模式生物外,大多数生物中有许多蛋白质的功能尚未通过实验进行解析。因此,开发自动、准确的蛋白质功能预测算法尤为重要。近年来,以深度学习为代表的人工智能算法成为... 理解蛋白质的生物学功能是定量合成生物学成功的前提。然而,除了少数模式生物外,大多数生物中有许多蛋白质的功能尚未通过实验进行解析。因此,开发自动、准确的蛋白质功能预测算法尤为重要。近年来,以深度学习为代表的人工智能算法成为蛋白质生物信息学发展的主流。在蛋白质功能预测领域,深度学习尤为显著。例如,在最近几届国际蛋白质功能预测大赛(Critical Assessment of Function Annotation,CAFA)中,排名靠前的算法使用深度学习模型(主要是大语言模型)实现基于文本数据挖掘的蛋白质功能预测。具体而言,这些方法或直接利用从科学文献中提取的文本特征来预测基因本体(Gene Ontology,GO),或通过具有相似文献的模板蛋白质来预测GO。尽管在开发更强大的深度学习模型用于基于文本挖掘的蛋白质功能注释方面已有大量研究,基于文本挖掘的蛋白质功能预测算法在处理科学文献数据时仍存在一些长期被忽视的问题。本文首先回顾了蛋白质功能注释中现有的方法和挑战:第一,大多数基于文本挖掘的蛋白质功能预测器仅使用由UniProt数据库管理员为目标蛋白手工收集的PubMed摘要,忽略了尚未被UniProt收录的文献;第二,几乎所有方法都只处理摘要,而忽略了PubMed Central和Europe PMC等数据库中可获得的更详尽的全文文献;第三,鲜有研究工作能自动区分低通量实验、高通量研究和计算预测等不同类别的科研文献,这大大增加了基于文本进行功能注释的难度。此外,本文还提出了利用人工智能最新发展的有前景的方法,以改进基于文本挖掘的蛋白质功能注释。这有助于开发下一代文本挖掘工具,针对性攻克文本数据处理的现有困难,以实现更准确的功能注释。 展开更多
关键词 蛋白质 生物学功能 基因本体 文本数据挖掘 深度学习
在线阅读 下载PDF
基于结构化案例推理的SQL生成模型
7
作者 罗明全 王静 魏英 《无线电通信技术》 北大核心 2025年第3期478-485,共8页
自动化的自然语言与数据库接口对于应用开发至关重要。语义解析驱动的推理时间结构化查询语言(Structured Query Language,SQL)自适应方法能够兼容来自新域的样本,且无需重复调优。现有方法通常简单地将编码器输入的新域输入-输出案例... 自动化的自然语言与数据库接口对于应用开发至关重要。语义解析驱动的推理时间结构化查询语言(Structured Query Language,SQL)自适应方法能够兼容来自新域的样本,且无需重复调优。现有方法通常简单地将编码器输入的新域输入-输出案例连接到模型中,进而使解码器产生偏差,不能充分利用案例中逻辑形式的结构。基于上述情况,提出一种基于结构化案例推理(Structured Case Reasoning Model,SCRM)的SQL生成模型,充分利用案例的逻辑形式和候选输出之间的子树级相似性,以此生成更好的解码器决策;提出一个可训练的组合子树相似函数,与全树嵌入相比,该函数对于大型搜索边界的评分更为准确。SCRM结合新的结构化案例记忆及可训练的查询子树相似度模块,可以提升推理过程中正确输出的得分。在5种不同的数据集上进行实验,相对于其他模型,所提出的SCRM凭借结构化案例的优势,在不同性能指标上均取得了最佳结果。 展开更多
关键词 text-to-SQL 子树级相似性 结构化案例 解码器 相似函数
在线阅读 下载PDF
智慧城市政策协同演进:基于主题的力度、结构分析
8
作者 刘博文 夏义堃 《现代情报》 北大核心 2025年第9期81-96,共16页
[目的/意义]智慧城市建设有赖于多领域的联动协调,在转型升级进程中面临多重因素叠加交互下的政策协同问题。[方法/过程]本研究通过挖掘、量化国家和3个省份智慧城市相关政策的文本主题,利用数据可视化技术和统计学方法,对智慧城市政策... [目的/意义]智慧城市建设有赖于多领域的联动协调,在转型升级进程中面临多重因素叠加交互下的政策协同问题。[方法/过程]本研究通过挖掘、量化国家和3个省份智慧城市相关政策的文本主题,利用数据可视化技术和统计学方法,对智慧城市政策协同的力度和结构进行了演进分析。[结果/结论]27个政策主题以顶层设计、基础保障、融合互促、公共治理和公共服务等方式与智慧城市建设形成协同,在协同力度上经历了“空白期—起步期—活跃期—转型期”4个阶段,央地政策协同主题的比例总体上趋向一致,区域间存在差异。本研究弥补了相关研究在量化分析和整体性、系统性上的不足,创新了政策协同力度、结构的演进分析方法。 展开更多
关键词 智慧城市政策 政策量化分析 文本主题挖掘 政策协同力度 政策协同结构
在线阅读 下载PDF
文本挖掘技术研究进展 被引量:60
9
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
Web文本挖掘技术研究 被引量:276
10
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 WEB
在线阅读 下载PDF
学术文本的结构功能识别——基于段落的识别 被引量:41
11
作者 黄永 陆伟 +1 位作者 程齐凯 桂思思 《情报学报》 CSSCI 北大核心 2016年第5期530-538,共9页
学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结... 学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结果表明,虽然基于段落的结构功能识别效果不如基于章节整体内容的识别,但仍然取得了不错的效果。本文结合实验结果着重分析了影响基于段落的识别效果的两个重要因素:段落长度及章节中段落数量,并在最后对学术文本结构功能识别的三个层次做了总结,指出了拟进一步探讨的问题和方向。 展开更多
关键词 结构功能 文本分类 文本挖掘
在线阅读 下载PDF
使用KNN算法的文本分类 被引量:101
12
作者 张宁 贾自艳 史忠植 《计算机工程》 EI CAS CSCD 北大核心 2005年第8期171-172,185,共3页
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。
关键词 数据挖掘 文本分类 KNN算法 向量空间模型
在线阅读 下载PDF
Web内容挖掘技术研究 被引量:23
13
作者 涂承胜 鲁明羽 陆玉昌 《计算机应用研究》 CSCD 北大核心 2003年第11期5-9,15,共6页
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征... 简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。 展开更多
关键词 WEB挖掘 WEB内容挖掘 文本的分类 文本聚类 多媒体文本挖掘
在线阅读 下载PDF
文本挖掘研究进展 被引量:15
14
作者 湛燕 陈昊 +1 位作者 袁方 王丽娟 《河北大学学报(自然科学版)》 CAS 2003年第2期221-226,共6页
数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究... 数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究工作 ,主要介绍了文本挖掘的研究内容 ,挖掘过程 ,挖掘算法及应用前景 . 展开更多
关键词 文本挖掘 特征选取 文本分类 文本聚类
在线阅读 下载PDF
文本挖掘及其关键技术与方法 被引量:43
15
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
在线阅读 下载PDF
学术文本的结构功能识别——功能框架及基于章节标题的识别 被引量:55
16
作者 陆伟 黄永 程齐凯 《情报学报》 CSSCI 北大核心 2014年第9期979-985,共7页
当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基... 当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。 展开更多
关键词 文本挖掘 结构功能 自动分类
在线阅读 下载PDF
文本分类中的特征降维方法研究 被引量:38
17
作者 张玉芳 万斌候 熊忠阳 《计算机应用研究》 CSCD 北大核心 2012年第7期2541-2543,共3页
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评... 特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。 展开更多
关键词 文本分类 特征降维 集中度 分散度 评估函数
在线阅读 下载PDF
基于类别分布的特征选择框架 被引量:18
18
作者 靖红芳 王斌 +1 位作者 杨雅辉 徐燕 《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1586-1593,共8页
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵... 目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro和Micro F1效果都优于IG,CHI和OCFS. 展开更多
关键词 特征选择 非平衡语料 特征降维 文本分类 数据挖掘
在线阅读 下载PDF
基于复合加权LDA模型的书目信息分类方法研究 被引量:14
19
作者 李湘东 丁丛 高凡 《情报学报》 CSSCI CSCD 北大核心 2017年第4期352-360,共9页
以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加... 以书目信息为分类对象的自动分类研究对信息资源组织具有重要意义。本文以概率主题模型LDA作为书目信息的文本表示模型,以克服因文本短小而产生的特征稀疏问题;以书目信息的体例结构和所在类目的类别区分能力分别实现两种不同的特征加权策略,在此基础上构建复合加权策略,使获取的特征词集既不向高频词倾斜,也更能代表书目信息的所属类别。将复合加权策略融合于LDA、提出一种基于复合加权LDA的书目信息分类方法。使用公开和自建的书目信息语料进行对比实验,验证和分析复合加权策略的有效性,实验显示本文提出的复合加权LDA分类方法的分类性能优于仅考虑其中一种特征加权策略的LDA分类方法。 展开更多
关键词 文本分类 LDA模型 特征加权 书目信息 文本体例结构
在线阅读 下载PDF
多媒体文本数据的模式挖掘方法 被引量:5
20
作者 刘茂福 曹加恒 +2 位作者 彭敏 叶可 林芝 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2001年第3期321-323,共3页
给出了多媒体文本数据挖掘 (MTM)的定义和分类 ,提出了多媒体文本数据挖掘过程模型 (MTMM)及其特征表示 ,讨论了多媒体文本分类挖掘方法 ,MTM与 Web挖掘的区别与联系 ,以期发现有用的知识或模式 ,促进 MTM的发展和应用 .
关键词 多媒体文本 数据挖掘 元数据库 WEB挖掘 分类挖掘 模式 知识
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部