期刊文献+
共找到363篇文章
< 1 2 19 >
每页显示 20 50 100
Graffiti in College:Topic Analysis and Linguistic Features
1
作者 李萍 刘小芳 《海外英语》 2011年第9X期364-366,共3页
This paper explores how the Chinese college students' life is represented in some graffiti collected in campus.The article analyzes and compares the topics of graffiti from different settings and the linguistic fe... This paper explores how the Chinese college students' life is represented in some graffiti collected in campus.The article analyzes and compares the topics of graffiti from different settings and the linguistic features they manifest.The findings show that fewer graffiti from female toilet and classroom in this university pay attention to political issues compared with the graffiti abroad.Graffiti in female toilet mainly focus on the theme of love,and are found to be more interactive in discourse.Whereas graffiti on desks tend to cover mixed themes and be less interactive.There are more graphic graffiti and exam answers on the undergraduate students' desk than on the postgraduates'.Graffiti have some linguistic features as thematization,repetition and salience,etc. 展开更多
关键词 GRAFFITI COLLEGE LIFE topic analysis LINGUISTIC featureS
在线阅读 下载PDF
Smart object recommendation based on topic learning and joint features in the social internet of things 被引量:4
2
作者 Hongfei Zhang Li Zhu +4 位作者 Tao Dai Liwen Zhang Xi Feng Li Zhang Kaiqi Zhang 《Digital Communications and Networks》 SCIE CSCD 2023年第1期22-32,共11页
With the extensive integration of the Internet,social networks and the internet of things,the social internet of things has increasingly become a significant research issue.In the social internet of things application... With the extensive integration of the Internet,social networks and the internet of things,the social internet of things has increasingly become a significant research issue.In the social internet of things application scenario,one of the greatest challenges is how to accurately recommend or match smart objects for users with massive resources.Although a variety of recommendation algorithms have been employed in this field,they ignore the massive text resources in the social internet of things,which can effectively improve the effect of recommendation.In this paper,a smart object recommendation approach named object recommendation based on topic learning and joint features is proposed.The proposed approach extracts and calculates topics and service relevant features of texts related to smart objects and introduces the“thing-thing”relationship information in the internet of things to improve the effect of recommendation.Experiments show that the proposed approach enables higher accuracy compared to the existing recommendation methods. 展开更多
关键词 Social internet of things Smart object recommendation topics features Thing-thing relationship
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
3
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic Model BERtopic Short Text feature Sparsity CLUSTER
在线阅读 下载PDF
Unsupervised Feature Selection for Latent Dirichlet Allocation 被引量:1
4
作者 徐蔚然 杜刚 +2 位作者 陈光 郭军 杨洁 《China Communications》 SCIE CSCD 2011年第5期54-62,共9页
As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability throug... As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability through unsupervised feature selection.Theoretical analysis shows that the discrimination capability of a topic is limited by the discrimination capability of its representative words.The discrimination capability of a word is approximated by the Information Gain of the word for topics,which is used to distinguish between "general word" and "special word" in LDA topics.Therefore,we add a constraint to the LDA objective function to let the "general words" only happen in "general topics" other than "special topics".Then a heuristic algorithm is presented to get the solution.Experiments show that this method can not only improve the information gain of topics,but also make the topics easier to understand by human. 展开更多
关键词 pattern recognition unsupervised feature selection Latent Dirichlet Allocation general topic special topic
在线阅读 下载PDF
Novel Machine Learning–Based Approach for Arabic Text Classification Using Stylistic and Semantic Features 被引量:1
5
作者 Fethi Fkih Mohammed Alsuhaibani +1 位作者 Delel Rhouma Ali Mustafa Qamar 《Computers, Materials & Continua》 SCIE EI 2023年第6期5871-5886,共16页
Text classification is an essential task for many applications related to the Natural Language Processing domain.It can be applied in many fields,such as Information Retrieval,Knowledge Extraction,and Knowledge modeli... Text classification is an essential task for many applications related to the Natural Language Processing domain.It can be applied in many fields,such as Information Retrieval,Knowledge Extraction,and Knowledge modeling.Even though the importance of this task,Arabic Text Classification tools still suffer from many problems and remain incapable of responding to the increasing volume of Arabic content that circulates on the web or resides in large databases.This paper introduces a novel machine learning-based approach that exclusively uses hybrid(stylistic and semantic)features.First,we clean the Arabic documents and translate them to English using translation tools.Consequently,the semantic features are automatically extracted from the translated documents using an existing database of English topics.Besides,the model automatically extracts from the textual content a set of stylistic features such as word and character frequencies and punctuation.Therefore,we obtain 3 types of features:semantic,stylistic and hybrid.Using each time,a different type of feature,we performed an in-depth comparison study of nine well-known Machine Learning models to evaluate our approach and used a standard Arabic corpus.The obtained results show that Neural Network outperforms other models and provides good performances using hybrid features(F1-score=0.88%). 展开更多
关键词 Arabic text classification machine learning stylistic features semantic features topicS
在线阅读 下载PDF
基于特征表示深度学习的政策精准推送模型研究 被引量:3
6
作者 胡吉明 钱玮 苗煜松 《情报杂志》 北大核心 2025年第2期167-173,共7页
[研究目的]从政策内涵和用户特征表示的深度学习出发,构建政策文本精准推送模型,实现高效准确的政府服务双向精准推送。[研究方法]首先基于Doc2Vec模型进行政策文档向量表示,并融入政策实体和政策主题信息,丰富政策文本的语义内涵;构建... [研究目的]从政策内涵和用户特征表示的深度学习出发,构建政策文本精准推送模型,实现高效准确的政府服务双向精准推送。[研究方法]首先基于Doc2Vec模型进行政策文档向量表示,并融入政策实体和政策主题信息,丰富政策文本的语义内涵;构建集成自然属性、社会属性和政策属性的政策用户画像模型,基于Word2Vec实现基于三元组的画像特征表示;最后,构建政策-用户双向精准推送模型,进行基于推送关系标注的模型训练,基于注意力机制实现政策和用户间的双向智能匹配。[研究结果/结论]针对助残服务的实验表明,所提策略有效实现了助残服务与残疾人间的精准匹配,呈现出政策-用户及用户-政策双向的推送结果。 展开更多
关键词 政策文本 政策实体识别 政策精准推送 主题挖掘 特征表示 政策用户画像
在线阅读 下载PDF
基于潜层主题结构表示增强的跨领域文本生成
7
作者 刘小明 赵梦婷 +1 位作者 杨关 刘杰 《中文信息学报》 北大核心 2025年第5期150-163,176,共15页
现有的低资源生成模型大多使用预训练的词嵌入来解决目标领域数据稀疏问题,但这种方法难以捕捉不同领域间的潜层结构信息,经常忽略潜在主题对捕捉关键信息的重要作用。为了解决这些问题,该文联合神经主题模型提取潜在主题,从而为生成的... 现有的低资源生成模型大多使用预训练的词嵌入来解决目标领域数据稀疏问题,但这种方法难以捕捉不同领域间的潜层结构信息,经常忽略潜在主题对捕捉关键信息的重要作用。为了解决这些问题,该文联合神经主题模型提取潜在主题,从而为生成的语句选择提供全局特征,并结合词嵌入和主题嵌入,增强模型对潜在主题信息的利用,然后通过对不同领域的主题对齐,捕捉相似潜层主题结构表示。在文本生成不同任务的数据集上进行的大量实验表明,该模型在摘要生成任务的六个低资源领域数据集、CNN/DailyMail数据集和SAMsum数据集上的ROUGE-1均值相较于基准模型分别提高了0.92%、3.71%和1.0%;在对话生成任务中,该模型在ESConv数据集上的各项指标也表现出良好的结果。 展开更多
关键词 低资源 结构特征 主题模型
在线阅读 下载PDF
“强度-内容”视域下我国公共数字文化政策主题演化研究
8
作者 侯艳辉 赵文静 王家坤 《山东科技大学学报(社会科学版)》 2025年第4期81-92,共12页
为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强... 为分析我国公共数字文化政策主题分布及其演化路径,有效揭示政策主题变迁趋势,把握政策主题演化深层机制,为政策制定与应用提供理论支持。收集我国公共数字文化政策文本,运用LDA模型识别政策文本主题及其关键词;构建融合多特征的主题强度表征模型,分析主题强度演化情况;利用Word2Vec模型获取主题关键词最相似词集合,分析主题内容演化情况。研究发现,我国公共数字文化政策主要有三大惠民工程建设、均等化配置、建设与保障管理和数字文化产业发展四大主题,主题演化呈现阶段性变化、科学技术驱动、聚焦发展问题等特点。基于主题演化分析结果,未来公共数字文化建设应紧密围绕国家战略导向,加强科技创新与人才培养;积极响应公众数字文化需求,促进共建共享合作模式;聚焦发展问题与矛盾,缩小不同区域与群体间发展差距。 展开更多
关键词 公共数字文化 主题强度 多特征融合 主题内容 主题演化
在线阅读 下载PDF
基于账号主题模型和多维度特征交互的影响者推荐研究
9
作者 宋金宝 张星宇 +2 位作者 陈达 许诺 蒋雅婷 《信息传播研究》 2025年第4期2-17,共16页
社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96... 社交媒体影响者营销面临数据稀疏、跨模态融合不足等挑战。本文提出SMATM账号主题模型和MFI-IR多维度特征交互算法实现智能推荐:1)SMATM模型创新性地融合Hashtag加权机制与UMAP-HDBSCAN策略,实现跨模态主题建模(准确率0.6059,达基线1.96倍);2)构建多维度特征体系,整合主题(SMATM)、视觉(ResNeXt WSL)、行业(12类标签)及情感(NRCVAD+Emoji)特征;3)MFI-IR算法采用双通道架构(交叉网络+深度网络)与双任务优化,在Brand-Influencer数据集上取得显著提升:AUC 0.9371(+6.0%)、MAP 0.9079(+380%)、P@10 0.2088(+32.7%)。实验验证了模型在解决主题漂移、增强特征交互和提升可解释性方面的优势,为品牌营销提供数据驱动的决策支持。 展开更多
关键词 影响者推荐 多模态主题模型 特征交互 推荐系统 社交媒体营销
在线阅读 下载PDF
融合多层级特征表示的多领域谣言早期检测方法 被引量:2
10
作者 黄涛 肖玉芝 +2 位作者 向洁萍 金胜 霍宣蓉 《情报杂志》 北大核心 2025年第4期127-135,共9页
[研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短... [研究目的]网络谣言的治理是当前社会广泛关注的问题,提高网络谣言在传播早期的识别效率,能更好的阻止谣言信息的传播并维护社会的和谐稳定。[研究方法]提出一种多领域话题下的早期谣言检测方法。通过协同注意力机制融合文本的词汇、短语和句子级特征,构建多层级特征增强的单元门模块以挖掘谣言深层信息。利用该模块构建领域感知特征抽取器,捕获谣言文本的领域特征及偏差,形成多领域与多层级的谣言特征表示,判断是否为谣言。[研究结果/结论]在涵盖9个不同领域的公开数据集上的实验结果表明,该模型的准确率、F1值和AUC值分别达到了92.85%、93.11%和96.96%,能够有效的对多领域谣言进行早期检测。 展开更多
关键词 网络谣言 谣言识别 早期谣言检测 多领域话题 特征增强 领域感知
在线阅读 下载PDF
融合罪名分类的涉案新闻主题分析方法
11
作者 尹兆良 黄于欣 +2 位作者 余正涛 王冠文 艾传鲜 《计算机工程》 北大核心 2025年第4期208-216,共9页
介绍涉案新闻主题分析的应用场景以及现有方法的不足之处。针对这些不足,提出一种融合罪名分类的主题分析模型BERT-ECTM。该模型利用法律文书中的罪名信息作为监督信号,与涉案新闻文本相融合作为主题分析模型的输入,以提高涉案新闻主题... 介绍涉案新闻主题分析的应用场景以及现有方法的不足之处。针对这些不足,提出一种融合罪名分类的主题分析模型BERT-ECTM。该模型利用法律文书中的罪名信息作为监督信号,与涉案新闻文本相融合作为主题分析模型的输入,以提高涉案新闻主题信息的准确性和涉案偏好。为了捕捉上下文语义特征,采用基于BERT编码的嵌入式主题分析方法,以提高主题分析的准确性和效果。此外,在模型训练时,针对边际分布求解难度较大、复杂程度高这一问题,结合变分推断的方法,用后验分布的近似分布来拟合其分布结果。实验结果表明,在特定的涉案新闻主题分析任务中,该模型的有效性和准确性相比于现有方法均有明显提升。 展开更多
关键词 文本主题抽取 罪名分类 BERT-ECTM模型 涉案偏好 文本语义 语义特征编码 变分推断
在线阅读 下载PDF
融合多维特征测度与神经网络的技术前沿识别方法
12
作者 廖姗姗 姜楠 +3 位作者 康娅 孙巍 吴蕾 李周晶 《数字图书馆论坛》 2025年第7期31-41,共11页
技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗... 技术前沿识别是推动科技创新和支撑战略决策的重要手段。针对现有方法存在时间滞后、验证依据单一等问题,提出一种融合多维特征学习与前馈神经网络建模的技术前沿主题识别方法。首先,基于潜在狄利克雷分布模型对技术文本进行滑动时间窗口下的时序主题聚类。其次,构建涵盖新颖性、增长性、市场价值、影响力、主题交叉性、开发投入度6个二级维度的指标体系,并进一步归纳为技术新颖性、技术增长力和技术主题热度指数3个一级维度,再通过前馈神经网络实现主题特征学习与主题前沿性量化评估。最后,以作物育种领域为例,结合定性与定量分析开展实证研究,验证了模型在识别精度和决策支持效度上的优势。 展开更多
关键词 技术前沿 技术识别 主题识别 机器学习 神经网络 多维特征 作物育种
在线阅读 下载PDF
Topic-Feature Lattices Construction and Visualization for Dynamic Topic Number 被引量:1
13
作者 Kai WANG Fuzhi WANG 《Journal of Systems Science and Information》 CSCD 2021年第5期558-574,共17页
The topic recognition for dynamic topic number can realize the dynamic update of super parameters,and obtain the probability distribution of dynamic topics in time dimension,which helps to clear the understanding and ... The topic recognition for dynamic topic number can realize the dynamic update of super parameters,and obtain the probability distribution of dynamic topics in time dimension,which helps to clear the understanding and tracking of convection text data.However,the current topic recognition model tends to be based on a fixed number of topics K and lacks multi-granularity analysis of subject knowledge.Therefore,it is impossible to deeply perceive the dynamic change of the topic in the time series.By introducing a novel approach on the basis of Infinite Latent Dirichlet allocation model,a topic feature lattice under the dynamic topic number is constructed.In the model,documents,topics and vocabularies are jointly modeled to generate two probability distribution matrices:Documentstopics and topic-feature words.Afterwards,the association intensity is computed between the topic and its feature vocabulary to establish the topic formal context matrix.Finally,the topic feature is induced according to the formal concept analysis(FCA)theory.The topic feature lattice under dynamic topic number(TFL DTN)model is validated on the real dataset by comparing with the mainstream methods.Experiments show that this model is more in line with actual needs,and achieves better results in semi-automatic modeling of topic visualization analysis. 展开更多
关键词 dynamic topic number infinite latent Dirichlet allocation(ILDA) formal concept analysis topic feature lattice topic feature lattice under dynamic topic number(TFL_DTN)model
原文传递
Topic features for machine learning-based sentiment analysis in Indonesian tweets 被引量:1
14
作者 Hendri Murfi Furida Lusi Siagian Yudi Satria 《International Journal of Intelligent Computing and Cybernetics》 EI 2019年第1期70-81,共12页
Purpose–The purpose of this paper is to analyze topics as alternative features for sentiment analysis in Indonesian tweets.Design/methodology/approach–Given Indonesian tweets,the processes of sentiment analysis star... Purpose–The purpose of this paper is to analyze topics as alternative features for sentiment analysis in Indonesian tweets.Design/methodology/approach–Given Indonesian tweets,the processes of sentiment analysis start by extracting features from the tweets.The features are words or topics.The authors use non-negative matrix factorization to extract the topics and apply a support vector machine to classify the tweets into its sentiment class.Findings–The authors analyze the accuracy using the two-class and three-class sentiment analysis data sets.Both data sets are about sentiments of candidates for Indonesian presidential election.The experiments show that the standard word features give better accuracies than the topics features for the two-class sentiment analysis.Moreover,the topic features can slightly improve the accuracy of the standard word features.The topic features can also improve the accuracy of the standard word features for the three-class sentiment analysis.Originality/value–The standard textual data representation for sentiment analysis using machine learning is bag of word and its extensions mainly created by natural language processing.This paper applies topics as novel features for the machine learning-based sentiment analysis in Indonesian tweets. 展开更多
关键词 topic detection feature extraction Nonnegative matrix factorization Sentiment analysis
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
15
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
基于文本分析的中国高校医药大学学报特色研究
16
作者 杨泽岭 李军纪 《山西医科大学学报》 2025年第3期334-338,共5页
目的比较中国高校医药大学学报的内容差异情况,深入分析内容差异度高的期刊的研究主题,为期刊的特色发展提供新思路。方法选取《中国科技期刊引证报告》2022版收录的55种医药大学学报第一期文章的题录信息,包括题名、摘要作为研究对象,... 目的比较中国高校医药大学学报的内容差异情况,深入分析内容差异度高的期刊的研究主题,为期刊的特色发展提供新思路。方法选取《中国科技期刊引证报告》2022版收录的55种医药大学学报第一期文章的题录信息,包括题名、摘要作为研究对象,通过词袋模型方法得出高校医药大学学报内容差异度。通过潜在狄利克雷分布(LDA)主题模型对差异度排名前10的期刊抽取研究主题,识别热点主题,对热点主题做分析阐述。结果内容差异度超过0.5的期刊不足15%,多数期刊内容差异度在0.4左右。对差异度排名前10的期刊抽取的研究热点主题有5个,涵盖临床疾病与医疗相关研究、专科疾病研究、药物相关研究方法、基础医学研究、大数据驱动下的公共卫生管理主题。结论期刊应注重实施差异化发展策略,通过明确定位、优化选题、设立特色栏目、加强跨学科合作、及时对公共卫生领域研究展开专题报道,以此全方位提升期刊的特色和竞争力。 展开更多
关键词 特色期刊 医药大学学报 词袋模型 文本分析 LDA主题模型 编辑出版
在线阅读 下载PDF
基于主题特征的关键词抽取 被引量:30
17
作者 刘俊 邹东升 +1 位作者 邢欣来 李英豪 《计算机应用研究》 CSCD 北大核心 2012年第11期4224-4227,共4页
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词... 为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。 展开更多
关键词 关键词抽取 主题特征 主题模型 装袋决策树
在线阅读 下载PDF
一种基于特征演变的新闻话题演化挖掘方法 被引量:24
18
作者 赵旭剑 杨春明 +4 位作者 李波 张晖 金培权 岳丽华 戴文锴 《计算机学报》 EI CSCD 北大核心 2014年第4期819-832,共14页
话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作... 话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景.现有工作由于缺乏对话题特征随时间发展而动态演变的深入分析,仅仅采用均值泛化的思想去增量扩充演化中的话题特征,引入大量话题无关信息,影响了话题关联的准确率,从而导致最终话题演化挖掘结果的偏斜.因此,针对以上问题,文中通过引入话题特征演变特性,提出一种针对话题演化的特征计算模型,在此基础上利用已有话题相关文档和最新文档进行话题信息动态增量扩充,通过对话题特征进行正向融合以及逆向过滤完成对特征信息的抗噪处理,提高话题关联的正确率,有效地解决了话题演化的偏斜问题. 展开更多
关键词 话题演化 话题模型 演变特征 演化偏斜 社会计算 社交网络
在线阅读 下载PDF
主题特征格分析:一种用户生成文本质量评估方法 被引量:10
19
作者 钟将 张淑芳 +1 位作者 郭卫丽 李雪 《电子学报》 EI CAS CSCD 北大核心 2018年第9期2201-2206,共6页
本文设计了一种用户生成文本的质量分析框架.首先,基于主题分析构建商品类别主题特征集合.其次,利用主题特征与商品分类的强关联关系,构建形式化概念分析的形式背景,将分类-主题概念格化简并生成主题特征格,以此构建五个质量特征并生成... 本文设计了一种用户生成文本的质量分析框架.首先,基于主题分析构建商品类别主题特征集合.其次,利用主题特征与商品分类的强关联关系,构建形式化概念分析的形式背景,将分类-主题概念格化简并生成主题特征格,以此构建五个质量特征并生成质量评估模型.最后,在真实评论数据上的实验结果表明新方法具有更高预测精度. 展开更多
关键词 用户评论 质量评估 主题特征 主题特征格
在线阅读 下载PDF
话题跟踪中静态和动态话题模型的核捕捉衰减 被引量:19
20
作者 洪宇 仓玉 +2 位作者 姚建民 周国栋 朱巧明 《软件学报》 EI CSCD 北大核心 2012年第5期1100-1119,共20页
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3... 话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进. 展开更多
关键词 话题跟踪 静态话题模型 动态话题模型 核捕捉衰减 突发式增量式学习 时序事件链
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部