期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
基于Stack Overflow的数据库相关主题分析 被引量:3
1
作者 刘蕴涵 沙朝锋 牛军钰 《计算机科学》 CSCD 北大核心 2021年第6期48-56,共9页
数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法。文中获取了Stack Overflow上94473条与数据库相关的问题,... 数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法。文中获取了Stack Overflow上94473条与数据库相关的问题,应用LDA主题模型将这些问题归为25个主题,结果显示开发者的问题可归为"表""SQL""SELECT"等主题。通过研究与数据库相关的不同主题的流行度和困难程度发现,"SQL"主题相关的问题较为流行。除此以外,文中还分别研究了3种不同的数据库,即MySQL,Oracle和MongoDB,分析了与不同数据库系统相关的问题的主题分布。文中的研究成果有助于了解数据库开发者所面临的挑战,从而为数据库系统版本更新、数据库课程教学内容的设置,甚至是数据库领域的研究问题提供参考。 展开更多
关键词 stack overflow 数据库 LDA 主题建模
在线阅读 下载PDF
Stack Overflow的缺陷代码特征分析与相似缺陷检测 被引量:2
2
作者 亢振兴 赵逢禹 刘亚 《小型微型计算机系统》 CSCD 北大核心 2021年第3期661-665,共5页
目前在软件代码缺陷审查以及缺陷预测中,研究人员对源代码进行分析研究却忽略了代码的缺陷信息.本文通过对缺陷信息进行分析,发现缺陷信息对于相似缺陷的检测有着重要的参考价值.基于这一思想,本文分析软件缺陷社区Stack Overflow中关... 目前在软件代码缺陷审查以及缺陷预测中,研究人员对源代码进行分析研究却忽略了代码的缺陷信息.本文通过对缺陷信息进行分析,发现缺陷信息对于相似缺陷的检测有着重要的参考价值.基于这一思想,本文分析软件缺陷社区Stack Overflow中关于缺陷代码的信息,提出一种基于缺陷代码特征分析的相似缺陷检测方法.该方法首先对缺陷报告进行LDA主题分析并将缺陷报告分类到不同的主题(类别)中,统计得到高频缺陷类别;其次对于高频缺陷类别的缺陷代码提取特征;最后根据缺陷代码特征构建相似缺陷检测模型.为了验证相似缺陷检测模型的有效性,针对数据操作缺陷数据构建诊断模型并对该模型进行实证,实验结果表明该方法对检测其他代码中相似缺陷有较好的效果. 展开更多
关键词 stack overflow LDA 缺陷代码特征 特征相似度 相似缺陷检测
在线阅读 下载PDF
Stack Overflow上机器学习相关问题的大规模实证研究 被引量:4
3
作者 万志远 陶嘉恒 +4 位作者 梁家坤 才振功 苌程 乔林 周巧妮 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第5期819-828,共10页
为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras... 为了调查机器学习相关主题分布和发展趋势,从在线问答网站Stack Overflow上,利用过滤标签,从4 178多万帖子中提取出60 028个与机器学习相关的问题帖.通过分析问题帖,统计各个机器学习平台的讨论量,发现Scikit-learn、TensorFlow、Keras是前3位频繁被讨论的机器学习平台,占总讨论量的58%.为了进一步分析机器学习相关讨论主题,进行潜在狄利克雷分布(LDA)主题模型训练,提出自适应LDA中的主题数渐进搜索方法,采用主题一致性系数评估输出结果,获得主题最佳数量,从而发现9个讨论主题,分属3个类别:代码相关、模型相关、理论相关.基于主题中问题帖的浏览数、评论数,分析不同主题的流行度和回答困难程度. 展开更多
关键词 实证研究 机器学习 stack overflow 潜在狄利克雷分布(LDA) 主题一致性
在线阅读 下载PDF
中外技术问答社区的实证对比研究与启示——以CSDN和Stack Overflow为例 被引量:8
4
作者 李胜利 钟滢 《情报学报》 CSSCI CSCD 北大核心 2020年第9期989-1000,共12页
社会化问答社区是当前网络用户进行知识交流的重要平台,而技术问答社区则是专注于技术知识交流的问答社区。本文选取国内外最具有代表性的两大技术问答社区进行对比研究,旨在指出国内技术问答社区的优势与不足,并为国内技术问答社区的... 社会化问答社区是当前网络用户进行知识交流的重要平台,而技术问答社区则是专注于技术知识交流的问答社区。本文选取国内外最具有代表性的两大技术问答社区进行对比研究,旨在指出国内技术问答社区的优势与不足,并为国内技术问答社区的进一步发展与优化提出针对性建议。本文分别从社区活跃度、社区主题、社区问题质量、用户体验和社交属性5个维度开展了对比分析,并利用相关性分析,分析并比较了在两个问答社区中影响问题被回答情况的相关因素。本文发现两大技术问答社区在活跃度、用户提问与回答情况等方面存在显著差异,并从优化问题质量评价机制、提高用户回答积极性、优化激励机制以及强化社交属性等方面为我国技术问答社区的进一步发展与完善给出了建议。 展开更多
关键词 技术问答社区 中外对比研究 CSDN stack overflow
在线阅读 下载PDF
基于数据挖掘的专业可信回答者个性化推荐——以Stack Overflow问答社区为例 被引量:4
5
作者 刘迎春 朱旭 +1 位作者 谢年春 李佳 《现代教育技术》 CSSCI 北大核心 2019年第5期78-84,共7页
针对问答社区中问题不能得到及时、有效解答的现状,文章以Stack Overflow问答社区为例,首先介绍了问答社区数据的采集与预处理情况;然后,通过挖掘学习者信息,得到专业可信回答者、高信誉回答者和徽章回答者三种潜在回答者;最后,实施了... 针对问答社区中问题不能得到及时、有效解答的现状,文章以Stack Overflow问答社区为例,首先介绍了问答社区数据的采集与预处理情况;然后,通过挖掘学习者信息,得到专业可信回答者、高信誉回答者和徽章回答者三种潜在回答者;最后,实施了三种回答者推荐并对比了推荐性能。实验结果表明,与高信誉回答者推荐和徽章回答者推荐相比,考虑回答质量和专业相关性的专业可信回答者推荐具有更高的准确率和召回率,其推荐性能更优。实施基于数据挖掘的专业可信回答者个性化推荐,能有效缓解问答社区的信息过载问题,有助于建设更高效的网络学习社区环境。 展开更多
关键词 专业可信度 回答者推荐 数据挖掘 stack overflow问答社区
在线阅读 下载PDF
面向专家示例的Stack Overflow本体构造和推理研究
6
作者 阮书鹤 钟林辉 +4 位作者 高荣锦 祝艳霞 陈浩然 卢腾骏 夏子豪 《计算机应用研究》 CSCD 北大核心 2023年第12期3736-3741,共6页
Stack Overflow是一个计算机领域的IT技术问答网站,为了获取问答网站中的专家示例并将其应用于API挖掘中。首先采用Scrapy爬虫框架技术获取Stack Overflow问答网站中的结构化数据,并存储在关系模式中;再使用本体建模工具Protég... Stack Overflow是一个计算机领域的IT技术问答网站,为了获取问答网站中的专家示例并将其应用于API挖掘中。首先采用Scrapy爬虫框架技术获取Stack Overflow问答网站中的结构化数据,并存储在关系模式中;再使用本体建模工具Protégé构建本体,然后使用D2RQ工具实现对关系数据库的知识抽取,将关系模式转换为三元组形式的本体模型;同时,提出了一个面向专家示例的子本体抽取算法,用于从原本体中抽取出专家示例推理相关的子本体,并提出了若干条专家示例推理规则,能推导出专家所编写的代码示例。实验结果证明,从Stack Overflow本体模型中抽取的专家示例能提高API调用序列挖掘的准确率。 展开更多
关键词 stack overflow问答网站 本体 本体构建 专家示例推理规则 专家示例
在线阅读 下载PDF
Why do they ask? An exploratory study of crowd discussions about Android application programming interface in stack overflow
7
作者 FAN Qiang WANG Tao +3 位作者 YANG Cheng YIN Gang YU Yue WANG Huai-min 《Journal of Central South University》 SCIE EI CAS CSCD 2019年第9期2432-2446,共15页
Nowadays,more and more Android developers prefer to seek help from Q&A website like Stack Overflow,despite the rich official documentation.Several researches have studied the limitations of the official applicatio... Nowadays,more and more Android developers prefer to seek help from Q&A website like Stack Overflow,despite the rich official documentation.Several researches have studied the limitations of the official application programming interface(API)documentations and proposed approaches to improve them.However,few of them digged into the requirements of the third-party developers to study this.In this work,we gain insight into this question from multidimensional perspectives of API developers and API users by a kind of cross-validation.We propose a hybrid approach,which combines manual inspection on artifacts and online survey on corresponding developers,to explore the different focus between these two types of stakeholders.In our work,we manually inspect 1000 posts and receive 319 questionnaires in total.Through the mutual verification of the inspection and survey process,we found that the users are more concerned with the usage of API,while the official documentation mainly provides functional description.Furthermore,we identified 9 flaws of the official documentation and summarized 12 aspects(from the content to the representation)for promotion to improve the official API documentations. 展开更多
关键词 API documentation ANDROID online survey stack overflow
在线阅读 下载PDF
Geek Talents:Who are the Top Experts on GitHub and Stack Overflow?
8
作者 Yijun Tian Waii Ng +1 位作者 Jialiang Cao Suzanne McIntosh 《Computers, Materials & Continua》 SCIE EI 2019年第8期465-479,共15页
In the field of Computer Science,software developers need to use a wide array of social collaborative platforms for learning and cooperating.The most popular ones are GitHub and Stack Overflow.Existing platforms only ... In the field of Computer Science,software developers need to use a wide array of social collaborative platforms for learning and cooperating.The most popular ones are GitHub and Stack Overflow.Existing platforms only support search queries to extract relevant repository information from GitHub,or questions and answers from Stack Overflow.This ignores the valuable coder-related part-who are the top experts(geek talents)in a specific area?This information is important to companies,open source projects,and to those who want to learn from an expert role model.Thus,how to find the right developers is quite a crucial yet challenging problem.Most of the current works mainly focus on recommending experts in a particular software engineering task and ignore the relationship between developers within different projects.In this paper,we propose a novel technique that automatically identifies geek talents from GitHub,Stack Overflow,and across both communities.The results show that our work performs well at recommending proper developers in diverse areas. 展开更多
关键词 Developer recommendation collaborative filtering stack overflow GitHub
在线阅读 下载PDF
基于CBOW-LDA主题模型的Stack Overflow编程网站热点主题发现研究 被引量:5
9
作者 张景 朱国宾 《计算机科学》 CSCD 北大核心 2018年第4期208-214,共7页
Stack Overflow是一个热门的国外编程问答网站,通过对该网站编程提问帖的问题文本进行文本语义挖掘,能获析用户关注的编程热点。由于研究对象所代表的短文本信息具有高维性及分布不均的特点,易导致主题获取不明晰。文中提出一种基于LDA(... Stack Overflow是一个热门的国外编程问答网站,通过对该网站编程提问帖的问题文本进行文本语义挖掘,能获析用户关注的编程热点。由于研究对象所代表的短文本信息具有高维性及分布不均的特点,易导致主题获取不明晰。文中提出一种基于LDA(Latent Dirichlet Allocation)主题模型的CBOW-LDA建模方法,该方法对目标语料进行相似词聚类后再完成主题建模,能有效降低文本输入维度,使主题分布更明确。采集Stack Overflow网站上2010-2015年的问题帖数据集POST,并对其进行实验,同等主题数下采用文本建模中衡量模型性能的评价指标困惑度(Perplexity)来度量算法在不同数据集容量维度下的性能。结果表明,与现有的基于词频权重的词量化主题建模TFLDA方法相比,CBOW-LDA方法的困惑度更低,在实验语料下的困惑度降低约4.87%,证明了所提算法的性能更好。采用CBOW-LDA方法对Stack Overflow进行热点挖掘,同时使用TF-LDA方法进行对比实验,建立手工标注的标准评测集对两种方法获取的热门主题和热搜词汇进行查全率、查准率及F1值的判定,结果证实CBOW-LDA表现更佳,其热点挖掘效果较好。由实验结果可知,Java为该编程网站提问帖中最热门的主题,而C和Javascript则为该网站用户提问中被提及得最频繁的词汇。 展开更多
关键词 stack overflow LDA-CBOW语言模型 主题发现 热门主题 困惑度
在线阅读 下载PDF
Stack Overflow系统的特征融合答案推荐策略
10
作者 万杰 赵逢禹 刘亚 《计算机应用与软件》 北大核心 2019年第8期60-64,129,共6页
针对Stack Overflow系统中用户寻找问题答案效率低的问题,提出一种基于标题相似度、描述相似度、标签相似度、语义相似度的特征融合答案推荐策略(FIARS)。从Stack Overflow网站中抽取“问题与答案”语料集,对答案进行去重处理,建立问题... 针对Stack Overflow系统中用户寻找问题答案效率低的问题,提出一种基于标题相似度、描述相似度、标签相似度、语义相似度的特征融合答案推荐策略(FIARS)。从Stack Overflow网站中抽取“问题与答案”语料集,对答案进行去重处理,建立问题索引和问题对应的答案集索引;采用余弦相似度计算新问题与语料库中问题在标题、标签、问题描述等维度上的相似度,并构建语义模型计算语义相似度;基于这些相似度筛选出最佳的“问题与答案”候选集并把答案推荐给用户。为了验证策略的可行性和有效性,使用Stack Overflow真实数据集进行分析实验,实验结果表明该策略能够较大地提高答案推荐的准确率。 展开更多
关键词 stack overflow 特征融合 余弦相似度 语义模型 答案推荐
在线阅读 下载PDF
基于Stack Overflow的场景-解决方案知识图谱构建方法
11
作者 白雪芳 刘名威 赵文耘 《计算机应用与软件》 2025年第11期191-197,共7页
在软件问答社区中,帖子可能存在重复、滞后、信息冗余等问题。目前对Stack Overflow的信息抽取工作以单个问题为研究对象,抽取准确度较差。为此,提出一种针对多问题场景抽取场景与解决方案的方法,设计并构建了场景-解决方案知识图谱。... 在软件问答社区中,帖子可能存在重复、滞后、信息冗余等问题。目前对Stack Overflow的信息抽取工作以单个问题为研究对象,抽取准确度较差。为此,提出一种针对多问题场景抽取场景与解决方案的方法,设计并构建了场景-解决方案知识图谱。相比于已有工作,该方法能够对含有多个问题的场景进行信息抽取。实验证明,该方法抽取得到的结果更加准确。 展开更多
关键词 stack overflow 知识图谱 软件工程
在线阅读 下载PDF
What Security Questions Do Developers Ask? A Large-Scale Study of Stack Overflow Posts 被引量:9
12
作者 Xin-Li Yang David Lo +2 位作者 Xin Xia Zhi-Yuan Wan Jian-Ling Sun 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第5期910-924,共15页
Security has always been a popular and critical topic. With the rapid development of information technology, it is always attracting people's attention. However, since security has a long history, it covers a wide ra... Security has always been a popular and critical topic. With the rapid development of information technology, it is always attracting people's attention. However, since security has a long history, it covers a wide range of topics which change a lot, from classic cryptography to recently popular mobile security. There is a need to investigate security-related topics and trends, which can be a guide for security researchers, security educators and security practitioners. To address the above-mentioned need, in this paper, we conduct a large-scale study on security-related questions on Stack Overflow. Stack Overflow is a popular on-line question and answer site for software developers to communicate, collaborate, and share information with one another. There are many different topics among the numerous questions posted on Stack Overflow and security-related questions occupy a large proportion and have an important and significant position. We first use two heuristics to extract from the dataset the questions that are related to security based on the tags of the posts. And then we use an advanced topic model, Latent Diriehlet Allocation (LDA) tuned using Genetic Algorithm (GA), to cluster different security-related questions based on their texts. After obtaining the different topics of security-related questions, we use their metadata to make various analyses. We summarize all the topics into five main categories, and investigate the popularity and difficulty of different topics as well. Based on the results of our study, we conclude several implications for researchers, educators and practitioners. 展开更多
关键词 SECURITY stack overflow empirical study topic model
原文传递
Multi-Factor Duplicate Question Detection in Stack Overflow 被引量:5
13
作者 张芸 David Lo +1 位作者 夏鑫 孙建伶 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第5期981-997,共17页
Stack Overflow is a popular on-line question and answer site for software developers to share their experience and expertise. Among the numerous questions posted in Stack Overflow, two or more of them may express the ... Stack Overflow is a popular on-line question and answer site for software developers to share their experience and expertise. Among the numerous questions posted in Stack Overflow, two or more of them may express the same point and thus are duplicates of one another. Duplicate questions make Stack Overflow site maintenance harder, waste resources that could have been used to answer other questions, and cause developers to unnecessarily wait for answers that are already available. To reduce the problem of duplicate questions, Stack Overflow allows questions to be manually marked as duplicates of others. Since there are thousands of questions submitted to Stack Overflow every day, manually identifying duplicate questions is a difficult work. Thus, there is a need for an automated approach that can help in detecting these duplicate questions. To address the above-mentioned need, in this paper, we propose an automated approach named DuPPREDICTOR that takes a new question as input and detects potential duplicates of this question by considering multiple factors. DuPPREDICTOR extracts the title and description of a question and also tags that are attached to the question. These pieces of information (title, description, and a few tags) are mandatory information that a user needs to input when posting a question. DuPPREDICTOR then computes the latent topics of each question by using a topic model. Next, for each pair of questions, it computes four similarity scores by comparing their titles, descriptions, latent topics, and tags. These four similarity scores are finally combined together to result in a new similarity score that comprehensively considers the multiple factors. To examine the benefit of DuPPREDICTOR, we perform an experiment on a Stack Overflow dataset which contains a total of more than two million questions. The result shows that DuPPREDICTOR can achieve a recali-rate@20 score of 63.8%. We compare our approach with the standard search engine of Stack Overflow, and DuPPREDICTOR improves its recall-rate@10 score by 40.63%. We also compare our approach with approaches that only use title, description, topic, and tag similarity and Runeson et al.'s approach that has been used to detect duplicate bug reports, and DUPPREDICTOR improves their recall-rate@10 scores by 27.2%, 97.4%, 746.0%, 231.1%, and 16.4% respectively. 展开更多
关键词 software information site duplicate question stack overflow DupPredictor
原文传递
Multi-Feature Fusion Based Structural Deep Neural Network for Predicting Answer Time on Stack Overflow
14
作者 郭世凯 王思文 +3 位作者 李辉 范玉龙 刘亚清 张斌 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第3期582-599,共18页
Stack Overflow provides a platform for developers to seek suitable solutions by asking questions and receiving answers on various topics.However,many questions are usually not answered quickly enough.Since the questio... Stack Overflow provides a platform for developers to seek suitable solutions by asking questions and receiving answers on various topics.However,many questions are usually not answered quickly enough.Since the questioners are eager to know the specific time interval at which a question can be answered,it becomes an important task for Stack Overflow to feedback the answer time to the question.To address this issue,we propose a model for predicting the answer time of questions,named Predicting Answer Time(i.e.,PAT model),which consists of two parts:a feature acquisition and fusion model,and a deep neural network model.The framework uses a variety of features mined from questions in Stack Overflow,including the question description,question title,question tags,the creation time of the question,and other temporal features.These features are fused and fed into the deep neural network to predict the answer time of the question.As a case study,post data from Stack Overflow are used to assess the model.We use traditional regression algorithms as the baselines,such as Linear Regression,K-Nearest Neighbors Regression,Support Vector Regression,Multilayer Perceptron Regression,and Random Forest Regression.Experimental results show that the PAT model can predict the answer time of questions more accurately than traditional regression algorithms,and shorten the error of the predicted answer time by nearly 10 hours. 展开更多
关键词 answer time structural deep neural network stack overflow feature acquisition feature fusion
原文传递
基于操作系统行为测量的栈溢出检测方法
15
作者 王俊卿 邬江 +1 位作者 黄永洪 祝林 《网络安全与数据治理》 2025年第3期1-7,共7页
分析栈溢出原因和现有检测技术,提出一种基于操作系统行为测量的栈溢出检测方法。以操作系统行为测量为理论基础,对操作系统行为进行形式化定义。利用虚拟机自省技术实时监控程序运行时的内存访问,实现透明带外检测栈缓冲区溢出行为。... 分析栈溢出原因和现有检测技术,提出一种基于操作系统行为测量的栈溢出检测方法。以操作系统行为测量为理论基础,对操作系统行为进行形式化定义。利用虚拟机自省技术实时监控程序运行时的内存访问,实现透明带外检测栈缓冲区溢出行为。实验结果表明,该方法能有效识别栈缓冲区溢出,且具有较低的误报率。这一研究成果为提高系统安全性提供了新的视角和解决方案。 展开更多
关键词 栈溢出 虚拟机自省 检测方法
在线阅读 下载PDF
本地缓冲区溢出问题的深度分析
16
作者 张超生 《计算机应用文摘》 2025年第3期191-192,195,共3页
本地缓冲区溢出是一种普遍且危险的漏洞,广泛存在于各种操作系统和应用软件中。它是指向程序的缓冲区输入超出其容量的数据,导致数据溢出并覆盖相邻内存空间,从而破坏程序的正常运行,甚至可能使攻击者获取程序或系统的控制权。文章详细... 本地缓冲区溢出是一种普遍且危险的漏洞,广泛存在于各种操作系统和应用软件中。它是指向程序的缓冲区输入超出其容量的数据,导致数据溢出并覆盖相邻内存空间,从而破坏程序的正常运行,甚至可能使攻击者获取程序或系统的控制权。文章详细阐述了本地缓冲区溢出的原理,并通过程序代码示例进行分析,进一步探讨了防范本地缓冲区溢出的有效措施和技术手段。 展开更多
关键词 缓冲区 溢出 堆栈 拒绝服务
在线阅读 下载PDF
基于软件多样性的栈溢出保护技术
17
作者 梁超毅 叶子昂 +1 位作者 戴华昇 张为华 《计算机系统应用》 2025年第8期43-52,共10页
缓冲区溢出漏洞广泛存在于由不安全的高级语言所编写的程序中.利用缓冲区溢出漏洞,攻击者可以实现控制流劫持等危险攻击方式.基于Canary的栈保护技术是处理缓冲区溢出漏洞的一种简单有效且广泛部署的防御手段,然而位置固定和取值相同的... 缓冲区溢出漏洞广泛存在于由不安全的高级语言所编写的程序中.利用缓冲区溢出漏洞,攻击者可以实现控制流劫持等危险攻击方式.基于Canary的栈保护技术是处理缓冲区溢出漏洞的一种简单有效且广泛部署的防御手段,然而位置固定和取值相同的特点使其容易被攻击者分析和破解.本文提出一种基于软件多样性的栈保护技术,它以拥有随机化大小和偏移的异构Canary为核心,不仅能直接抵御常规Canary无法处理的泄漏类和覆盖类攻击,而且能构造出各种更加安全的多样性软件系统.实验结果表明,异构Canary在有效提升安全性的同时仅为SPEC CPU 2017基准程序集额外引入了不高于2%的编译开销和平均3.22%的运行开销. 展开更多
关键词 栈溢出保护 随机化 软件多样性 缓冲区溢出 控制流劫持
在线阅读 下载PDF
一种结合代码片段和混合主题模型的软件数据聚类方法 被引量:2
18
作者 魏林林 沈国华 +2 位作者 黄志球 蔡梦男 郭菲菲 《计算机科学》 CSCD 北大核心 2024年第6期44-51,共8页
使用主题模型进行文档聚类是众多文本挖掘任务中一种常见的做法。许多研究针对软件问答网站的数据,利用主题模型进行聚类来分析不同领域在社区的发展情况。然而,这些软件相关数据往往包含代码片段且文本长度分布不均,使用传统单一的主... 使用主题模型进行文档聚类是众多文本挖掘任务中一种常见的做法。许多研究针对软件问答网站的数据,利用主题模型进行聚类来分析不同领域在社区的发展情况。然而,这些软件相关数据往往包含代码片段且文本长度分布不均,使用传统单一的主题模型对文本数据建模,易得到不稳定的聚类结果。文中提出了一种结合代码片段和混合主题模型的聚类方法,并使用Stack Overflow作为数据源,构造了在该平台上被提问数量排名前60的Python第三方库数据集,经过建模,该数据集最终划分为以下6个不同的领域:网络安全、数据分析、人工智能、文本处理、软件开发和系统终端。实验结果表明,在自动评估和人工评估的指标上,使用代码片段结合文本进行主题建模,在聚类结果划分的质量上表现良好,而联合多个模型进行实验,一定程度上提高了聚类结果的稳定性和准确性。 展开更多
关键词 代码片段 主题模型 stack overflow PYTHON 聚类
在线阅读 下载PDF
Tenda AX12路由器0-Day栈溢出漏洞挖掘方法
19
作者 郑炜 许晴晴 +2 位作者 李奇 陈翔 孙家泽 《信息安全学报》 CSCD 2024年第3期157-175,共19页
随着5G技术对物联网发展的加速,预计到2025年将会有约250亿台物联网设备连接到人们的生活。其中承担物联网设备网络管理角色的路由器使用量非常大,但是路由器存在众多安全问题,通过路由器设备进行攻击,可以非法获取用户信息。为了维护... 随着5G技术对物联网发展的加速,预计到2025年将会有约250亿台物联网设备连接到人们的生活。其中承担物联网设备网络管理角色的路由器使用量非常大,但是路由器存在众多安全问题,通过路由器设备进行攻击,可以非法获取用户信息。为了维护网络安全,提前发现路由器的漏洞具有重要的研究意义。本文以Tenda AX12路由器为研究对象,从固件入手对其进行0-Day栈溢出漏洞挖掘研究,并提出了基于危险函数追踪的逆向分析漏洞挖掘方法。首先从危险函数中分析函数所在前端的对应位置,将前后端对应;然后对固件中的Web服务进行分析,对其中可能发生栈溢出的httpd二进制代码进行危险函数分析,该方法使用反汇编代码对危险函数的普通形式和展开形式进行定位,并对危险函数进行参数分析和动态检测;接着通过搭建仿真模拟机在模拟机上运行该服务的二进制文件,并在Web前端页面对潜在漏洞位置进行数据包捕捉;最后根据前期分析的危险函数参数情况对包进行改写并发送,以此来触发漏洞,验证漏洞的存在性,同时验证该危险函数是否发生栈溢出。为了更真实地确定漏洞存在,我们又在真实设备上验证漏洞的真实存在性和可利用性。实验结果表明了该漏洞的挖掘检测方法的有效性,我们分别在不同型号的路由器上挖掘到4个0-Day漏洞,并且经过与SaTC工具进行对比实验结果表明该检测方法能够更准确的定位到出现漏洞的函数位置。 展开更多
关键词 物联网 路由器 危险函数strcpy 0-Day栈溢出漏洞 SaTC
在线阅读 下载PDF
基于问答语义匹配的知识社区新问题专家推荐方法 被引量:2
20
作者 杜军威 邹树林 +3 位作者 李浩杰 江峰 于旭 胡强 《电子学报》 EI CAS CSCD 北大核心 2023年第7期1875-1888,共14页
传统的知识社区专家推荐方法采用文本相似度匹配机理,并基于问题或专家描述来构建专家特征.这些方法没有利用问题与答案的语义匹配关系,因此难以充分挖掘专家回答问题的能力特征,影响推荐性能.提出一种基于综合历史和当前问答语义匹配... 传统的知识社区专家推荐方法采用文本相似度匹配机理,并基于问题或专家描述来构建专家特征.这些方法没有利用问题与答案的语义匹配关系,因此难以充分挖掘专家回答问题的能力特征,影响推荐性能.提出一种基于综合历史和当前问答语义匹配的知识社区新问题的专家推荐方法(History-Now Semantics Expert RECommendation model,HNS-EREC).首先,采用反馈评价和负采样技术来处理数据集中的两类不平衡现象;其次,基于问答语义来提取专家回答问题能力特征;最后,提出一种基于问答语义匹配的History-Now联合专家推荐模型,该模型能够实现面向专家的历史问答和当前问答的语义联合学习.实验结果表明,相对于其他方法,本文所提出的HNS-EREC方法在新问题专家推荐方面具有显著的优势. 展开更多
关键词 专家推荐 知识社区 不平衡学习 问答语义 stack overflow
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部