期刊文献+
共找到197篇文章
< 1 2 10 >
每页显示 20 50 100
Integrated Real-Time Big Data Stream Sentiment Analysis Service 被引量:1
1
作者 Sun Sunnie Chung Danielle Aring 《Journal of Data Analysis and Information Processing》 2018年第2期46-66,共21页
Opinion (sentiment) analysis on big data streams from the constantly generated text streams on social media networks to hundreds of millions of online consumer reviews provides many organizations in every field with o... Opinion (sentiment) analysis on big data streams from the constantly generated text streams on social media networks to hundreds of millions of online consumer reviews provides many organizations in every field with opportunities to discover valuable intelligence from the massive user generated text streams. However, the traditional content analysis frameworks are inefficient to handle the unprecedentedly big volume of unstructured text streams and the complexity of text analysis tasks for the real time opinion analysis on the big data streams. In this paper, we propose a parallel real time sentiment analysis system: Social Media Data Stream Sentiment Analysis Service (SMDSSAS) that performs multiple phases of sentiment analysis of social media text streams effectively in real time with two fully analytic opinion mining models to combat the scale of text data streams and the complexity of sentiment analysis processing on unstructured text streams. We propose two aspect based opinion mining models: Deterministic and Probabilistic sentiment models for a real time sentiment analysis on the user given topic related data streams. Experiments on the social media Twitter stream traffic captured during the pre-election weeks of the 2016 Presidential election for real-time analysis of public opinions toward two presidential candidates showed that the proposed system was able to predict correctly Donald Trump as the winner of the 2016 Presidential election. The cross validation results showed that the proposed sentiment models with the real-time streaming components in our proposed framework delivered effectively the analysis of the opinions on two presidential candidates with average 81% accuracy for the Deterministic model and 80% for the Probabilistic model, which are 1% - 22% improvements from the results of the existing literature. 展开更多
关键词 SENTIMENT ANALYSIS REAL-TIME text ANALYSIS OPINION ANALYSIS big data An-alytics
在线阅读 下载PDF
基于Apriori算法的人才需求分析
2
作者 郑翊 《山西电子技术》 2026年第1期98-100,共3页
基于大数据技术以及人工智能技术飞速发展下,推动软件工程应用范围逐步扩大,为多个领域的发展起到了重要推动作用,并在相应的领域中取得了良好的成效。如何借助大数据时代下的技术提取分析软件工程专业的人才技能模型,是高校目前的研究... 基于大数据技术以及人工智能技术飞速发展下,推动软件工程应用范围逐步扩大,为多个领域的发展起到了重要推动作用,并在相应的领域中取得了良好的成效。如何借助大数据时代下的技术提取分析软件工程专业的人才技能模型,是高校目前的研究热点。基于此,使用以TF-IDF值采样方法抽取文本数据集中的岗位关键词,再选择简单关联分析中经典的Apriori算法来进行技能分析。并从多个角度和维度对软件工程专业就业技能的需求进行了分析。获得了软件工程人才市场需求信息的岗位技能需求,准确地了解企业所需人才的特定要求,从而为制定与企业需求相符的人才培养方案提供科学的决策支持。 展开更多
关键词 大数据 软件工程 文本挖掘技术 APRIORI算法
在线阅读 下载PDF
基于FastText的短文本分类 被引量:5
3
作者 王光慈 汪洋 《电子设计工程》 2020年第3期98-101,共4页
在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意... 在大数据背景下,如何快速准确的从庞大数据集中筛选过滤出有用信息一直是自然语言处理领域的一个研究目标,对用户所提问题进行意图识别能够帮助用户在向问答系统进行沟通的时候,根据用户提出的直接或者间接的信息来快速判断用户的真实意图,过滤无用冗余信息后返回一个概率最大答案给用户。FastText是Facebook AI Research推出的文本分类和词训练工具,它的最大特点是模型简单并且在文本分类的准确率上,和现有的深度学习的方法效果相近,即在保证了准确率的情况下大大缩短了分类时间。 展开更多
关键词 自然语言处理 大数据 Fasttext 文本分类
在线阅读 下载PDF
基于大数据文本挖掘的公众感知的动态演化研究——以黑龙江省营商环境为例
4
作者 刘刊 孙雪莹 周宏瑞 《管理评论》 北大核心 2025年第9期222-236,共15页
在自媒体信息时代,公众感知的作用越来越明显,因此,公众感知的偏差会带来较大负面影响。建立有效的公众感知的维度和主题演化的分析方法,能够为识别公共舆论偏差和优化舆论生态提供理论基础。然而,公众感知存在着碎片化、多样化、多维... 在自媒体信息时代,公众感知的作用越来越明显,因此,公众感知的偏差会带来较大负面影响。建立有效的公众感知的维度和主题演化的分析方法,能够为识别公共舆论偏差和优化舆论生态提供理论基础。然而,公众感知存在着碎片化、多样化、多维度等特征,识别并描述公众感知的演化过程相对困难。本文基于社会放大效应理论和大数据文本挖掘方法,通过划分时间切片,从公众“放大站”和动态演化视角识别公众的关注点和情感态度演化过程,构建了公众感知演化分析的体系框架。以2016—2022年公众评论为数据,探索黑龙江省营商环境公众感知的社会放大效应及其影响因素。研究结果表明:将社会放大效应理论与文本挖掘方法结合,能够有效识别公众感知的演化和舆论偏差形成过程,优化文化生态环境;在社会放大效应作用下,公众感知表现出从客观到主观、小题大做的主题演化过程,最终形成公共舆论偏差;营商环境的公众感知主要受经济发展、政府政策、政府办事效率和旅游业的影响。同时,实证分析得出黑龙江省营商环境公众感知的负面情绪,经济衰退是根本原因,还受到Covid-19、经济萧条、旅游业发展变缓的影响,为黑龙江省制定有效的营商环境公众感知提升策略提供指引。 展开更多
关键词 社会放大效应 大数据文本挖掘 公众感知 “放大站” 营商环境
原文传递
大数据应用能否促进企业创新的“增量提质”? 被引量:5
5
作者 钱秋兰 刘建江 +1 位作者 罗双成 侯杰 《科学决策》 2025年第4期46-62,共17页
大数据技术在各行业中的广泛应用成为推动企业转型和高质量发展的重要驱动力。文章从数量和质量两个维度深入分析大数据应用对企业创新的影响,并运用2009-2022年中国制造业上市公司数据进行实证检验。结果发现,大数据应用显著提升了企... 大数据技术在各行业中的广泛应用成为推动企业转型和高质量发展的重要驱动力。文章从数量和质量两个维度深入分析大数据应用对企业创新的影响,并运用2009-2022年中国制造业上市公司数据进行实证检验。结果发现,大数据应用显著提升了企业创新水平和创新质量,且在考虑内生性和一系列稳健性检验下依然显著,其创新效应在中小私营企业、竞争程度高的行业的影响更大。整体上,大数据应用一方面通过降低信息不对称促进企业创新要素投入,另一方面达到了降本增效的效果,从而推动了企业创新的“增量提质”。进一步分析发现,技术劳动结构和互联网发展水平是影响大数据应用创新效应的内外部因素。研究结果是对企业创新行为研究的有益补充,可为大数据发展服务实体经济政策及加快形成新质生产力提供重要参考。 展开更多
关键词 企业创新 增量提质 大数据应用 文本分析工具
在线阅读 下载PDF
大数据能否缓解环境治理中的委托代理问题? 被引量:4
6
作者 汪顺 周泽将 陈一玲 《中国人口·资源与环境》 北大核心 2025年第1期124-132,共9页
环境委托代理问题在政府、公众和企业层面广泛存在,严重阻碍了中国经济社会的绿色化转型。该研究基于企业环保新闻文本情绪这一独特数据,将政府、公众以及企业在环境治理中的代理问题纳入了一个统一的分析框架,利用双重差分法检验了上... 环境委托代理问题在政府、公众和企业层面广泛存在,严重阻碍了中国经济社会的绿色化转型。该研究基于企业环保新闻文本情绪这一独特数据,将政府、公众以及企业在环境治理中的代理问题纳入了一个统一的分析框架,利用双重差分法检验了上述问题。结果表明:①大数据环境治理试点显著改善了试点地区企业的环保新闻文本情绪。上述结论在经过平行趋势与动态效应检验、熵平衡法检验等一系列的稳健性检验后仍保持较高的稳健性。②机制检验表明,大数据环境治理试点可促进企业采取环保投资和绿色创新的积极环境策略以改善其环境绩效,同时排除了企业采取生产调整以及金融化等影响企业主业发展的消极式环境治理行为。③异质性分析则表明,当政府环保关注度、公众环保关注度以及企业环保关注度更高时,大数据环境治理试点的治理效应更加明显,此时大数据环境治理体系建设能够更好地缓解委托代理问题,改善企业环境绩效。④经济效应检验发现,在生态大数据治理体系的作用下,企业绿色转型不仅有利于其生产率的提升,更能降低企业风险,这意味着大数据治理下的企业绿色转型可以更好地助推企业高质量发展。以上结论不仅有助于理解环境治理中的委托代理问题,更彰显了大数据环境治理体系在提高环境绩效中的重要作用,也为进一步推动国家环境治理的数字化转型提供了参考。 展开更多
关键词 大数据 环境治理 委托代理 环保新闻 文本情绪
在线阅读 下载PDF
企业数字化转型信息披露模式与动机研究——基于文本信息披露的大数据分析 被引量:1
7
作者 卫铭 李心月 《税务与经济》 北大核心 2025年第2期59-69,共11页
当前,企业数字化转型的信息披露成为热点话题,其中不乏通过策略性信息披露模式误导投资者的现象。研究发现:企业为了获得投资者的青睐,更倾向于“多言多行”的披露模式;企业业绩压力越大,越倾向于采用“寡言寡行”的数字化信息披露模式... 当前,企业数字化转型的信息披露成为热点话题,其中不乏通过策略性信息披露模式误导投资者的现象。研究发现:企业为了获得投资者的青睐,更倾向于“多言多行”的披露模式;企业业绩压力越大,越倾向于采用“寡言寡行”的数字化信息披露模式;当企业受到违规处罚后,倾向于选择“多言寡行”的策略性数字化信息披露模式;当管理者能力越大,越倾向于选择“寡言多行”的数字化信息披露模式。 展开更多
关键词 企业数字化转型 信息披露模式 大数据文本分析 动机研究
原文传递
AIGC赋能下文本挖掘课程教学改革初探 被引量:3
8
作者 杨秀璋 武帅 +2 位作者 吴福生 陈超帆 吴炫璋 《计算机时代》 2025年第2期71-75,80,共6页
探索人工智能生成内容(Artificial Intelligence Generated Content,AIGC)赋能下文本挖掘课程改革的有效路径,以提升学生数字素养、创新能力和实践技能,满足社会对创新型人才的需求。此课程教学改革注重大语言模型的应用教学,以实际问... 探索人工智能生成内容(Artificial Intelligence Generated Content,AIGC)赋能下文本挖掘课程改革的有效路径,以提升学生数字素养、创新能力和实践技能,满足社会对创新型人才的需求。此课程教学改革注重大语言模型的应用教学,以实际问题和案例为切入点,通过构建“教-学-研-用”一体化培养模式,强化学生理论与实践的联动,提升其在研究问题时的独立性和创新性。 展开更多
关键词 AIGC 文本挖掘 教学改革 大数据 知识图谱
在线阅读 下载PDF
基于流式处理架构的格式化数据采集方法
9
作者 郭安邦 戴耀 张坤 《计算机应用文摘》 2025年第22期274-276,共3页
当前,大规模日志处理普遍面临格式不统一、带宽资源浪费、以及敏感信息泄露风险等挑战。文章聚焦大数据采集技术,针对分布式环境下多服务器海量结构化文本日志的高效采集需求,提出一种适用于分布式场景的格式化数据采集方法。通过日志... 当前,大规模日志处理普遍面临格式不统一、带宽资源浪费、以及敏感信息泄露风险等挑战。文章聚焦大数据采集技术,针对分布式环境下多服务器海量结构化文本日志的高效采集需求,提出一种适用于分布式场景的格式化数据采集方法。通过日志格式化处理、敏感信息脱敏、重复字段优化与标准格式转换,有效提升了数据采集效率,增强了数据安全性,并降低了传输与存储成本。该方法能够为大数据及人工智能应用提供高质量、规范化的数据基础,从而提升数据处理与分析的整体效能,对于推动相关领域的技术发展具有积极意义。 展开更多
关键词 数据采集 大数据 结构化文本日志 数据预处理 数据分析
在线阅读 下载PDF
线上用户评论文本挖掘的可视化研究
10
作者 何苏 禹水琴 《科技资讯》 2025年第16期252-256,共5页
目的 为更深入地对线上用户评论进行文本挖掘,并将文本大数据挖掘的结果直观地进行呈现和知识提取。方法 利用困惑度指标对主题数寻优后,构建潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,对中文评论进行主题提取,并通过余... 目的 为更深入地对线上用户评论进行文本挖掘,并将文本大数据挖掘的结果直观地进行呈现和知识提取。方法 利用困惑度指标对主题数寻优后,构建潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,对中文评论进行主题提取,并通过余弦相似度对主题间的继承、消失、新生的演化路径进行分析。结果在大量的新能源汽车线上用户评论文本数据中,通过文本挖掘技术获取热度品牌或型号、消费者对新能源汽车的关注热点、主题的演化路径等信息,并利用基于词频统计、基于语义、基于多维度的可视化技术对挖掘结果进行可视化。结论 在此研究模型下,能够对线上用户评论的主题进行智能提取和可视化。 展开更多
关键词 可视化 LDA模型 大数据 文本挖掘
在线阅读 下载PDF
基于互联网大数据的人物轨迹预测研究
11
作者 李进珍 崔少锋 +2 位作者 王玮 李基诚 陈介威 《网络安全与数据治理》 2025年第S1期286-290,共5页
互联网大数据是个人活动建模和行动预测的重要数据源。文章利用基于文字分布特征的网页正文提取、基于无监督分词的命名实体识别、跨尺度的人脸表征学习等技术方法,整合、关联、挖掘泛在互联网大数据,文本信息主体提取准确率可达96.43%... 互联网大数据是个人活动建模和行动预测的重要数据源。文章利用基于文字分布特征的网页正文提取、基于无监督分词的命名实体识别、跨尺度的人脸表征学习等技术方法,整合、关联、挖掘泛在互联网大数据,文本信息主体提取准确率可达96.43%,人脸与人名对应准确率可达96.5%,跨尺度人脸识别数据集距离实验实现业内领先。同时提出了一种基于时空图神经网络的行踪预测方法,对重点人物的预测准确度达到55%以上。 展开更多
关键词 大数据 人物轨迹 文本挖掘 人脸识别
在线阅读 下载PDF
基于深度学习的档案数据挖掘技术研究进展 被引量:3
12
作者 范书珍 《山西档案》 北大核心 2025年第4期134-137,共4页
档案数字化转型为海量档案数据的积累奠定了基础,但档案数据中蕴含的巨大价值尚未得到充分挖掘。深度学习的出现,为破解档案数据挖掘难题带来了新契机。通过系统梳理深度学习在档案数据挖掘领域的研究进展,探索了以深度学习驱动的档案... 档案数字化转型为海量档案数据的积累奠定了基础,但档案数据中蕴含的巨大价值尚未得到充分挖掘。深度学习的出现,为破解档案数据挖掘难题带来了新契机。通过系统梳理深度学习在档案数据挖掘领域的研究进展,探索了以深度学习驱动的档案数据分析新范式,为档案数据挖掘提供理论参考与技术指引。 展开更多
关键词 档案大数据 深度学习 档案视频数据 档案文本挖掘
在线阅读 下载PDF
基于网络大数据的辽宁典型海洋旅游景区游客体验质量研究
13
作者 王爽 鲁小波 《海洋经济》 2025年第6期49-56,共8页
海洋旅游作为海洋经济的重要组成部分,已成为国民经济发展的新增长点,不断提升游客体验质量对促进海洋旅游发展具有重要作用。本文基于网络爬虫技术,以国内最大的中文在线旅游平台——携程旅行网中游客的点评数据为样本,以辽宁典型海洋... 海洋旅游作为海洋经济的重要组成部分,已成为国民经济发展的新增长点,不断提升游客体验质量对促进海洋旅游发展具有重要作用。本文基于网络爬虫技术,以国内最大的中文在线旅游平台——携程旅行网中游客的点评数据为样本,以辽宁典型海洋旅游景区为研究对象,通过词频、语义网络以及情感分析方法对游客体验质量进行系统性研究。结果发现:(1)游客体验质量包括5个层次,分别为海洋旅游资源及景区、海洋旅游形象、海洋旅游配套设施与服务、海洋旅游游客感受和海洋旅游游客行为;(2)游客评论的语义网络呈现“核心-次核心-过渡-次边缘-边缘”五层结构;(3)在游客情感分析中,积极情绪所占比例为79.68%,中性情绪所占比例为7.90%,消极情绪所占比例为12.42%,整体而言游客满意度较高,但也有一定比例的消极情绪存在。为了进一步提升游客体验质量,辽宁海洋旅游景区应采取以下措施:(1)挖掘文化内涵,打造独特海洋旅游项目;(2)调整定价策略,提高游客的购票满意度;(3)改善旅游环境,提升游客海洋旅游体验;(4)加强管理培训,强化从业人员服务意识;(5)完善配套设施,强化海洋景区安全保障。 展开更多
关键词 大数据 辽宁 海洋旅游 游客体验 网络文本
在线阅读 下载PDF
网络社交媒体文本分析在公园设计反馈中的应用实践——以广州市云溪植物园的社交媒体数据分析为例
14
作者 冯阳生 《智能建筑与智慧城市》 2025年第S2期401-403,共3页
数据时代下,社交媒体平台为景观设计师提供了一种新的用户反馈获取渠道。文章以广州市云溪植物园为案例,探索运用网络文本情感分析方法对公园使用者体验进行量化研究。通过运用智能化工具采集微博与小红书中的相关评论,并借助文本分析工... 数据时代下,社交媒体平台为景观设计师提供了一种新的用户反馈获取渠道。文章以广州市云溪植物园为案例,探索运用网络文本情感分析方法对公园使用者体验进行量化研究。通过运用智能化工具采集微博与小红书中的相关评论,并借助文本分析工具,对文本中的高频词、情绪倾向进行归纳分析。结果显示,公众对生态环境与景观设计持积极评价,但在交通便捷性与服务设施方面存在一定不足。实践表明,网络文本分析可成为园林实践中的“虚拟回访”工具,为项目优化与未来设计提供有效的数据支持。 展开更多
关键词 城市公园 社交媒体 智能化工具 大数据 文本情感分析
在线阅读 下载PDF
基于改进剪枝策略的专业大数据主特征提取方法研究
15
作者 苗立宁 张韫 +2 位作者 王利军 李希喆 李美亮 《电子设计工程》 2025年第5期22-25,30,共5页
电力工程信息的智能化检测与分析大多是基于数字类型的数据来展开的,而对于工程建设中文本型数据的检测模型而言,在检测准确度与检测速度方面均存在较大的改进空间。针对这一问题,文中构建了一套基于改进剪枝策略的专业大数据主要特征... 电力工程信息的智能化检测与分析大多是基于数字类型的数据来展开的,而对于工程建设中文本型数据的检测模型而言,在检测准确度与检测速度方面均存在较大的改进空间。针对这一问题,文中构建了一套基于改进剪枝策略的专业大数据主要特征提取模型,以提高对专业文本数据的处理能力,实现对电力工程项目的全面评估。该模型通过深度神经网络对电力工程数据进行特征提取,并对数据特征进行结构分析,通过数据特征与风险库信息的相似度匹配,实现了对电力工程信息的风险判别。以某电力工程项目文本数据进行的评估测试结果表明,文中所提方法能够准确地提取出电力工程文本型数据的关键特征,并且可以分析挖掘出数据所蕴含的风险。 展开更多
关键词 剪枝策略 电力工程 大数据分析 文本数据
在线阅读 下载PDF
数据科学与人工智能技术:历史学研究的机遇和挑战
16
作者 列昂尼德·约瑟福维奇·鲍罗德金 张广翔 苏宁 《延边大学学报(社会科学版)》 2025年第5期84-98,142,F0003,共17页
21世纪的数字化转型浪潮席卷了历史科学的诸多领域,历史学研究正迎来前所未有的机遇和挑战。数据科学和人工智能技术的引入,如人工神经网络、机器学习、大数据分析等,为历史学研究提供了新的路径和技术手段。历史学家运用人工智能方法... 21世纪的数字化转型浪潮席卷了历史科学的诸多领域,历史学研究正迎来前所未有的机遇和挑战。数据科学和人工智能技术的引入,如人工神经网络、机器学习、大数据分析等,为历史学研究提供了新的路径和技术手段。历史学家运用人工智能方法的探索可追溯至20世纪80至90年代,主要聚焦于认知计算模型在文本理解中的应用以及专家系统的开发。虽然历史学领域很少遇到真正意义上的“大数据”,但微观数据,尤其是历史人口学领域的数据,已超出传统数据处理方法的能力范围。例如,“微观数据挖掘”国际项目、CLARIAH项目、威尼斯时光机项目等,均展现出大数据技术在历史研究中的应用潜力。进入21世纪,机器学习技术和人工神经网络成为历史学研究的新焦点,人工智能的应用已拓展至手写文本识别和古文字鉴定等领域。历史学家需与信息技术专家密切联系,进行跨学科合作,才能实现人工智能与历史学者智慧的融合,充分释放人工智能技术的潜力。 展开更多
关键词 历史研究方法 手写文本识别 古文字鉴定 数据科学 人工智能 人工神经网络 大数据
在线阅读 下载PDF
在线社区支持倾向对股市收益和波动的影响 被引量:14
17
作者 钱宇 李子饶 +1 位作者 李强 袁华 《管理科学学报》 CSSCI CSCD 北大核心 2020年第2期140-154,共15页
互联网技术的飞速发展使得非专业的个体投资者可以通过在线金融社区分享信息并表达倾向.本文利用东方财富网的5178824条用户评论,运用卷积神经网络的分类算法,提取并测量了在线用户对未来市场看涨或看跌的支持倾向,并从市场收益和波动... 互联网技术的飞速发展使得非专业的个体投资者可以通过在线金融社区分享信息并表达倾向.本文利用东方财富网的5178824条用户评论,运用卷积神经网络的分类算法,提取并测量了在线用户对未来市场看涨或看跌的支持倾向,并从市场收益和波动两个方面,检验了在线用户支持倾向及其一致性对股市的影响.结果表明,在线用户当期支持倾向对未来的股市收益具有显著的负向影响,支持倾向的一致性则会放大市场的波动幅度.进一步的证据表明,用户支持倾向很大程度上是基于股票市场的历史表现而形成,且具有一定的“羊群效应”. 展开更多
关键词 文本大数据 在线社区 支持倾向 市场收益 市场波动
在线阅读 下载PDF
基于Spark框架XGBoost的林业文本并行分类方法研究 被引量:11
18
作者 崔晓晖 师栋瑜 +1 位作者 陈志泊 许福 《农业机械学报》 EI CAS CSCD 北大核心 2019年第6期280-287,共8页
针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法... 针对当前“互联网+”技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0.9234,在各类别中最低F1为0.8604,最高为0.9984;其在2.1万条、4.2万条、8.4万条数据集上的训练加速比分别为2.13、3.47、3.82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。 展开更多
关键词 林业文本 文本分类 大数据分析 SPARK XGBoost
在线阅读 下载PDF
电力企业投诉工单文本挖掘模型 被引量:14
19
作者 刘兴平 章晓明 +5 位作者 沈然 林少娃 章琛敏 张维 朱斌 何韵 《电力需求侧管理》 2016年第2期57-60,共4页
以客户投诉工单和回访不满意工单为样本,引入LDA文档主题生成模型对文本信息进行中文自然语言处理和数据挖掘,发现问题属性类别,通过大数据对文本挖掘结果进行分析和监控,构建适合电力公司的投诉工单文本挖掘模型,实现对工单进行分类筛... 以客户投诉工单和回访不满意工单为样本,引入LDA文档主题生成模型对文本信息进行中文自然语言处理和数据挖掘,发现问题属性类别,通过大数据对文本挖掘结果进行分析和监控,构建适合电力公司的投诉工单文本挖掘模型,实现对工单进行分类筛选、便签判断和初步归因。 展开更多
关键词 客户满意度 诉投工单 文本挖掘 大数据分析
在线阅读 下载PDF
新经济业态P2P网络借贷的风险甄别研究 被引量:45
20
作者 范超 王磊 解明明 《统计研究》 CSSCI 北大核心 2017年第2期33-43,共11页
国内P2P网贷平台存在的问题及风险令人触目惊心,本研究旨在探索P2P网络借贷这一重要新经济业态的风险甄别问题。本文在我国444家P2P平台基本信息与交易信息基础上,通过网络爬虫获取了30万余条网民评论和新闻数据,利用文本挖掘技术提取... 国内P2P网贷平台存在的问题及风险令人触目惊心,本研究旨在探索P2P网络借贷这一重要新经济业态的风险甄别问题。本文在我国444家P2P平台基本信息与交易信息基础上,通过网络爬虫获取了30万余条网民评论和新闻数据,利用文本挖掘技术提取了重要的外部信息,综合使用11种统计模型评估变量的重要性并讨论其经济意义。研究表明:1平台风险与基本信息、交易信息和外部信息间存在复杂的非线性关系,SVM、树类模型等非线性模型对预判P2P平台风险更加有效;2网民评论、关注度等基于互联网的非结构化信息,以及平均利率波动、资金净流入波动、未来待还金额波动等信息对甄别风险具有重要的作用;3根据拍拍贷的案例,小额、超短期、男性借款人具有更高的违约风险;4基于线性模式的传统风险指数构建方法并不适用于甄别P2P平台风险。有关部门应从完善法律法规、加大信息披露力度、发布风险预警综合指数等对P2P行业进行监管。 展开更多
关键词 P2P网络借贷 大数据 文本挖掘
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部