期刊文献+
共找到1,451篇文章
< 1 2 73 >
每页显示 20 50 100
An alert-situation text data augmentation method based on MLM
1
作者 DING Weijie MAO Tingyun +3 位作者 CHEN Lili ZHOU Mingwei YUAN Ying HU Wentao 《High Technology Letters》 EI CAS 2024年第4期389-396,共8页
The performance of deep learning models is heavily reliant on the quality and quantity of train-ing data.Insufficient training data will lead to overfitting.However,in the task of alert-situation text classification,i... The performance of deep learning models is heavily reliant on the quality and quantity of train-ing data.Insufficient training data will lead to overfitting.However,in the task of alert-situation text classification,it is usually difficult to obtain a large amount of training data.This paper proposes a text data augmentation method based on masked language model(MLM),aiming to enhance the generalization capability of deep learning models by expanding the training data.The method em-ploys a Mask strategy to randomly conceal words in the text,effectively leveraging contextual infor-mation to predict and replace masked words based on MLM,thereby generating new training data.Three Mask strategies of character level,word level and N-gram are designed,and the performance of each Mask strategy under different Mask ratios is analyzed and studied.The experimental results show that the performance of the word-level Mask strategy is better than the traditional data augmen-tation method. 展开更多
关键词 deep learning text data augmentation masked language model(MLM) alert-sit-uation text classification
在线阅读 下载PDF
Quantitative Comparative Study of the Performance of Lossless Compression Methods Based on a Text Data Model
2
作者 Namogo Silué Sié Ouattara +1 位作者 Mouhamadou Dosso Alain Clément 《Open Journal of Applied Sciences》 2024年第7期1944-1962,共19页
Data compression plays a key role in optimizing the use of memory storage space and also reducing latency in data transmission. In this paper, we are interested in lossless compression techniques because their perform... Data compression plays a key role in optimizing the use of memory storage space and also reducing latency in data transmission. In this paper, we are interested in lossless compression techniques because their performance is exploited with lossy compression techniques for images and videos generally using a mixed approach. To achieve our intended objective, which is to study the performance of lossless compression methods, we first carried out a literature review, a summary of which enabled us to select the most relevant, namely the following: arithmetic coding, LZW, Tunstall’s algorithm, RLE, BWT, Huffman coding and Shannon-Fano. Secondly, we designed a purposive text dataset with a repeating pattern in order to test the behavior and effectiveness of the selected compression techniques. Thirdly, we designed the compression algorithms and developed the programs (scripts) in Matlab in order to test their performance. Finally, following the tests conducted on relevant data that we constructed according to a deliberate model, the results show that these methods presented in order of performance are very satisfactory:- LZW- Arithmetic coding- Tunstall algorithm- BWT + RLELikewise, it appears that on the one hand, the performance of certain techniques relative to others is strongly linked to the sequencing and/or recurrence of symbols that make up the message, and on the other hand, to the cumulative time of encoding and decoding. 展开更多
关键词 Arithmetic Coding BWT Compression Ratio Comparative Study Compression Techniques Shannon-Fano HUFFMAN Lossless Compression LZW PERFORMANCE REDUNDANCY RLE text data Tunstall
在线阅读 下载PDF
Clustering Text Data Streams 被引量:7
3
作者 刘玉葆 蔡嘉荣 +1 位作者 印鉴 傅蔚慈 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第1期112-128,共17页
Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. Howe... Clustering text data streams is an important issue in data mining community and has a number of applications such as news group filtering, text crawling, document organization and topic detection and tracing etc. However, most methods are similarity-based approaches and only use the TF,IDF scheme to represent the semantics of text data and often lead to poor clustering quality. Recently, researchers argue that semantic smoothing model is more efficient than the existing TF,IDF scheme for improving text clustering quality. However, the existing semantic smoothing model is not suitable for dynamic text data context. In this paper, we extend the semantic smoothing model into text data streams context firstly. Based on the extended model, we then present two online clustering algorithms OCTS and OCTSM for the clustering of massive text data streams. In both algorithms, we also present a new cluster statistics structure named cluster profile which can capture the semantics of text data streams dynamically and at the same time speed up the clustering process. Some efficient implementations for our algorithms are also given. Finally, we present a series of experimental results illustrating the effectiveness of our technique. 展开更多
关键词 CLUSTERING database applications data mining text data streams
原文传递
Identifying Scientific Project-generated Data Citation from Full-text Articles: An Investigation of TCGA Data Citation 被引量:4
4
作者 Jiao Li Si Zheng +2 位作者 Hongyu Kang Zhen Hou Qing Qian 《Journal of Data and Information Science》 2016年第2期32-44,共13页
Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library arc... Purpose: In the open science era, it is typical to share project-generated scientific data by depositing it in an open and accessible database. Moreover, scientific publications are preserved in a digital library archive. It is challenging to identify the data usage that is mentioned in literature and associate it with its source. Here, we investigated the data usage of a government-funded cancer genomics project, The Cancer Genome Atlas(TCGA), via a full-text literature analysis.Design/methodology/approach: We focused on identifying articles using the TCGA dataset and constructing linkages between the articles and the specific TCGA dataset. First, we collected 5,372 TCGA-related articles from Pub Med Central(PMC). Second, we constructed a benchmark set with 25 full-text articles that truly used the TCGA data in their studies, and we summarized the key features of the benchmark set. Third, the key features were applied to the remaining PMC full-text articles that were collected from PMC.Findings: The amount of publications that use TCGA data has increased significantly since 2011, although the TCGA project was launched in 2005. Additionally, we found that the critical areas of focus in the studies that use the TCGA data were glioblastoma multiforme, lung cancer, and breast cancer; meanwhile, data from the RNA-sequencing(RNA-seq) platform is the most preferable for use.Research limitations: The current workflow to identify articles that truly used TCGA data is labor-intensive. An automatic method is expected to improve the performance.Practical implications: This study will help cancer genomics researchers determine the latest advancements in cancer molecular therapy, and it will promote data sharing and data-intensive scientific discovery.Originality/value: Few studies have been conducted to investigate data usage by governmentfunded projects/programs since their launch. In this preliminary study, we extracted articles that use TCGA data from PMC, and we created a link between the full-text articles and the source data. 展开更多
关键词 Scientific data Full-text literature Open access PubMed Central data citation
在线阅读 下载PDF
Automatic User Goals Identification Based on Anchor Text and Click-Through Data 被引量:6
5
作者 YUAN Xiaojie DOU Zhicheng ZHANG Lu LIU Fang 《Wuhan University Journal of Natural Sciences》 CAS 2008年第4期495-500,共6页
Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to th... Understanding the underlying goal behind a user's Web query has been proved to be helpful to improve the quality of search. This paper focuses on the problem of automatic identification of query types according to the goals. Four novel entropy-based features extracted from anchor data and click-through data are proposed, and a support vector machines (SVM) classifier is used to identify the user's goal based on these features. Experi- mental results show that the proposed entropy-based features are more effective than those reported in previous work. By combin- ing multiple features the goals for more than 97% of the queries studied can be correctly identified. Besides these, this paper reaches the following important conclusions: First, anchor-based features are more effective than click-through-based features; Second, the number of sites is more reliable than the number of links; Third, click-distribution- based features are more effective than session-based ones. 展开更多
关键词 query classification user goals anchor text click-through data information retrieval
在线阅读 下载PDF
A Complexity Analysis and Entropy for Different Data Compression Algorithms on Text Files 被引量:1
6
作者 Mohammad Hjouj Btoush Ziad E. Dawahdeh 《Journal of Computer and Communications》 2018年第1期301-315,共15页
In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorith... In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorithms on different files of different sizes and then conclude that: LZW is the best one in all compression scales that we tested especially on the large files, then Huffman, HFLC, and FLC, respectively. Data compression still is an important topic for research these days, and has many applications and uses needed. Therefore, we suggest continuing searching in this field and trying to combine two techniques in order to reach a best one, or use another source mapping (Hamming) like embedding a linear array into a Hypercube with other good techniques like Huffman and trying to reach good results. 展开更多
关键词 text FILES data Compression HUFFMAN Coding LZW Hamming ENTROPY COMPLEXITY
暂未订购
基于PaddleOCR与Style-Text的金融票据手写体文本识别 被引量:3
7
作者 张辉煌 王鸿硕 《科技创新与应用》 2024年第30期68-71,共4页
该文提出一种基于PaddleOCR框架的金融票据手写体文本识别方法,通过引入基于生成对抗网络(GAN)的数据合成工具Style-Text,增强模型对不同背景文本的识别能力。在真实的金融票据数据集上进行的实验表明,该方法在处理复杂文本和低质量图... 该文提出一种基于PaddleOCR框架的金融票据手写体文本识别方法,通过引入基于生成对抗网络(GAN)的数据合成工具Style-Text,增强模型对不同背景文本的识别能力。在真实的金融票据数据集上进行的实验表明,该方法在处理复杂文本和低质量图像方面表现出显著的优势,证明其在金融票据手写体文本识别中的有效性和实用性。 展开更多
关键词 金融票据识别 PaddleOCR 数据合成 手写体 文本识别
在线阅读 下载PDF
A feature representation method for biomedical scientific data based on composite text description
8
作者 SUN Wei 《Chinese Journal of Library and Information Science》 2009年第4期43-53,共11页
Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Ther... Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Therefore, the paper proposes a concept of composite text description(CTD) and a CTD-based feature representation method for biomedical scientific data. The method mainly uses different feature weight algorisms to represent candidate features based on two types of data sources respectively, combines and finally strengthens the two feature sets. Experiments show that comparing with traditional methods, the feature representation method is more effective than traditional methods and can significantly improve the performance of biomedcial data clustering. 展开更多
关键词 Composite text description Scientific data Feature representation Weight algorism
原文传递
Fast Data Processing of a Polarimeter-Interferometer System on J-TEXT
9
作者 刘煜锴 高丽 +3 位作者 刘海庆 杨曜 高翔 J-TEXT Team 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第12期1143-1147,共5页
A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversio... A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversion method, evolution of the density profile analyzed by this method can quickly offer important information. This method has the advantage of fast calculation speed with the order of ten milliseconds per normal shot and it is capable of processing up to 1 MHz sampled data, which is helpful for studying density sawtooth instability and the disruption between shots. In the duration of a flat-top plasma current of usual ohmic discharges on J-TEXT, shape factor u is ranged from 4 to 5. When the disruption of discharge happens, the density profile becomes peaked and the shape factor u typically decreases to 1. 展开更多
关键词 fast data processing polarimeter-interferometer J-text
在线阅读 下载PDF
社交平台的时尚流行偏好与机构预测结果的差异性分析
10
作者 刘丽娴 陈明 +1 位作者 李浩 向忠 《毛纺科技》 北大核心 2025年第1期90-96,共7页
为了分析流行趋势机构预测结果与消费者时尚流行偏好的差异,以WGSN、亦服科技、蝶讯网这3家在时尚趋势预测领域颇具影响力的机构作为研究对象,梳理目前国内外消费者时尚偏好、时尚流行趋势预测的研究现状,以小红书、微博作为消费者偏好... 为了分析流行趋势机构预测结果与消费者时尚流行偏好的差异,以WGSN、亦服科技、蝶讯网这3家在时尚趋势预测领域颇具影响力的机构作为研究对象,梳理目前国内外消费者时尚偏好、时尚流行趋势预测的研究现状,以小红书、微博作为消费者偏好数据源,利用文本挖掘、关键词频统计、相似性分析等方法,将3组基于专家转述的流行趋势关键词分别与平台趋势关键词进行对比。结果表明:3组基于专家转述的流行趋势关键词与平台趋势关键词具有显著性差异,其中蝶讯网的预测结果与消费者偏好相似度较高,其次是亦服科技,WGSN的预测与消费者偏好的差异性较大。可为时尚趋势预测行业更好地满足消费者需求提供参考。 展开更多
关键词 消费者时尚偏好 趋势预测 社交平台 文本数据 差异性分析
在线阅读 下载PDF
基于TextCNN模型的电子期刊文献推荐方法研究
11
作者 刁羽 薛红 《新世纪图书馆》 CSSCI 2024年第7期64-71,共8页
论文提出基于TextCNN模型的电子期刊文献推荐方法,旨在更好地精确把握文献内容的本质特征与用户文献需求的深层关系,实现电子期刊文献推荐服务的个性化和精准化。使用word2vec对文献题录信息进行向量化,使用TextCNN模型训练文献推荐模型... 论文提出基于TextCNN模型的电子期刊文献推荐方法,旨在更好地精确把握文献内容的本质特征与用户文献需求的深层关系,实现电子期刊文献推荐服务的个性化和精准化。使用word2vec对文献题录信息进行向量化,使用TextCNN模型训练文献推荐模型,最后主动将符合用户需求的文献推送给科研用户。实践证明,论文设计的推荐模型能够为用户推荐电子期刊文献,效果良好。 展开更多
关键词 textCNN 文本分类 电子期刊文献推荐 行为数据
在线阅读 下载PDF
基于改进注意力机制与对比学习的电力设备缺陷图文融合分类方法
12
作者 宋立业 孙梦宇 +1 位作者 闫云凤 陈祺浩 《高电压技术》 北大核心 2025年第9期4610-4619,I0016,共11页
电力设备运维过程中积累了大量缺陷图像与文本数据,这些数据对指导电力设备故障诊断及维护决策具有重要意义。针对现有电力设备缺陷分类任务中数据形式单一、融合层次浅、数据质量差等问题,该文提出了一种基于改进注意力机制和对比学习... 电力设备运维过程中积累了大量缺陷图像与文本数据,这些数据对指导电力设备故障诊断及维护决策具有重要意义。针对现有电力设备缺陷分类任务中数据形式单一、融合层次浅、数据质量差等问题,该文提出了一种基于改进注意力机制和对比学习的图文融合分类方法(image-text fusion classification method based on improved attention mechanism and contrastive learning,IAC-ITFusion)。首先,该方法设计了一种双循环跨模态注意力机制(dual-cycle cross-modal attention,DCCA),用于捕捉图文数据映射关系的同时整合特征信息。其次,基于对比学习的思想,提出了一种注意力引导损失函数,用于调控DCCA机制的学习方向,使其聚焦于正确的特征信息,实现图文数据特征的有效融合。最后,针对电力线、变电站设备缺陷图文融合分类任务进行实验验证,结果显示所提方法准确率分别达到98.48%和98.57%,证明了该方法在电力设备缺陷图文融合分类任务上的有效性,对于推动电力设备运维智能化发展具有重要意义。 展开更多
关键词 注意力机制 对比学习 电力设备 图文数据融合 缺陷分类
原文传递
我国数据要素政策文本的多维分析 被引量:5
13
作者 奉国和 彭凯林 《图书馆论坛》 北大核心 2025年第2期92-100,共9页
数据是新型生产要素,其发展方向和实施举措集中体现在数据要素政策文本中。文章以我国2020—2024年4月颁布的中央级数据要素政策文本为研究对象,从政策主题、政策工具、政策效力等维度进行分析,基于PMC指数评估政策内部一致性与质量,探... 数据是新型生产要素,其发展方向和实施举措集中体现在数据要素政策文本中。文章以我国2020—2024年4月颁布的中央级数据要素政策文本为研究对象,从政策主题、政策工具、政策效力等维度进行分析,基于PMC指数评估政策内部一致性与质量,探究数据要素政策文本内外部特点。研究发现:中央级数据要素政策偏向以环境型工具引导数据要素与多元应用场景相融合,各数据要素政策样本评价结果良好,但有待增加政策工具的丰富度和出台高效力位阶的政策文本。文章据此提出应细化政策主题、平衡政策工具结构、优化政策效力结构和推动多部门群策群力。 展开更多
关键词 数据要素政策文本 政策工具 政策主题 政策效力 PMC指数
在线阅读 下载PDF
基于LDA的酒店企业在线评论文本数据挖掘研究
14
作者 司应硕 杨文涛 夏倩 《移动信息》 2025年第6期392-394,共3页
酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进... 酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进行精准决策与创新服务提供了新的方法. 展开更多
关键词 LDA模型 评论文本 数据挖掘 主题建模
在线阅读 下载PDF
一种面向非均衡细分领域文本分类的数据拆分与迭代优化方法
15
作者 王莉军 黄梦婷 高影繁 《情报探索》 2025年第6期48-56,共9页
[目的/意义]针对细分领域非均衡数据环境下存在的两类关键问题——长尾分布导致的尾部类别表征稀疏,以及文本内容多类别共存引发的特征聚焦偏差,本文设计了一种基于数据拆分与迭代优化的数据优化方法(DOSI)。[方法/过程]该方法通过构建... [目的/意义]针对细分领域非均衡数据环境下存在的两类关键问题——长尾分布导致的尾部类别表征稀疏,以及文本内容多类别共存引发的特征聚焦偏差,本文设计了一种基于数据拆分与迭代优化的数据优化方法(DOSI)。[方法/过程]该方法通过构建领域解耦的“一对多”分析架构,强化特定领域内的鉴别性特征表达,并引入自适应噪声抑制机制消除跨领域噪声。具体实施流程包含四个关键阶段:领域敏感特征词库构建、文本特征显著性检测、跨领域噪声过滤、增量式优化迭代,通过动态平衡噪声抑制与信息完整性需求,实现分类器性能的渐进式提升。[结果/结论]在上市公司经营业务文本分类任务中,经过两轮优化迭代,分类器准确率提升7.5%(56.40%→60.62%),Macro_F1指标增幅达25.2%(40.41%→50.58%),验证了该方法在细分领域文本分类场景中的有效性。 展开更多
关键词 非均衡数据 文本分类 数据优化 特征选择
在线阅读 下载PDF
我国央地政府数据安全政策扩散特征及主题转移研究 被引量:1
16
作者 张涛 张博雅 马海群 《情报理论与实践》 北大核心 2025年第5期118-127,137,共11页
[目的/意义]对我国数据安全政策扩散及主题转移进行深入研究,可以把握我国数据安全政策扩散的基本特征与规律,从而提升数据安全政策制定与实施的科学性。[方法/过程]综合运用社会网络分析法、时序分析法对2014—2023年的258份央地数据... [目的/意义]对我国数据安全政策扩散及主题转移进行深入研究,可以把握我国数据安全政策扩散的基本特征与规律,从而提升数据安全政策制定与实施的科学性。[方法/过程]综合运用社会网络分析法、时序分析法对2014—2023年的258份央地数据安全政策扩散特征及主题转移进行深入研究。[结果/结论]我国数据安全政策主要以自上向下的扩散方向为主,其中扩散模式最多的是从中央向市级地方扩散。主题转移方面,专项式的数据安全政策将《数据安全法》核心内容融入本地区或本领域并进行细化落实;嵌入式的数据安全政策则缺乏结合相应领域的创新内容和细化措施。[创新/价值]提出持续探索“局部试点,全国推广”的数据安全政策扩散模式、从技术创新视角构建数据安全全生命周期闭环治理体系以及以数据安全生态为基石构建可信数据空间三点优化建议,以期为完善我国数据安全治理建设提供参考。 展开更多
关键词 政策扩散 数据安全治理 数据安全法 政策文本 主题转移
原文传递
“数据二十条”前后我国央地数据基础制度政策比较与评估研究
17
作者 马海群 于同同 +1 位作者 王瀚功 张涛 《科技情报研究》 2025年第2期23-34,共12页
[目的/意义]探讨省级政府进一步规划数据政策的方向,旨在为各地区建立健全数据基础制度提供支撑。[方法/过程]文章采用文本相似度计算的方法,将2023年以前22个省发布的数据政策与“数据二十条”进行政策文本比较研究,选取其中8个省份的... [目的/意义]探讨省级政府进一步规划数据政策的方向,旨在为各地区建立健全数据基础制度提供支撑。[方法/过程]文章采用文本相似度计算的方法,将2023年以前22个省发布的数据政策与“数据二十条”进行政策文本比较研究,选取其中8个省份的“省级版数据二十条”进行政策评估研究。[结果/结论]研究结果表明,在数据基础制度比较方面,22个省级政府在2023年之前出台的数据政策与“数据二十条”相比,虽然“四大任务”的具体子项目总体相似度最大值表现出较高水平,但是各子项目相似度平均值水平表现不高。在“省级版数据二十条”政策评估方面,文本相似度最大值和相似度平均值总体得到提升;在数据产权和收益分配方面,相似度最大值表现得比较分散;在流通交易和安全治理方面,相似度最大值表现得比较集中。总体而言,各省制定的数据基础制度都有相互借鉴的地方。 展开更多
关键词 文本相似度 数据基础制度 “数据二十条” 数据政策评估
在线阅读 下载PDF
数据资产信息披露对客户稳定性的影响研究 被引量:1
18
作者 张俊瑞 张龙 《管理学报》 北大核心 2025年第8期1566-1574,共9页
基于2014~2021年中国A股上市公司数据,运用文本分析技术构建数据资产信息披露指标,实证考察企业数据资产信息披露对客户稳定性的影响及其作用机制。研究发现,数据资产信息披露会显著降低企业的客户稳定性。机制分析表明,企业披露数据资... 基于2014~2021年中国A股上市公司数据,运用文本分析技术构建数据资产信息披露指标,实证考察企业数据资产信息披露对客户稳定性的影响及其作用机制。研究发现,数据资产信息披露会显著降低企业的客户稳定性。机制分析表明,企业披露数据资产信息会引起竞争者对客户资源的掠夺,从而导致客户稳定性的下降。进一步研究发现,数据资产信息披露对企业客户稳定性的影响在非国有企业以及进入壁垒较低的行业中更为显著;企业的产品创新能力和CSR表现能够有效抑制数据资产信息披露引起的竞争者对于客户资源的掠夺。 展开更多
关键词 数据资产 信息披露 客户稳定性 文本分析
在线阅读 下载PDF
从翻译修辞学角度看葛译对偶式俗语
19
作者 丁容容 《黎明职业大学学报》 2025年第1期65-71,共7页
通过细读莫言小说汉英双语文本,系统分析葛浩文英译莫言小说中的对偶式俗语,探讨如何有针对性地挖掘和有效使用译语修辞资源,从而与受众建立认同,有效地将中国俗语文化传达给西方读者,以期对葛浩文的修辞自觉有全新的解读,同时深化对翻... 通过细读莫言小说汉英双语文本,系统分析葛浩文英译莫言小说中的对偶式俗语,探讨如何有针对性地挖掘和有效使用译语修辞资源,从而与受众建立认同,有效地将中国俗语文化传达给西方读者,以期对葛浩文的修辞自觉有全新的解读,同时深化对翻译修辞学的理论认识。研究表明,葛浩文在翻译莫言小说中的对偶式俗语时,采用直译为主,意译为辅,以及删译、改译等方法,合理利用译语的修辞资源,提升译文的有效性,使翻译成为沟通不同文化的桥梁。 展开更多
关键词 翻译修辞学 对偶式俗语 莫言小说 葛浩文 汉英平行语料
在线阅读 下载PDF
基于大数据文本挖掘的公众感知的动态演化研究——以黑龙江省营商环境为例
20
作者 刘刊 孙雪莹 周宏瑞 《管理评论》 北大核心 2025年第9期222-236,共15页
在自媒体信息时代,公众感知的作用越来越明显,因此,公众感知的偏差会带来较大负面影响。建立有效的公众感知的维度和主题演化的分析方法,能够为识别公共舆论偏差和优化舆论生态提供理论基础。然而,公众感知存在着碎片化、多样化、多维... 在自媒体信息时代,公众感知的作用越来越明显,因此,公众感知的偏差会带来较大负面影响。建立有效的公众感知的维度和主题演化的分析方法,能够为识别公共舆论偏差和优化舆论生态提供理论基础。然而,公众感知存在着碎片化、多样化、多维度等特征,识别并描述公众感知的演化过程相对困难。本文基于社会放大效应理论和大数据文本挖掘方法,通过划分时间切片,从公众“放大站”和动态演化视角识别公众的关注点和情感态度演化过程,构建了公众感知演化分析的体系框架。以2016—2022年公众评论为数据,探索黑龙江省营商环境公众感知的社会放大效应及其影响因素。研究结果表明:将社会放大效应理论与文本挖掘方法结合,能够有效识别公众感知的演化和舆论偏差形成过程,优化文化生态环境;在社会放大效应作用下,公众感知表现出从客观到主观、小题大做的主题演化过程,最终形成公共舆论偏差;营商环境的公众感知主要受经济发展、政府政策、政府办事效率和旅游业的影响。同时,实证分析得出黑龙江省营商环境公众感知的负面情绪,经济衰退是根本原因,还受到Covid-19、经济萧条、旅游业发展变缓的影响,为黑龙江省制定有效的营商环境公众感知提升策略提供指引。 展开更多
关键词 社会放大效应 大数据文本挖掘 公众感知 “放大站” 营商环境
原文传递
上一页 1 2 73 下一页 到第
使用帮助 返回顶部