在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre...在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。展开更多
随着人工智能技术的快速发展,常识智能问答已成为人机互动与智能应用的重要研究方向。基于BERT模型探讨了常识智能问答算法的构建方法,旨在实现高效的自然语言处理(Natueal Language Processing,NLP)和常识推理。分析了BERT在常识表示...随着人工智能技术的快速发展,常识智能问答已成为人机互动与智能应用的重要研究方向。基于BERT模型探讨了常识智能问答算法的构建方法,旨在实现高效的自然语言处理(Natueal Language Processing,NLP)和常识推理。分析了BERT在常识表示和问答实现中的优势,设计了基于BERT的智能问答算法框架,进行了实验验证并分析了应用效果。实验结果表明,基于BERT的常识问答算法在多个场景中表现出色,具有较高的性能和应用价值。展开更多
随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整...随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。展开更多
文摘在微博等社交媒体的舆情发现和预测中,网络水军制造的“假热点”会影响分析准确性。为真实反映微博舆情热度,提出一种融合BERT(Bidirectional Encoder Representations from Transformers)和X-means算法的微博舆情热度分析预测模型BXpre,旨在融合微博参与用户的属性特征与热度变化的时域特征,以提高热度预测的准确性。首先,对微博原文和互动用户的数据进行预处理,利用微调后的StructBERT模型对这些数据分类,从而确定参与互动的用户与微博原文的关联度,作为用户对该微博热度增长的贡献度权重计算的参考值;其次,使用X-means算法,以互动用户的特征为依据进行聚类,基于所得聚集态的同质性特征过滤水军,并引入针对水军样本的权重惩罚机制,结合标签关联度,进一步构建微博热度指标模型;最后,通过计算先验热度值随时间变化的二阶导数与真实数据的余弦相似度预测未来微博热度变化。实验结果表明,BXpre在不同用户量级下输出的微博舆情热度排序结果更贴近真实数据,在混合量级测试条件下,BXpre的预测相关性指标达到了90.88%,相较于基于长短期记忆(LSTM)网络、极限梯度提升(XGBoost)算法和时序差值排序(TDR)的3种传统方法,分别提升了12.71、14.80和11.30个百分点;相较于ChatGPT和文心一言,分别提升了9.76和11.95个百分点。
文摘随着人工智能技术的快速发展,常识智能问答已成为人机互动与智能应用的重要研究方向。基于BERT模型探讨了常识智能问答算法的构建方法,旨在实现高效的自然语言处理(Natueal Language Processing,NLP)和常识推理。分析了BERT在常识表示和问答实现中的优势,设计了基于BERT的智能问答算法框架,进行了实验验证并分析了应用效果。实验结果表明,基于BERT的常识问答算法在多个场景中表现出色,具有较高的性能和应用价值。
文摘随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。
基金国家自然科学基金青年科学基金项目“基于多数据源融合的新兴技术创新路径识别与动态选择研究”(71704139)中国留学基金管理委员会中法“蔡元培”交流合作项目“Technology driven transfer modes:innovation impact and mechanisms for implementation in companies”(留金欧[2020] 639,202006965024)。
文摘专利分析作为评判科技创新能力、识别市场转化趋势的有力工具,是国家新一轮科技革命与产业变革先手布局的重要依据,而制定合理、高效的专利检索策略是实现专利分析的有效前提。本文提出了一套基于深度学习算法的检索策略,补足了已有研究动态性不足、智能化不够的短板。本文模型主要包括检索策略的制定和检索结果的修正两个部分。在检索策略构建方面,本文旨在系统剖析技术组成原理的基础上,融合深度学习算法,从通用语料与领域语料两个维度训练模型,以完成检索要素的筛选,并基于此,依据要素间的语义关联进行初始检索策略的构建;在检索结果修正方面,综合聚类分析、文献计量与BERT (bidirectional encoder representations from transformers)深度学习算法,进一步采用动态修正策略,对检索结果进行多轮迭代修正,有效提升检索结果的精准性与全面性。本文以“微波无线能量传输”领域为例展开实证分析,验证了本文方案的可行性与通用性,为科技数据的精准获取提供了有意义的研究方案。