针对动车组故障预测与健康管理(Prognostics and Health Management,PHM)实时海量数据解析处理与模型计算问题,提出一种基于流计算的动车组PHM模型处理框架。首先分析动车组车载数据处理流程,然后基于Spark Streaming给出动车组PHM模型...针对动车组故障预测与健康管理(Prognostics and Health Management,PHM)实时海量数据解析处理与模型计算问题,提出一种基于流计算的动车组PHM模型处理框架。首先分析动车组车载数据处理流程,然后基于Spark Streaming给出动车组PHM模型处理的总体框架。针对实时海量数据解析处理,首先分析解析前的车载数据结构,定义解析后的车载数据结构,然后设计通用化数据解析组件,给出流计算实现方式。针对模型计算,详细给出PHM模型的形式化定义,包括模型的基本信息、输入、输出和逻辑主体等,根据此定义设计模型通用组件,实现模型的快速研发、高效计算和统一应用。通过动车组PHM系统的有效应用,证明了该框架可以很好地满足海量数据的实时计算需求。展开更多
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该...观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。展开更多
文摘针对动车组故障预测与健康管理(Prognostics and Health Management,PHM)实时海量数据解析处理与模型计算问题,提出一种基于流计算的动车组PHM模型处理框架。首先分析动车组车载数据处理流程,然后基于Spark Streaming给出动车组PHM模型处理的总体框架。针对实时海量数据解析处理,首先分析解析前的车载数据结构,定义解析后的车载数据结构,然后设计通用化数据解析组件,给出流计算实现方式。针对模型计算,详细给出PHM模型的形式化定义,包括模型的基本信息、输入、输出和逻辑主体等,根据此定义设计模型通用组件,实现模型的快速研发、高效计算和统一应用。通过动车组PHM系统的有效应用,证明了该框架可以很好地满足海量数据的实时计算需求。
文摘观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。