在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-c...在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-code通过融合横纵式阵列码的快速修复与负载均衡特性,设计了一种局部水平校验与对角校验交叉融合的结构,并采用纵向中心对称校验布局优化数据依赖关系。该设计将单盘和双盘故障修复的数据读取量显著降低,同时通过缩短修复链提升整体效率。理论分析表明,在单双盘故障恢复时大幅降低了数据读取开销。实验结果进一步验证了其性能优势,与RDP码、LRRDP码以及DRDP码相比,VC-code在单盘故障修复时间上减少了10.45%~29.57%,在双盘故障修复时间上减少了6.35%~33.24%。展开更多
小开放阅读框(small Open Reading Frames,sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精...小开放阅读框(small Open Reading Frames,sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精度,提出一种融合DNABERT预训练和数据混合编码策略的sORF-BERT神经网络模型,并引入CAL模块以学习sORFs的多尺度特征。对原核基因组、人类、老鼠、拟南芥以及大肠杆菌数据集进行分析研究,sORF-BERT模型通过预训练与微调之后,能有效地捕获sORFs序列丰富的生物学特征,同时利用CAL更好地学习不同尺度的sORFs特征。将sORF-BERT与已发表的CPPred、DeepCPP、CNCI、CPPred-sORF、MiPiped、PsORFs这6种先进方法进行跨物种实验对比,结果显示sORF-BERT在5个独立测试集上的性能均得到提升,与排名第二的PsORFs相比ACC提升了0.42~18.72个百分点、MCC提升了1.08~11.75个百分点,充分表明了该方法在预测编码sORFs的优越性,有助于推动基础生物学的研究。展开更多
文摘在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-code通过融合横纵式阵列码的快速修复与负载均衡特性,设计了一种局部水平校验与对角校验交叉融合的结构,并采用纵向中心对称校验布局优化数据依赖关系。该设计将单盘和双盘故障修复的数据读取量显著降低,同时通过缩短修复链提升整体效率。理论分析表明,在单双盘故障恢复时大幅降低了数据读取开销。实验结果进一步验证了其性能优势,与RDP码、LRRDP码以及DRDP码相比,VC-code在单盘故障修复时间上减少了10.45%~29.57%,在双盘故障修复时间上减少了6.35%~33.24%。
文摘小开放阅读框(small Open Reading Frames,sORFs)是指基因组中长度不超过300个碱基的开放阅读框,对于维持细胞代谢平衡及生命体的基础生理功能有重要作用。为深入挖掘sORFs序列的深层特征以及进一步提升跨物种预测编码与非编码sORFs的精度,提出一种融合DNABERT预训练和数据混合编码策略的sORF-BERT神经网络模型,并引入CAL模块以学习sORFs的多尺度特征。对原核基因组、人类、老鼠、拟南芥以及大肠杆菌数据集进行分析研究,sORF-BERT模型通过预训练与微调之后,能有效地捕获sORFs序列丰富的生物学特征,同时利用CAL更好地学习不同尺度的sORFs特征。将sORF-BERT与已发表的CPPred、DeepCPP、CNCI、CPPred-sORF、MiPiped、PsORFs这6种先进方法进行跨物种实验对比,结果显示sORF-BERT在5个独立测试集上的性能均得到提升,与排名第二的PsORFs相比ACC提升了0.42~18.72个百分点、MCC提升了1.08~11.75个百分点,充分表明了该方法在预测编码sORFs的优越性,有助于推动基础生物学的研究。