邻域种子的启发式454序列聚类方法被引量：3

Heuristic Clustering Method Based on Neighbor-Seeds for 454 Sequencing Data

下载PDF

导出

摘要随着二代测序技术的发展,产生了海量16S rRNA基因序列数据.如何有效地挖掘这些数据中隐藏的基因组学信息,是当前研究的热点与难点.序列聚类研究如何将来源于同一物种的序列合并在一起,其构成了物种多样性、结构及功能多样性研究的基础.针对454测序误差的来源特点,提出一种基于邻域种子序列的启发式序列聚类算法(NbHClust).实验结果表明,该算法具有良好的鲁棒性能.与传统启发式序列聚类算法相比,该算法能够降低操作分类单元(operational taxonomy unit,简称OTU)过估计问题,提高聚类精度,有效地进行操作分类单元计算. With the development of next-generation sequencing technology, a large number of 16S rRNA gene reads have been collected. A key and important issue is to develop novel methods for mining the hidden information among those data. Sequence clustering aims to find the natural groups of large-scale data which can help us to understand the species, functional and structural diversity of microbial communities. This present work proposes a heuristic clustering method based on Neighbor-seeds, named NbHClust, for 454 sequencing data. The results show that this method can reduce extent of overestimation of operational taxonomy unit （OTU） and have a good robust and high clustering accuracy.

作者陈伟程咏梅张绍武潘泉

机构地区西北工业大学自动化学院 Department of Biostatistics

出处《软件学报》 EI CSCD 北大核心 2014年第5期929-938,共10页 Journal of Software

基金国家自然科学基金(61170134,61135001) 航空基金(20100853010) 西安市科技计划(CXY1350(2)) 西北工业大学博士创新基金(cx201017)

关键词二代测序技术操作分类单元物种多样性 16S RRNA基因序列聚类 second-generation sequencing technology operational taxonomy unit species diversity 16S rRNA gene sequenceclustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1庄令,谢睛宜,林海鹏,洪葵.深海链霉菌选择性分离及活性菌株16S rRNA聚类分析[J].生物技术通报,2009,25(S1):398-401. 被引量：3
2黄旭,吕强,钱培德.一种用于蛋白质结构聚类的聚类中心选择算法[J].自动化学报,2011,37(6):682-692. 被引量：7
3吕振明,许逸天,吴常文,樊甄姣,张建设.中国沿海鳓不同地理群体16SrRNA基因的遗传变异分析[J].中国水产科学,2010,17(3):463-470. 被引量：10

二级参考文献67

1陈必哲,张澄茂.厦门近海鳓鱼生殖群体生长与资源状况[J].福建水产,1993,15(4):35-38. 被引量：11
2苏天凤,江世贵,朱彩艳,周发林,陈丕茂.广西钦洲湾养殖牡蛎线粒体16SrRNA基因片段序列变异分析[J].中国水产科学,2005,12(1):1-4. 被引量：13
3倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
4刘颖,洪葵,庄令,林海鹏.红树林样品不经分离的微生物群体培养物生物活性研究[J].微生物学报,2007,47(1):110-114. 被引量：12
5唐文乔,胡雪莲,杨金权.从线粒体控制区全序列变异看短颌鲚和湖鲚的物种有效性[J].生物多样性,2007,15(3):224-231. 被引量：89
6童馨,杜博,喻达辉,龚世园,郭奕惠,黄桂菊,李莉好.浅色黄姑鱼线粒体16S rRNA基因片段序列特征分析[J].海洋水产研究,2007,28(3):85-91. 被引量：8
7Li C H,Orti G.Molecular phylogeny of Chpeiformes(Actinopterygii) inferred from nuclear and mitochondrial DNA sequences[J].Mol Phylogenet Evol,2007,44:386-398.
8Bandelt H J,Forster P,Sykes B C,et al.Mitochondrial portraits of human populations using median networks[J].Genetics,1995,141:743-753.
9Cheng Q Q,Ma C Y,Cheng H P,et al.Mitochondrial DNA diversity of Coilia mystus (Clupeiformes:Engraulidae) in three Chinese estuaries[J].Environ Biol Fish,2008,83:277-282.
10Millar C L,Libby W J.Strategies for conserving clinal,ccotypic,and disjunct population diversity in widespread species[M]//Fald D A,Holsinger K E.Genetics and conservation of rare plants.New York:Oxford University Press,1991:149-170.

共引文献17

1姜石生,贺一原,朱道弘,曹元清.黄脊竹蝗5个地理种群线粒体16S rRNA基因片段的序列分析[J].中南林业科技大学学报,2011,31(7):115-119. 被引量：1
2吴宏杰,吕强,吴进珍,黄旭,罗小虎,钱培德.从头预测蛋白质骨架的一种并行蚁群方法及其在CASP8/9中的应用[J].中国科学：信息科学,2012,42(8):1034-1048. 被引量：8
3宋忠魁,李梦芸,聂振平,孙奉玉,赵鹏,苏琼.北部湾拟穴青蟹(Scylla paramamosain)群体遗传结构及其扩张分析[J].海洋与湖沼,2012,43(4):828-836. 被引量：5
4陈荣,吕强,吴宏杰,陈沙沙.一种GPCR跨膜螺旋形变的建模方法[J].计算机科学,2012,39(10):209-213. 被引量：1
5陈沙沙,吴宏杰,吕强.一种基于折叠模式识别的蛋白质结构片段库构建方法[J].小型微型计算机系统,2013,34(2):356-359. 被引量：5
6黄福勇,何晓明,张晓辉.加速溶剂萃取-气相色谱/质谱法测定鳓鱼肌肉中脂肪酸[J].水产养殖,2013,34(7):34-36.
7LV Qiang,WU HongJie,WU JinZhen,HUANG Xu,LUO XiaoHu,QIAN PeiDe.A parallel ant colonies approach to de novo prediction of protein backbone in CASP8/9[J].Science China(Information Sciences),2013,56(10):226-238. 被引量：2
8张玲,李师翁,陈熙明,刘光琇.青藏高原土壤中链霉菌的分离鉴定及其抗菌活性研究[J].冰川冻土,2014,36(2):430-441. 被引量：7
9李建生,张其永,郑元甲,洪万树.中国海洋一般中上层经济鱼类生物学研究的回顾与前瞻[J].海洋渔业,2014,36(6):565-575. 被引量：7
10杜启艳,董方娟,常重杰.豫北泥鳅线粒体DNA 16S rRNA和12S rRNA基因序列的遗传多样性分析[J].河南农业科学,2014,43(11):137-140. 被引量：4

同被引文献31

1赵宇海,王国仁,印莹,许光宇.A Novel Approach to Revealing Positive and Negative Co-Regulated Genes[J].Journal of Computer Science & Technology,2007,22(2):261-272. 被引量：2
2印莹,赵宇海,张斌,王国仁.时序微阵列数据中的同步和异步共调控基因聚类[J].计算机学报,2007,30(8):1302-1314. 被引量：5
3岳峰,孙亮,王宽全,王永吉,左旺孟.基因表达数据的聚类分析研究进展[J].自动化学报,2008,34(2):113-120. 被引量：25
4闫雷鸣,孙志挥,吴英杰,张柏礼.联合聚类非线性相关的时序基因表达数据[J].计算机研究与发展,2008,45(11):1865-1873. 被引量：5
5张国印,程慧杰,刘咏梅,姚爱红.一种新算法在基因表达谱聚类中的应用[J].计算机工程与应用,2009,45(36):216-218. 被引量：4
6邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
7姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：281
8刘帅,林克正,孙旭东,程卫月,李静天.基于聚类的SIFT人脸检测算法[J].哈尔滨理工大学学报,2014,19(1):31-35. 被引量：7
9高敬阳,齐飞,管瑞.基于高通量测序技术的基因组结构变异检测算法[J].生物信息学,2014,12(1):5-9. 被引量：1
10Amichai Painsky,Saharon Rosset.Optimal Set Cover Formulation for Exclusive Row Biclustering of Gene Expression[J].Journal of Computer Science & Technology,2014,29(3):423-435. 被引量：2

引证文献3

1姚登举,詹晓娟,张晓晶.一种加权K-均值基因聚类算法[J].哈尔滨理工大学学报,2017,22(2):112-116. 被引量：12
2姜涛,李战怀.基因表达数据中的局部模式挖掘研究综述[J].计算机研究与发展,2018,55(11):2343-2360. 被引量：3
3卫泽刚,陈旭,张小丹,胡婉靖,刘飞.基于Edlib的启发式生物序列聚类算法[J].宝鸡文理学院学报（自然科学版）,2024,44(3):50-55. 被引量：1

二级引证文献16

1成雨风,贺松,刘燕,黄诗懿.基于数据挖掘的CRC肠道菌群营养干预可行性分析[J].智能计算机与应用,2020(4):81-85.
2黄英来,任田丽,赵鹏.VMD与PSO的乐器声音识别[J].哈尔滨理工大学学报,2018,23(2):6-11. 被引量：4
3张瀚超,匡洪海,王建辉,朱国平.偏差修正算法的风电短期功率预测[J].新型工业化,2019,9(2):1-9. 被引量：5
4何云斌,孙暖,万静,李松.角度度量的动态增量聚类算法[J].哈尔滨理工大学学报,2019,24(6):109-116. 被引量：4
5贾瑞玉,宋飞豹,汤深伟.双精英遗传策略的基因聚类算法[J].小型微型计算机系统,2020,41(7):1375-1380. 被引量：7
6王超英.基于文化基因算法和犹豫模糊集的聚类算法及其分布并行实现[J].计算机应用与软件,2021,38(4):295-304. 被引量：2
7何云斌,董恒,万静.移动型数据与静态型数据的混合聚类算法[J].哈尔滨理工大学学报,2021,26(2):26-34. 被引量：2
8丁博,汤磊,何勇军,于军.基于代表性视图的三维模型检索[J].哈尔滨理工大学学报,2021,26(6):18-23. 被引量：2
9孙硕,孟晗,马良,刘勇.应急救援中心的选址-调度的双层模型及混合嵌套式算法[J].小型微型计算机系统,2022,43(2):328-336. 被引量：6
10段刚龙,王妍,马鑫,杨泽阳.银行客户分类的数据特征选择方法与实证研究[J].计算机工程与应用,2022,58(11):302-312. 被引量：4

1何超,刘方,曾曦.针对未知协议消息序列的聚类分析实现[J].通信技术,2017,50(2):277-286. 被引量：3
2梅海彬,龚俭,张明华.基于警报序列聚类的多步攻击模式发现研究[J].通信学报,2011,32(5):63-69. 被引量：19
3张绍武,丁鹏,张庭赫.基于边、节点信息融合网络社团挖掘算法的海洋微生物作用模式[J].科学通报,2013,58(28):2980-2986. 被引量：1
4张东生,季超.基于向量空间模型的基因序列聚类及仿真实验[J].微计算机信息,2010,26(16):155-157.
5杨萌萌,刘杰,屈巍.一种基于遗传优化的路由控制策略[J].沈阳师范大学学报（自然科学版）,2013,31(4):535-538. 被引量：1
6马靖善,秦玉平.一种改进的归并排序算法[J].渤海大学学报（自然科学版）,2009,30(2):190-192. 被引量：2
7吴君浩,骆嘉伟,王艳,杨涛,杨旭.基于隐马尔可夫模型的二次k-均值基因序列聚类算法[J].计算机工程与科学,2007,29(3):54-56.
8张豪,陈黎飞,郭躬德.基于符号熵的序列相似性度量方法[J].计算机工程,2016,42(5):201-206. 被引量：6
9陈伟,程咏梅,张绍武,潘泉.二代测序技术454测序仪模拟测序算法[J].计算机科学,2014,41(2):261-263. 被引量：1
10李国伟,刘盛,郭忠玲.基于Arc View的点数据源趋势面分析模块的应用[J].北华大学学报（自然科学版）,2007,8(1):84-87. 被引量：2

软件学报

2014年第5期

浏览历史

内容加载中请稍等...

邻域种子的启发式454序列聚类方法被引量：3

参考文献3

二级参考文献67

共引文献17

同被引文献31

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

邻域种子的启发式454序列聚类方法 被引量：3

参考文献3

二级参考文献67

共引文献17

同被引文献31

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

邻域种子的启发式454序列聚类方法被引量：3