生物序列数据挖掘技术研究被引量：3

Review of biological sequence data mining techniques

下载PDF

导出

摘要生物序列数据是生物信息数据中重要的一部分,研究生物序列解读其隐含的生物学意义是生物信息学研究的热点和难点。数据挖掘是当前分析大规模数据的有效工具之一,已广泛应用于分析生物序列数据,并取得了许多研究成果。文章综述了生物序列数据挖掘的关键技术,包括序列比对算法、DNA序列模式挖掘、关联、分类、聚类分析、RNA二级结构预测、蛋白质序列分类和聚类分析,最后展望未来研究方向。 Biological sequence data are an important part of bioinformation data. Researching biological sequence data and finding the tacit knowledge has become a hot and difficult issue of bioinformatics re- search. As one of the most efficient data analysis methods at present, data mining technique has been used widely in biological sequence data analysis, and considerable research achievements have been ob- tained. In this paper, the core technologies of biological sequence data mining are reviewed, including sequence alignment algorithms, DNA sequential pattern mining, association, classification and cluste- ring mining, RNA secondary structure prediction, protein sequential classification and clustering min- ing. Then future work in this respect is forecasted.

作者杨恒宇

机构地区安徽省科学技术情报研究所

出处《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2012年第9期1212-1216,共5页 Journal of Hefei University of Technology：Natural Science

关键词生物序列数据挖掘生物信息学序列比对 biological sequence data mining bioinformatics sequence similarity

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献27

1刘斌,朱明,王景华,张利,李献会.基于可拓数据挖掘的用户需求获取研究[J].合肥工业大学学报（自然科学版）,2011,34(12):1823-1826. 被引量：9
2Mount D W. Bioinformatics sequence and genome analysis [M]. New York Colt Spring Harbor Laboratory Press, 2001:21--22.
3张法.生物序列相似性的比较[J].信息技术快报,2005,3(5):7一19.
4陈娟,陈崚.多重序列比对的蚁群算法[J].计算机应用,2006,26(B06):124-128. 被引量：5
5葛宏伟,梁艳春.基于隐马尔可夫模型和免疫粒子群优化的多序列比对算法[J].计算机研究与发展,2006,43(8):1330-1336. 被引量：9
6Otterpohl J R. Baum-Welch learning in discrete hidden Markov models with linear factorial constraints [C]//Dor- ronsoro J R. Lecture Notes in Computer Science 2415. Ber- lin: Springer, 2002 .. 1180-- 1185.
7Colin M, Jignesh M P, Shniti K. OASIS: an online and accu- rate technique for local alignment searches on biological se- quences [C]//Freytag J C, Lockemann P C, Abiteboul S, et al. Proc of the 29th Int Con{ on Very Large Data Bases (VLDB). Berlin: Morgan Kaufmann Publishers, 2003.. 910--921.
8GenBank. National center for biotechnology information [EB/OL]. (1983-04-07) [2011-05-06]. http://www, ncbi. nih. gov/genbank/.
9Ester M, Zhang X. A top-down method for mining most specific frequent patterns in biological sequence data[C]// Proc of the 4th SIAM Int Conf on Data Mining, 2004.. 90--101.
10Chen G, Wu X, Zhu X, et al. Efficient string matching with wildcards and length constraints[J]. Knowledge and Infor marion Systems,2006,4: 399--419.

二级参考文献34

1梁栋,霍红卫.自适应蚁群算法在序列比对中的应用[J].计算机仿真,2005,22(1):100-102. 被引量：20
2陈文伟,杨春燕,黄金才.可拓知识与可拓知识推理[J].哈尔滨工业大学学报,2006,38(7):1094-1096. 被引量：31
3Liao S S, Hsieh C, Huang Suiping. Mining product maps for new product development[J]. International Journal of Production Research, 2006,44 (18): 4027-4041.
4Jiao J,Zhang L,Zhang Y, et al. Association rule mining for product and process variety mapping [J]. International Journal of Computer Integrated Manufacturing, 2008, 21 (1):111-124.
5Avasere A, Omiecinski E, Navathe S. An efficient algorithm for mining association rules[C]//Proceedings of the AAAI Workshob on Knowledge Discovery in Databases, 1994:181-192.
6Li Cunrong, Yang Mingzhong. Association rules data mining in manufacturing information system based on genetic algorithms[C]//3rd International Conference on Computational Electromagnetics and Its Applications, ICCEA 2004:153-156.
7Li Feng, Liu Ziyan. Effects of multi-objective genetic rule selection on short-term toad forecasting for anomalous days[C]//2006 IEEE Power Engineering Society General Meeting, PES, 2006 IEEE Power Engineering Society General Meeting, 2006: 10-100.
8NEEDLEMAN S,WUNSCH C.A general method applicable to the search for similarities in the amino acid sequence of two proteins[J].J.Mol.Biol.,1970,48:443-453.
9LIPMAN DJ,ALTSCHUL SF,KECECIOGLU JD.A tool for multiple sequence alignment[A].Proc.Natl.Acad.Sci[C].USA 1989,86:4412 -4415.
10STOYE J,MOULTON V,DRESS AW:DCA:an efficient implementation of the divide-andconquer approach to simultaneous multiple sequence alignment[M].Comput.Appl.Biosci.1997,13(6):625-6.

共引文献56

1吕佳,熊浩.一种新城市气温模式分类的聚类算法[J].数学的实践与认识,2007,37(8):55-60.
2梅胜全.应用免疫粒子群优化算法的排课系统[J].硅谷,2009,2(7):51-52. 被引量：1
3沈红斌,杨杰,王士同,陈宁江.采样定理、视觉原理及无监督聚类分析理论[J].上海交通大学学报,2005,39(4):544-548. 被引量：3
4邓赵红,王士同.鲁棒性的模糊聚类神经网络[J].软件学报,2005,16(8):1415-1422. 被引量：11
5沈红斌,杨杰,王士同,董一飞.基于信息理论的合作聚类算法研究[J].计算机学报,2005,28(8):1287-1294. 被引量：8
6吕佳.核聚类算法及其在模式识别中的应用[J].重庆师范大学学报（自然科学版）,2006,23(1):22-24. 被引量：5
7周霆,张伟,邹汉斌.基因表达数据聚类中模糊核算法的改进[J].江南大学学报（自然科学版）,2006,5(2):162-165.
8范新南,沈红斌,陈学忠.特征空间属性加权模糊核聚类算法[J].计算机应用,2006,26(8):1888-1889. 被引量：7
9吕佳,熊忠阳.基于核的可能性聚类算法[J].计算机工程与设计,2006,27(13):2466-2468. 被引量：8
10谢坤武.智能桌面元搜索引擎中个性化研究[J].湖北民族学院学报（自然科学版）,2006,24(4):383-387.

同被引文献8

1朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报,2007,18(11):2766-2781. 被引量：37
2公伟,刘培玉,贾娴.基于改进PrefixSpan的序列模式挖掘算法[J].计算机应用,2011,31(9):2405-2407. 被引量：12
3丁振国,宋薇,李婧.基于序列模式挖掘的社交网络用户行为分析[J].现代情报,2013,33(3):56-60. 被引量：5
4李锦玲,汪斌强.基于最大频繁序列模式挖掘的App-DDoS攻击的异常检测[J].电子与信息学报,2013,35(7):1739-1745. 被引量：7
5张巍,刘峰,滕少华.改进的PrefixSpan算法及其在序列模式挖掘中的应用[J].广东工业大学学报,2013,30(4):49-54. 被引量：11
6龚卫华,郭伟鹏,杨良怀.信任网络中多维信任序列模式挖掘方法研究[J].电子与信息学报,2014,36(8):1810-1816. 被引量：2
7郑奇斌,刁兴春,曹建军,周星,许永平.结合局部敏感哈希的k近邻数据填补算法[J].计算机应用,2016,36(2):397-401. 被引量：5
8Bin Liu,Hao Wu,Kuo-Chen Chou.Pse-in-One 2.0: An Improved Package of Web Servers for Generating Various Modes of Pseudo Components of DNA, RNA, and Protein Sequences[J].Natural Science,2017,9(4):67-91. 被引量：12

引证文献3

1王斌,黄晓芳,袁平.基于PrefixSpan序列模式挖掘的改进算法[J].西南科技大学学报,2016,31(4):68-72. 被引量：6
2徐彭娜,魏静,林劼,江育娥.基于位置信息熵的局部敏感哈希聚类方法[J].计算机应用与软件,2018,35(3):230-235. 被引量：2
3陈城,林劼.基于多重解码器的自编码器模型的生物序列聚类方法[J].福建师范大学学报（自然科学版）,2022,38(6):1-9. 被引量：3

二级引证文献10

1徐立坤,李建路,朱珠,陈海平,王林.基于网络和时间约束的告警序列模式挖掘研究[J].计算机与数字工程,2019,47(9):2364-2368. 被引量：5
2石义金,王忠义,沈雪莹,郑鑫.基于序列模式的科技文献中知识元抽取研究[J].情报理论与实践,2020,43(11):144-149. 被引量：5
3严爱俐,刘漫丹.基于动态多最小支持度的用户频繁轨迹挖掘[J].计算机工程与设计,2022,43(6):1657-1664. 被引量：2
4李佳泽,高全力,郭帅,胡发丽,李庆敏.基于位置相似性与Markov模型的移动轨迹预测算法[J].计算机与数字工程,2024,52(1):116-120.
5贺帆,刘漫丹,钟超.基于动态最小支持度的增量频繁序列挖掘[J].华东理工大学学报（自然科学版）,2024,50(2):257-263. 被引量：2
6李莉,黄伟,赵佳旭.优化K-MER模型对生物序列进行聚类[J].福建电脑,2024,40(7):58-62. 被引量：2
7卫泽刚,陈旭,张小丹,胡婉靖,刘飞.基于Edlib的启发式生物序列聚类算法[J].宝鸡文理学院学报（自然科学版）,2024,44(3):50-55. 被引量：1
8温柳英,吴俊,闵帆.融合矩阵分解和空间划分的微生物数据扩增方法[J].山东大学学报(理学版),2025,60(1):14-28. 被引量：1
9李莉,赵佳旭,徐彭娜.生物序列k-mer并行聚类优化研究[J].福建电脑,2025,41(7):32-36.
10李涛,张帅弛,张灿.一种最有趣的序列模式挖掘算法[J].计算机仿真,2019,36(4):199-204.

1张长海.一种基于序列模式的RFID数据挖掘算法[J].电脑知识与技术,2015,0(5):259-260. 被引量：1
2张毅,梅挺.基于加权决策树的蛋白质序列分类算法研究[J].计算机与数字工程,2012,40(5):7-9. 被引量：3
3赵婧,魏彬.生物序列数据挖掘技术的若干研究论述[J].山东工业技术,2016(15):257-257.
4张育润,陈玉忠,江洲.全国生物信息数据库目录体系规范化研究[J].术语标准化与信息技术,2008(4):43-44.
5刘智珺,彭媛.XML的生物信息数据的存储与实现[J].电脑编程技巧与维护,2009(18):67-68. 被引量：1
6张毅.基于神经网络的蛋白质序列分类算法研究[J].计算机与数字工程,2012,40(6):30-32. 被引量：2
7黄金.基于频繁模式的蛋白质序列分类[J].东北农业大学学报,2008,39(5):119-122.
8苏圣超,张正道,朱大奇.基于时间序列数据挖掘的旋转机械故障预报[J].南京航空航天大学学报,2006,38(B07):120-123. 被引量：4
9何典,梁英.金融时间序列数据挖掘的研究与应用[J].世界科技研究与发展,2008,30(1):104-106. 被引量：2
10王慧锋,段磊,左劼,王文韬,李钟麒,唐常杰.免预设间隔约束的对比序列模式高效挖掘[J].计算机学报,2016,39(10):1979-1991. 被引量：15

合肥工业大学学报（自然科学版）

2012年第9期

浏览历史

内容加载中请稍等...

生物序列数据挖掘技术研究被引量：3

参考文献27

二级参考文献34

共引文献56

同被引文献8

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

生物序列数据挖掘技术研究 被引量：3

参考文献27

二级参考文献34

共引文献56

同被引文献8

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

生物序列数据挖掘技术研究被引量：3