期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Automated SNP Genotype Clustering Algorithm to Improve Data Completeness in High-Throughput SNP Genotyping Datasets from Custom Arrays
1
作者 Edward M.Smith Jack Littrell Michael Olivier 《Genomics, Proteomics & Bioinformatics》 SCIE CAS CSCD 2007年第3期256-259,共4页
High-throughput SNP genotyping platforms use automated genotype calling algorithms to assign genotypes. While these algorithms work efficiently for individual platforms, they are not compatible with other platforms, a... High-throughput SNP genotyping platforms use automated genotype calling algorithms to assign genotypes. While these algorithms work efficiently for individual platforms, they are not compatible with other platforms, and have individual biases that result in missed genotype calls. Here we present data on the use of a second complementary SNP genotype clustering algorithm. The algorithm was originally designed for individual fluorescent SNP genotyping assays, and has been optimized to permit the clustering of large datasets generated from custom-designed Affymetrix SNP panels. In an analysis of data from a 3K array genotyped on 1,560 samples, the additional analysis increased the overall number of genotypes by over 45,000, significantly improving the completeness of the experimental data. This analysis suggests that the use of multiple genotype calling algorithms may be advisable in high-throughput SNP genotyping experiments. The software is written in Perl and is available from the corresponding author. 展开更多
关键词 clustering snp genotyping algorithm
在线阅读 下载PDF
基于SNP分子标记的泰山/泰科麦系列小麦遗传解析 被引量:5
2
作者 亓晓蕾 李兴锋 +7 位作者 吕广德 王瑞霞 王君 孙宪印 孙盈盈 陈永军 钱兆国 吴科 《作物杂志》 北大核心 2021年第5期64-71,共8页
对不同年份育成的21个小麦品种(系)进行全基因组扫描,通过分析遗传距离和染色体区段/位点,明确其亲缘关系远近和遗传差异。分析可知,获得的2029个SNP基因位点在B基因组拥有较高的遗传多样性,其次是A和D基因组;在7个同源群中,第3和第6同... 对不同年份育成的21个小麦品种(系)进行全基因组扫描,通过分析遗传距离和染色体区段/位点,明确其亲缘关系远近和遗传差异。分析可知,获得的2029个SNP基因位点在B基因组拥有较高的遗传多样性,其次是A和D基因组;在7个同源群中,第3和第6同源群呈现出较高的遗传多样性,而第1和第4同源群的遗传多样性较低;21条染色体中,3A、1B、6B染色体的遗传多样性较高,而1A、6A的遗传多样性偏低。对21份供试材料依据审定(育成)年份分析其群体的平均遗传距离,不同年份品种间的平均遗传距离先增大后减小,遗传多样性逐渐降低;21份供试材料间的遗传相似系数在0.69~0.99之间,大致可聚为4个类群,同一年份的品种一般聚在一起,与其系谱关系吻合。构建并分析供试材料的基因型图谱发现,00s、10s和现在育成的小麦品种(系)共有SNP和共有染色体区段分别主要在A、D和B基因组,对应已发表性状同不同年份育种目标吻合。同时发现21份供试材料均含有25个共同SNP位点,分布在1A、5A、6A、7A、2B、3B、6B、1D、2D、3D和7D染色体上,且每条染色体上分布的SNP位点数目均不相同,通过对应已发表性状进一步证实在品种(系)组配与选育过程中注重产量、株高、分蘖数、抽穗期、灌浆速率和抗病等性状的选择。以上研究结果可为今后小麦新品种组配和选育提供参考依据。 展开更多
关键词 小麦 snp标记 聚类分析 基因型图谱 染色体区段/位点
原文传递
基于SNP系统的改进粒子群聚类算法
3
作者 李立 《成都大学学报(自然科学版)》 2019年第2期167-170,共4页
脉冲神经膜系统是基于神经生物学的高性能计算模型.在标准粒子群聚类算法中引入脉冲神经膜系统,将初始聚类中心的各种组合作为粒子分配到若干个神经元,在神经元中进行粒子群的迭代与进化.利用脉冲神经膜系统的高并行性,在更短的时间内... 脉冲神经膜系统是基于神经生物学的高性能计算模型.在标准粒子群聚类算法中引入脉冲神经膜系统,将初始聚类中心的各种组合作为粒子分配到若干个神经元,在神经元中进行粒子群的迭代与进化.利用脉冲神经膜系统的高并行性,在更短的时间内得到更优化的初始聚类中心,为K-means算法的局部寻优提供更好的聚类初值.实验结果表明,改进后的算法可以进一步提升聚类的准确率,取得更好的聚类效果. 展开更多
关键词 聚类 K-MEANS算法 PSO算法 脉冲神经膜系统
在线阅读 下载PDF
利用K均值聚类算法识别遗传疾病致病SNP位点 被引量:2
4
作者 张恒益 郑惠玲 《家畜生态学报》 北大核心 2020年第12期25-31,共7页
通过识别与遗传疾病致病相关的SNP(Single Nucleotide Polymorphism)位点在染色体中的位置,可以帮助人们干预这些致病位点,从而防止遗传性疾病的发生或者进行畜禽的抗病育种。利用K均值聚类算法对每一个位点的数值编码进行聚类并计算其... 通过识别与遗传疾病致病相关的SNP(Single Nucleotide Polymorphism)位点在染色体中的位置,可以帮助人们干预这些致病位点,从而防止遗传性疾病的发生或者进行畜禽的抗病育种。利用K均值聚类算法对每一个位点的数值编码进行聚类并计算其正确率,再利用箱型图识别极端异常值的方法筛选致病SNP位点,最后采用卡方检验对筛选结果的有效性进行验证。结果表明:K均值聚类算法不但准确识别出了遗传疾病的致病SNP位点,而且识别速度远高于目前普遍使用的逻辑斯蒂回归和随机森林算法。因此,该研究基于K均值聚类算法提出了一种识别遗传疾病致病SNP位点的新方法,为实时处理大规模畜禽基因数据集提供了一种新的思路。 展开更多
关键词 K均值聚类算法 致病snp位点 箱型图 卡方检验
在线阅读 下载PDF
改进型蚁群聚类算法在单核苷酸多态性(SNPs)数据分析中的应用
5
作者 姜龙训 张玲 《中国数字医学》 2015年第5期77-80,共4页
目的:改进经典蚁群聚类算法(LF算法),应用到盐敏性高血压SNPs数据分析,为探讨高通量SNPs统计分析提供新思路。方法:改进LF算法,利用Mat 1ab8.0软件对改进后算法进行编程,对335个盐敏性高血压样本进行聚类分析,并通过潜在类别分析的结果... 目的:改进经典蚁群聚类算法(LF算法),应用到盐敏性高血压SNPs数据分析,为探讨高通量SNPs统计分析提供新思路。方法:改进LF算法,利用Mat 1ab8.0软件对改进后算法进行编程,对335个盐敏性高血压样本进行聚类分析,并通过潜在类别分析的结果进行比较。结果:成功改进LF算法并实现软件化界面。采用新算法将所有样本分成2个类别,第一类169份样本,第二类166份样本,与潜在类别分析法结果进行一致性检验,Kappa值为0.93,P<0.001,并通过两类人群SNPs概率分布差异统计学检验,筛选出3个SNPs:rs848307、rs1739843、rs1010069,明确其在分类中的重要作用。结论:蚁群聚类算法具有思维独特、计算自动化、易于改进等特点,在高通量SNPs数据分析及其他基因组学相关领域有广阔的应用前景。 展开更多
关键词 蚁群优化算法 单核苷酸多态性(snps) 聚类分析
暂未订购
有Mate-Pairs的个体单体型MSR问题的参数化算法 被引量:2
6
作者 谢民主 陈建二 王建新 《软件学报》 EI CSCD 北大核心 2007年第9期2070-2082,共13页
个体单体型MSR(minimum SNP removal)问题是指如何利用个体的基因测序片断数据去掉最少的SNP(single-nucleotide polymorphisms)位点,以确定该个体单体型的计算问题.对此问题,Bafna等人提出了时间复杂度为O(2~kn^2m)的算法,其中,m为DNA... 个体单体型MSR(minimum SNP removal)问题是指如何利用个体的基因测序片断数据去掉最少的SNP(single-nucleotide polymorphisms)位点,以确定该个体单体型的计算问题.对此问题,Bafna等人提出了时间复杂度为O(2~kn^2m)的算法,其中,m为DNA片断总数,n为SNP位点总数,k为片断中洞(片断中的空值位点)的个数.由于一个Mate-Pair片段中洞的个数可以达到100,因此,在片段数据中有Mate-Pair的情况下,Bafna的算法通常是不可行的.根据片段数据的特点提出了一个时间复杂度为O((n-1)(k_1-1)k_22^(2h)+(k_1+1)^(2h)+nk_2+mk_1)的新算法,其中,k_1为一个片断覆盖的最大SNP位点数(不大于n),k_2为覆盖同一SNP位点的片段的最大数(通常不大于19),h为覆盖同一SNP位点且在该位点取空值的片断的最大数(不大于k_2).该算法的时间复杂度与片断中洞的个数的最大值k没有直接的关系,在有Mate-Pair片断数据的情况下仍然能够有效地进行计算,具有良好的可扩展性和较高的实用价值. 展开更多
关键词 单核苷酸多态性 基因型 单体型 参数化算法 计算复杂度
在线阅读 下载PDF
单体型组装问题MEC/GI模型的参数化算法
7
作者 谢民主 王建新 陈建二 《高技术通讯》 CAS CSCD 北大核心 2008年第4期422-428,共7页
根据 DNA 测序片段数据的特点,提出了一个时间复杂度为 O(nk_22^(k_2)+mlogm+mk_1)的单体型组装问题 MEC/GI 模型的参数化算法,其中 m 为片段数,n 为单体型的 SNP位点数,k_1 为一个片段覆盖的最大 SNP 位点数(通常小于10),k_2为覆盖同一... 根据 DNA 测序片段数据的特点,提出了一个时间复杂度为 O(nk_22^(k_2)+mlogm+mk_1)的单体型组装问题 MEC/GI 模型的参数化算法,其中 m 为片段数,n 为单体型的 SNP位点数,k_1 为一个片段覆盖的最大 SNP 位点数(通常小于10),k_2为覆盖同一 SNP 位点的片段的最大数(通常不大于10)。对于实际 DNA 测序中的片段数据,即使 m 和 n 都相当大,该算法也可以在较短的时间得到 MEC/GI 模型的精确解,具有良好的可扩展性和较高的实用价值。 展开更多
关键词 生物信息学 参数化算法 基因型 单体型 单核苷酸多态性
在线阅读 下载PDF
最大节约原则下单倍型推导问题的实用算法(英文) 被引量:1
8
作者 张强锋 车皓阳 +1 位作者 陈国良 孙广中 《软件学报》 EI CSCD 北大核心 2005年第10期1699-1707,共9页
在疾病的易感基因研究和药物反应实验中,常常需要知道单倍型,而不仅仅是基因型数据.但是直接通过生物学实验手段来测定单倍型在时间和成本上消耗过大,所以在实验室里往往仅测得基因型,而通过一些计算手段来推导出单倍型.不同于Clark著... 在疾病的易感基因研究和药物反应实验中,常常需要知道单倍型,而不仅仅是基因型数据.但是直接通过生物学实验手段来测定单倍型在时间和成本上消耗过大,所以在实验室里往往仅测得基因型,而通过一些计算手段来推导出单倍型.不同于Clark著名的单倍型推导模型,Gusfield和Wang等人提出了一种通过基因型样本推导单倍型的新模型.这种模型试图按照最大节约原则去寻找可以解释基因型样本的最小单倍型集合.这种基于节约原则的模型克服了Clark模型的一些缺陷.提出了节约原则模型的一个多项式时间的贪心算法以及一种把贪心策略和分支限界策略集合在统一框架下的复合算法.相对于Wang原来提出的分支限界完全算法,贪心的近似算法运行快得多,而且同时保持了比较准确的推导结果.新的复合算法也是一种完全算法.实验结果表明,与原来的分支限界算法相比,复合算法可以极大地提高运行效率以及可应用的实例规模. 展开更多
关键词 基因型 单倍型 snp 单倍型推导 最大节约原则 贪心算法
在线阅读 下载PDF
三元家庭基因数据的单体分型和单体型频率估计(英文)
9
作者 张强锋 徐云 +1 位作者 陈国良 车皓阳 《软件学报》 EI CSCD 北大核心 2007年第9期2090-2099,共10页
研究了在门德尔遗传定理和哈代-维恩伯格平衡假设下,三元家庭基因型数据的单体分型和单体型频率估计问题.过去的研究仅仅关注个体间没有联系或者含有一般家系信息的基因型数据,而对这种特殊的三元家庭关注得不够考虑到HAPMAP数据库中有... 研究了在门德尔遗传定理和哈代-维恩伯格平衡假设下,三元家庭基因型数据的单体分型和单体型频率估计问题.过去的研究仅仅关注个体间没有联系或者含有一般家系信息的基因型数据,而对这种特殊的三元家庭关注得不够考虑到HAPMAP数据库中有一部分数据就基于这种三元家庭,现在有越来越多的需求要求直接分析这种特殊的家系结构.提出一个两段式的三元家庭中单体型频率的估计方法:i)分型阶段,找出每一个三元家庭零重组单体构型;ii)频率估计阶段,在前一阶段得到的单体构型基础上,应用EM算法来估计单体型频率.在程序包TRIOHAP中用C语言实现了单体分型算法和EM算法,并且使用模拟和实际数据测试了TRIOHAP的有效性和效率.实验结果表明,TRIOHAP要比其他那些忽略了三元家庭信息的常见单体型频率估计软件运行快很多.进一步地,由于TRIOHAP利用了这些信息,其估计结果更加可靠. 展开更多
关键词 基因型 单体型 snp 单体分型弹体型频率估计 三元家庭 EM算法
在线阅读 下载PDF
基于GBS简化基因组技术的蕲艾遗传多样性分析 被引量:3
10
作者 陈昌婕 肖闯 +2 位作者 马钰洋 苗玉焕 刘大会 《中国实验方剂学杂志》 CAS CSCD 北大核心 2024年第18期171-177,共7页
目的:探究45份艾种质资源的遗传关系,揭示其遗传变异特点。方法:基于基因分型(GBS)的简化基因组技术对45份资源进行了单核苷酸多态性(SNP)位点挖掘,并利用SNP标记进行了主成分分析、系统发育分析、群体遗传结构分析和遗传变异分析。结果... 目的:探究45份艾种质资源的遗传关系,揭示其遗传变异特点。方法:基于基因分型(GBS)的简化基因组技术对45份资源进行了单核苷酸多态性(SNP)位点挖掘,并利用SNP标记进行了主成分分析、系统发育分析、群体遗传结构分析和遗传变异分析。结果:共获得111.91 Gb数据,测序结果的Q20和Q30分别为96.39%和90.33%,平均GC含量为39.37%,clean reads与参考基因组的比对率为70.24%~98.97%,共获得22 399个Indel和170 539个SNP位点,其中第10对染色体上的变异位点最多;主成分分析、聚类分析和遗传多样性分析表明,45份资源可以被分为3个类群,类群Ⅰ包含的3份资源均来源于蕲春县,第Ⅱ类群资源均为野生种,类群Ⅲ包含31份种质,来源最为复杂;同时,这45份种质可分为3亚类,包含来源于3个祖先的遗传信息,说明不同种源的艾遗传组成比较复杂,尤其是来源于湖北省蕲春县的种质。结论:该研究可为蕲艾的新品种选育、特异性SNP标记的开发、艾的亲缘关系研究提供理论支撑。 展开更多
关键词 蕲艾 基因分型(GBS) 单核苷酸多态性(snp)标记 遗传多样性分析 聚类分析
原文传递
Deletions in the genomes of fifteen inbred mouse lines and their possible implications for fat accumulation
11
作者 SCHMITT Armin O. DEMPFLE Astrid BROCKMANN Gudrun A. 《Journal of Zhejiang University-Science B(Biomedicine & Biotechnology)》 SCIE CAS CSCD 2007年第11期777-781,共5页
Copy number variants (CNVs) are pieces of genomic DNA of 1000 base pairs or longer which occur in a given genome at a different frequency than in a reference genome. Their importance as a source for phenotypic variabi... Copy number variants (CNVs) are pieces of genomic DNA of 1000 base pairs or longer which occur in a given genome at a different frequency than in a reference genome. Their importance as a source for phenotypic variability has been recognized only in the last couple of years. Chromosomal deletions can be seen as a special case of CNVs where stretches of DNA are missing in certain lines when compared to the reference genome of the mouse line C57BL/6, for example. Based upon more than 8 million single nucleotide polymorphisms (SNPs) in the fifteen inbred mouse lines which were determined in a whole genome chip based resequencing project by Perlegen Sciences, we detected 20166 such long chromosomal deletions. They cover altogether between 4.4 million and 8.8 million base pairs, depending on the mouse line. Thus, their extent is comparable to that of SNPs. The chromosomal deletions were found by searching for clusters of missing values in the genotyping data by applying bioinformatics and biostatistical methods. In contrast to isolated missing values, clusters are likely the consequence of missing DNA probe rather than of a failed hybridization or deficient oligos. We analyzed these deletion sites in various ways. Twenty-two percent of these deletion sites overlap with exons; they could therefore affect a gene's functioning. The corresponding genes seem to exist in alternative forms, a phenomenon that reminds of the alternative forms of mRNA generated during gene splicing. We furthermore detected statistically significant association between hundreds of deletion sites and fat weight at the age of eight weeks. 展开更多
关键词 Copy number variants (CNVs) Chromosomal deletions Single nucleotide polymorphisms snps) RESEQUENCING Cluster analysis Association between genotype and phenotype
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部