基于关系相似性的蛋白质交互自动识别被引量：4

Protein-protein Interaction Identification Based on Relational Similarity

下载PDF

导出

摘要针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法。首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断。所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注。实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%)。 Current protein-protein interaction （PPI） identification systems use single sentences as evidence, and often suffer from the heavy burden of manual annotation. To address these problems, a new relational similarity-based ap- proach using large-scale text as evidence was proposed. First, description of PPIs is obtained by automatic searching of the whole PubMed database. Then, three types of features including lexical features, phrases, and dependency relations are extracted to build the vector space model of PPL Finally, similarity between vectors is measured to classify the rela- tionship between two proteins. In this method, training data is taken from existing PPI databases and no extra annota- tion work is needed. Results o~ the experiment show that this approach achieves high F-score （74. 2%）.

作者封二英牛耘魏欧蔡昕烨

机构地区南京航空航天大学计算机科学与技术学院南京

出处《计算机科学》 CSCD 北大核心 2013年第6期229-232,251,共5页 Computer Science

基金教育部高等学校博士学科点专项基金项目(20103218120024) 国家自然科学基金项目(61170043),国家自然科学基金青年科学基金项目(61202132)资助校青年科创基金(NS2012073)

关键词蛋白质交互关系关系相似性句法分析空间向量模型 Protein-protein interaction, Relational similarity, Syntactic analysis, Vector space model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1Bader G D,et al.BIND-the biomolecular interaction network database[J].Nucleic Acids Res.,2003,31 (1):242-245.
2Peri S,et al.Development of human protein reference database as an initial platform for approaching systems biology in humans[J].Genome Res.,2003,13:2363-2371.
3U.S.National Library of Medicine.PubMed[OL].http://www.ncbi.nlm.nih.gov/pubmed/.
4Ono T,Hishigaki H,et al.Automatic extraction of information on protein-protein interactions from the biological literature[J].Bioinfornatics,2001,17(2):155-161.
5Huang M L,Zhu X Y,Hao Y,et al.Discovering patterns to extract protein-protein interactions form full text[J].Bioinformatics,2004,20(18):3604-3612.
6Fundel K,et al.RelEx Relation extraction using dependency parse trees[J].Bioinformatics,2007,23 (3):365-371.
7Temkin J M,Gllder M R.Extraction of protein interaction information from unstructured text using a context tree grammar[J].Bioinformatics,2003,19(16):2046-2053.
8Bunescu R C,Mooney R J.Subsequence kernels for relation extraction[C]// Proceedings of the 19th Aunual Conference on Neual Information Processing Systems.Cambridge.MA,USA:MIT Press,2005:171-178.
9Niu Y,et al.Evaluation of linguistic features useful in extraction of interactions from PubMed; Application to annotating known,high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.
10唐楠,杨志豪,林鸿飞,李彦鹏.基于多核学习的医学文献蛋白质关系抽取[J].计算机工程,2011,37(10):184-186. 被引量：13

二级参考文献5

1Xiao Juan,Su Jian,Zhou Guodong,et al.Protein-protein Interaction Extraction:A Supervised Learning Approach[C] //Proc.of the 1st International Symposium on Semantic Mining in Biomedicine.Hinxton,Cambridge,UK:[s.n.] ,2005.
2Yang Zhihao,Lin Hongfei,Li Yanpeng.BiOPPISVM Extractor:A Protein-protein Interaction Extractor for Biomedical Literature Using SVM and Rich Feature Sets[J].Journal of Biomedical Informatics,2010,43(1):88-96.
3Airola A,Pyysalo S,Bj6rne J,et al.All-paths Graph Kernel for Protein-protein Interaction Extraction with Evaluation of Crosscorpus Learning[EB/OL].(2008-09-19).http://www.ncbi.nlm.nih.gov/pubmed/19025688.
4Miwa M,Swtre R,Miyao Y,et al.Combining Multiple Layers of Syntactic Information for Protein-Protein Interaction Extraction[C] //Proc.of the 3rd International Symposium on Semantic Mining in Biomedicine.Turku,Finland:[s.n.] ,2008.
5王海东,谭魏璇,李艳翠,周国栋.基于树核函数的代词指代消解[J].计算机工程,2009,35(15):165-167. 被引量：4

共引文献12

1封二英,牛耘,魏欧.基于大规模文本的蛋白质交互关系自动提取[J].计算机应用,2012,32(A01):147-150. 被引量：6
2王艳华,杨志豪,李彦鹏,唐利娟,林鸿飞.基于监督学习和半监督学习的蛋白质关系抽取[J].江西师范大学学报（自然科学版）,2013,37(4):392-396. 被引量：1
3王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
4王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
5彭昀磊,牛耘.基于弱监督的蛋白质交互识别[J].计算机技术与发展,2018,28(2):19-23.
6彭昀磊,牛耘.基于词向量的特征词选择[J].计算机技术与发展,2018,28(6):7-11. 被引量：1
7毛宇薇,牛耘.基于分布式假设的弱监督蛋白质交互关系识别[J].计算机技术与发展,2018,28(9):34-37.
8闵庆凯,蔡松成.基于交叉预测的蛋白质交互识别[J].计算机技术与发展,2018,28(4):17-20.
9蔡松成,牛耘.基于词频统计的蛋白质交互关系识别[J].计算机技术与发展,2019,29(2):65-68. 被引量：3
10毛宇薇,牛耘.基于关键词的蛋白质交互关系识别[J].计算机技术与发展,2019,29(3):18-22.

同被引文献65

1杨晶东,洪炳熔,朴松昊.基于模糊行为融合的移动机器人避障算法[J].华中科技大学学报（自然科学版）,2008,36(S1):310-313. 被引量：50
2李昕龙,张玲,李坤,王永炎.面向物联网传感器信息的数据分配策略[J].计算机研究与发展,2013,50(S1):297-305. 被引量：21
3彭波,张伟娜.基于GPS和GSM的农场短信中心的设计与实现[J].中国农业大学学报,2005,10(2):70-73. 被引量：13
4韩永,刘国栋.RoboCup小型足球机器人建模及仿真平台研究[J].计算机仿真,2007,24(1):154-157. 被引量：15
5王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
6刘晓燕,李孝安,段俊花,杨华忠.基于ZigBee的集控式足球机器人通讯系统[J].计算机测量与控制,2007,15(6):740-741. 被引量：12
7Prasad T S K, Goel R, Kandasamy K, et al. Human protein ref-erence database- 2009 update [ J ]. Nucleic Acids Research, 2008,37:767-772.
8Kerrien S, Alam- Faruque Y, Aranda B, et al. IntAct - open source resource for molecular interaction data [ J ]. Nucleic Acids Research ,2007,35:561-565.
9Ceol A, Aryamontri A C, Licata L, et al. MINT, the molecular interaction database: 2009 update [ J ]. Nucleic Acids Re- search,2010,38( 1 ) :532-539.
10Qian W, Fu C, Cheng H. Semi-supervised method for extrac- tion of protein-protein interactions using hybrid model [ C ]// Proceedings of the 2013 third international conference on in- telligent system design and engineering applications. [ s. 1. ] : IEEE Computer Society,2013 : 1268-1271.

引证文献4

1王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
2吴红梅,牛耘.基于词性加权和单词相似性的蛋白质交互识别[J].计算机技术与发展,2015,25(12):6-9.
3吴红梅,牛耘.基于特征加权的蛋白质交互识别[J].计算机技术与发展,2016,26(2):114-117. 被引量：3
4曹焕男,李洪梅,吕晶晶,崔岩.农机调度管理系统设计——基于体育馆智慧物业管理系统[J].农机化研究,2020,42(6):220-223. 被引量：4

二级引证文献9

1彭昀磊,牛耘.基于词向量的特征词选择[J].计算机技术与发展,2018,28(6):7-11. 被引量：1
2闵庆凯,蔡松成.基于交叉预测的蛋白质交互识别[J].计算机技术与发展,2018,28(4):17-20.
3苏章坚.面向机电城的智慧物业管理系统分析[J].价值工程,2020,39(15):270-271. 被引量：2
4蓝敏.基于视图间鉴别相关性分析的手语图像识别[J].电脑知识与技术,2020,16(15):19-21. 被引量：1
5李培媛,黄迟.基于CSPPNet与集成学习的人类蛋白质图像分类方法[J].计算机工程,2020,46(8):235-242. 被引量：4
6李雯,白正玉,侯天龙,黄浩然,张涛.农机设备信息化调度平台架构设计研究[J].江苏农业科学,2021,49(9):172-178. 被引量：6
7王赞森.基于嵌入式RFID标签的小型农用机械信息化管理流程[J].河北农机,2021(9):28-29.
8王弥.基于电子商务环境的农机管理系统设计[J].农机化研究,2025,47(2):96-100. 被引量：2
9李锋,万小强.基于关联矩阵的短信自动分类[J].计算机科学,2017,44(S1):428-432.

1王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
2王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
3章月阳,刘维.不确定性PPI网络链接预测[J].计算机科学,2014,41(B11):399-402. 被引量：1
4刁洪祥,肖健,陈义明.蛋白质交互网络模块化的数据分析[J].计算机工程与应用,2010,46(33):43-45.
5封二英,牛耘,魏欧.基于大规模文本的蛋白质交互关系自动提取[J].计算机应用,2012,32(A01):147-150. 被引量：6
6冯晓强,郑黎晓,陈海明.一类受限正则表达式的推断算法[J].计算机科学,2014,41(4):178-183. 被引量：1
7吴红梅,牛耘.基于词性加权和单词相似性的蛋白质交互识别[J].计算机技术与发展,2015,25(12):6-9.
8周广露.不确定图最小割边问题研究[J].智能计算机与应用,2014,4(4):78-80. 被引量：1
9张硕,高宏,李建中,邹兆年.不确定图数据库中高效查询处理[J].计算机学报,2009,32(10):2066-2079. 被引量：24
10王秀华,秦振吉.基于层次K-均值聚类的支持向量机模型[J].计算机应用与软件,2014,31(5):172-176. 被引量：1

计算机科学

2013年第6期

浏览历史

内容加载中请稍等...

基于关系相似性的蛋白质交互自动识别被引量：4

参考文献20

二级参考文献5

共引文献12

同被引文献65

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于关系相似性的蛋白质交互自动识别 被引量：4

参考文献20

二级参考文献5

共引文献12

同被引文献65

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于关系相似性的蛋白质交互自动识别被引量：4