中华大学生物资讯学系专题报告VIP免费

下载本文档

阅读 144
下载 23
格式 docx
大小 162.33 KB
约7页
2024-11-05 发布于河南
收藏
评论
点赞(0)
海报
举报

1/7页

2/7页

3/7页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

中華大學生物資訊學系專題報告擷取碼的轉換應用於同源序列搜尋Theapplicationoftransformationofaccessionnumberstohomologoussequencesearching專題組員:李昱賢、蔡承錞、張智堯、曹富凱專題編號：PROJ2008-BIOINFO-9410指導老師:侯玉松老師一、摘要每個蛋白質都有其代號與同源性，而每個蛋白質資料庫中都有其自家的蛋白質擷取碼代號，其主鍵(PrimaryKey)不同能應用的資料庫當然也不同，為了能轉換各個資料庫的主鍵，我們收集了各資料庫的資料與同源資料加以整理並且建立了對照表，再利用擷取碼對照表與同源對照表，建立我們自己的轉換程式與同源蛋白搜尋程式，最後為了需求者的方便，我們把上述程式加以整合，並且視窗化，完成了一個具蛋白質擷取碼轉換與同源搜尋功能的整合程式。二、簡介由於有些研究者在研究蛋白序列時，取得了資料庫的蛋白質擷取碼後，如果想再另外的資料庫上搜尋時，有時會因為兩種資料庫的命名擷取碼方式不同，造成研究者在不同資料庫中做搜尋時，會發生擷取碼無法對照或找不到該擷取碼的困擾，所以本專題主要目的是嘗試用程式來轉換擷取碼，讓研究者可以透過程式，來轉換自己所需的擷取碼，以便可以在另外的資料庫中使用。另一方面研究者在轉換所需擷取碼之後，我們提供該擷取碼的相關同源蛋白，讓研究者不僅可以知道各個資料庫的蛋白質擷取碼並且可以讓他們進一步了解這些蛋白質擷取碼的相關性，不在需要到網站上做搜尋，只需要藉由程式就可以達到目的。三、專題進行方式(一)蒐集資料1.何謂擷取碼?擷取碼就像是資料庫中的主鍵(PrimaryKey)，而PrimaryKey的作用是尋找或查詢資料的主要依據，任何候選鍵都可當主鍵，但只能有一個主鍵，以鑰匙狀的標記表示主鍵值。所以每個擷取碼就像我們的身分證字號一樣，是獨一無二的，我們可以依據擷取碼，找到我們需要的蛋白質序列。2.擷取碼轉換資料PIR(ProteinInformationResource)為PIR-International這個大分子序列資料收集中心所維持的蛋白質序列資料庫此中心包括NationalBiomediCalResearchFoundation(NBRF)ProteinInformationResource(PIR)，日本JapanInternationalProteinInformationDatebaseMartinscriedInstituteforProteinSequence(MPS)提供了我們各個資料庫轉換成uniport的資料。(圖一)(http://pir.georgetown.edu/pirwww/index.shtml)圖一:PIR擷取碼轉換範例例如紅框處分別為GI資料庫裡的65304095與EMBL資料庫的CR940353轉換成uniport的擷取碼為Q4U9M9。3.同源蛋白質資料Inparanoid(http://inparanoid.sbc.se/cgi-bin/index.cgi)裡面有物種對物種的同源蛋白序列資料，本專題由此資料庫擷取酵母菌(S.cerevusiae)、線蟲(C.elegans)、果蠅(D.melanogaster)、阿拉伯芥(A.thaliana)、人類(H.sapiens)、大腸桿菌(E.colik12)的同源蛋白配對資料。共包括了5792個酵母菌蛋白質、26819個阿拉伯芥蛋白質、20084個線蟲蛋白質、13854個果蠅蛋白質、22(圖二)。圖二:Inparanoid同源蛋白資料範例例如紅框中編號1的群組，為人類的ENSP00000371526蛋白質與阿拉伯芥的AT4G37880.1、AT1G80070.1具有同源關係。而HOMSA為Homosapiens的縮寫，縮寫方式為取Homo的前面三個字母與sapiens前面兩個字母，其他物種也是以此方式進行縮寫。(二)專題進行本專題為了讓在研究過程更有計畫並且進行重點式的研究，所以製作了專題流程表(表一)。表一:專題流程圖(1)進行資料整合由於PIR提供的資料過於凌亂(圖一)，所以我們利用程式，先進行整理，整理出7個資料庫對應UNIPORT的擷取碼，例如CYGD有6644筆Wormbase有22833筆、TAIR有26459筆、Ensembl有223568筆、dictyBase有12750筆、FlyBase有38724筆、ZFIN有18158筆。(圖三)圖三:例如紅框中Wormbase裡WBGene00012015對應uniport擷取碼為Q17761。(2)設計擷取碼對照程式在轉換方面，為了在龐大的資料裡蒐尋我們所需要轉換的擷取碼，在眾多的蒐尋法裡，我們選擇使用二分搜尋法(Binarysearch)來進行搜尋。而如果要利用二分搜尋法，其資料需要經過排序，在處理資料上，我們使用快速排序法(QuickSort)來進行排序。利用快速排序法，將資料經過排序後，再由二分搜尋法來對我們欲搜尋的目標進行搜尋。(3)建...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

中华大学生物资讯学系专题报告

二、簡介由於有些研究者在研究蛋白序列時，取得了資料庫的蛋白質擷取碼後，如果想再另外的資料庫上搜尋時，有時會因為兩種資料庫的命名擷取碼方式不同，造成研究者在不同資料庫中做搜尋時，會發生擷取碼無法對照或找不到該擷取碼的困擾，所以本專題主要目的是嘗試用程式來轉換擷取碼，讓研究者可以透過程式，來轉換自己所需的擷取碼，以便可以在另外的資料庫中使用

另一方面研究者在轉換所需擷取碼之後，我們提供該擷取碼的相關同源蛋白，讓研究者不僅可以知道各個資料庫的蛋白質擷取碼並且可以讓他們進一步了解這些蛋白質擷取碼的相關性，不在需要到網站上做搜尋，只需要藉由程式就可以達到目的

三、專題進行方式(一)蒐集資料1

擷取碼就像是資料庫中的主鍵(PrimaryKey)，而PrimaryKey的作用是尋找或查詢資料的主要依據，任何候選鍵都可當主鍵，但只能有一個主鍵，以鑰匙狀的標記表示主鍵值

所以每個擷取碼就像我們的身分證字號一樣，是獨一無二的，我們可以依據擷取碼，找到

教育教学文库 + 关注: 实名认证
内容提供者

本店有大量的教育教学资料，课件

收藏店铺进入空间

中华大学生物资讯学系专题报告VIP免费

中华大学生物资讯学系专题报告

您可能关注的文档

相关文档

热门下载

相关标签