99精品热线在线观看免费视频_玩轉uniprot數據庫-科鹿（武漢）生物科技有限責任公司

免费久久无码精品一区二区,国产AV一区二区最新精品无删减,欧美久久男人的天堂,免费国产小视频国产

技術(shù)專(zhuān)欄

玩轉uniprot數據庫

供稿：技術(shù)部

發(fā)布時(shí)間：2022-06-07

瀏覽量：2661次

一、Uniprot蛋白數據庫介紹及使用詳解

Uniprot數據庫是資源最廣、信息最豐富的蛋白質(zhì)數據庫，是查詢(xún)蛋白功能的首選數據庫。Uniprot數據庫由Swiss-Prot、TrEMBL和PIR-PSD三大子數據庫構成，數據主要來(lái)自于各物種基因組測序完成后得到的全基因蛋白質(zhì)序列，并包含了很多來(lái)自文獻中的蛋白及其功能信息。尤其是swiss-prot 子數據庫，庫中蛋白質(zhì)信息都是手工核對過(guò)的，非冗余，有詳細注釋信息的蛋白數據。作為一名科研工作者，Uniprot數據庫的使用技能應該是必備的技能之一。

（1）UniProtKB（UniProt Knowledgebase）是蛋白質(zhì)序列、功能、分類(lèi)、交叉引用等信息存取中心;UniProtKB 主要由兩部分組成∶

UniProtKB/Swiss-Prot∶高質(zhì)量的、手工注釋的、非冗余的數據集;主要來(lái)自文獻中的研究成果和 E-value 校驗過(guò)計算分析結果。有質(zhì)量保證的數據才被加入該數據庫;

UniProtKB/TrEMBL∶該數據集包含高質(zhì)量的計算分析結果，—般都在自動(dòng)注釋中富集，主要應對基因組項目獲得的大量數據流以及人工校驗在時(shí)間上和人力上的不足。注釋所有可用的蛋白序列。在三大核酸數據庫（EMBL-Bank/GenBank/DDBJ）中注釋的編碼序列都被自動(dòng)翻譯并加入該數據庫中。它也有來(lái)自 PDB 數據庫的序列，以及Ensembl、Refeq和 CCDS基因預測的序列;

（2）UniRef（UniProt Non-redundant Reference）將密切相關(guān)的蛋白質(zhì)序列組合到一條記錄中，以便提高搜索速度。目前，根據序列相似程度形成 3個(gè)子庫，即 UniRef10 0、UniRef90和 UniRef50;

（3）UniParc（UniProt Archive）是一個(gè)綜合性的非冗余數據庫，包含了所有主要的、公開(kāi)的數據庫的蛋白質(zhì)序列。由于蛋白質(zhì)可能在不同的數據庫中存在，并且可能在同一個(gè)數據庫中有多個(gè)版本，為了去幾余，UniaraParc 對每條唯—的序列只存—次無(wú)論是否為同一物種的序列，只要序列相同就被合并為一條，每條序列提供穩定的、唯一的編號 UPI。該數據庫含有蛋白質(zhì)的序列信息，而沒(méi)有注釋數據。

UniProt 數據庫中，UniProtKB/Swiss-Prot 是我們最常用的，今天我們主要介紹這個(gè)數據庫的使用。我們在輸入欄中輸入CCL4L2，點(diǎn)擊search，就會(huì )出現不同物種該蛋白的詳細信息。找到我們想要的物種條目，點(diǎn)擊進(jìn)入。

Uniprot數據庫主要子數據庫組成：

以上子數據庫間的關(guān)系如下：uniprot會(huì )收集EMBL，GenBank，DDBJ等公共數據庫中的蛋白質(zhì)序列及功能信息等原始數據，處理后存入UniParc的非冗余蛋白質(zhì)序列數據庫；UniPrc作為數據倉庫，再分別給UniProtKB，Proteomes，UNIRef提供可靠的數據集，其中在UniProtKB數據庫中Swiss-Prot是由TrEMBL經(jīng)過(guò)手動(dòng)注釋后得到的高質(zhì)量非冗余數據庫，也是我們最常用的蛋白質(zhì)數據庫之一。

Uniprot數據庫官方鏈接：https://www.uniprot.org/

1. 單個(gè)蛋白質(zhì)信息查詢(xún)

下圖是Uniprot官方網(wǎng)站首頁(yè)，在UniprotKB欄輸入蛋白ID或Accession number，然后點(diǎn)擊search，就可以查詢(xún)蛋白功能。

我們以HUMAN CCL4L2為例，搜索其在Uniprot數據庫中的信息，如下圖，頁(yè)面默認顯示Entry模式，頁(yè)面顯示內容包括：蛋白名稱(chēng)、物種來(lái)源、GO功能注釋、亞細胞定位、組織特異性表達情況、互作蛋白、Domain、序列信息、同源蛋白以及其他數據鏈接等信息。

點(diǎn)擊Display下Publications按鈕，數據庫會(huì )展示該蛋白發(fā)表已經(jīng)收錄的文章。

2. 批量蛋白質(zhì)信息查詢(xún)

假如需要查詢(xún)的蛋白較多，則可以通過(guò)點(diǎn)擊首行任務(wù)欄Retrieve/ID mapping，如下圖，查詢(xún)蛋白列表可直接粘貼在下圖1. Provide your identifiers文本框中，也可以將蛋白ID單列粘貼于TXT文本中提交到網(wǎng)站。另外該頁(yè)面2. Select options 還可提供ID轉換功能，支持多種數據庫間的ID轉換。