高能教程 | 把自己的數據傳給世界看!
?
什么是GEO數據庫?
?
?

?
?
?
Gene Expression Omnibus(GEO)是NCBI旗下的一個分支數據庫
http://www.ncbi.nlm.nih.gov/geo/,是一個儲存高通量功能基因組學數據的數據庫,這些高通量功能基因組學數據來自芯片和新一代的測序儀得到的試驗數據。
?
?

?
?
紅色方框標出的就是兩大類高通量數據,一類是芯片數據提交,另一類是高通量測序數據提交;現在主要介紹高通量芯片數據的上傳。
?
向GEO上傳數據,首先需要注冊一個NCBI賬戶,有了賬戶后,就可以正式開始數據上傳了。
https://www.ncbi.nlm.nih.gov/account/
?
?
?
Agilent芯片結果上傳至GEO
?
?
?

?
?
?
GEO的Data types選項可以選擇Array submissions的相應芯片平臺,如常見的Affymetrix、Agilent;Nimblegen、Illumina等;如果是其他形式,可以選擇General。
?
下面以Agilent芯片數據上傳為例,詳細介紹一下高通量芯片數據上傳需要的文件及填寫等。
?
上傳數據類型選擇及需要文件
GEO推薦以GEO archive格式上傳數據。GEO archive包含三個文件:
(1)包含芯片實驗描述的Excel表格;
(2)原始數據(Agilent為TXT文檔);
(3)歸一化或處理的數據
(一般包含在第一個Excel文件中)。
?
高通量芯片數據上傳文件準備
在數據選擇頁面選擇Agilent,進入頁面后,下拉網頁,在Agilent GEOarchive templates and examples中選擇數據類型:
?

?
?
常規實驗均為單通道芯片實驗(One-color experiment),點擊One-color experiment,下載需要填寫的Excel表格。
?
MetadataTemplate內容填寫:
(1)SERIES:跟文章相關的內容:標題,摘要,實驗設計,參與者;
?
?

?
?
(2)SAMPLES:跟樣本信息相關的內容:樣本名稱,原始數據文件名稱,樣本來源,物種,特征(樣本類型等),實驗用分子類型,標記類型,樣本描述,芯片平臺類型或ID;
?

?
?
(3)PROTOCOLS:實驗樣本的培養、處理、提取方法,芯片實驗樣本標記,芯片雜交、掃描及數據處理方法,信號值定義;
?
?

?
?
Matrix Template內容填寫,只需要將芯片結果中的數據填入即可。必須填寫的是芯片探號和樣本信號值,ID REF填寫芯片探針ID,一般為芯片數據表格第一列,FeatureNumbers可以刪除,后面列即為每個樣品對應的歸一化信號值。
?
?

?
?
?
下面激動人心的時刻終于要來了?。?!
?
數據上傳
將原始數據和填寫好的Excel表格壓縮到一個壓縮文件里,點擊“高通量芯片數據上傳文件準備”頁面中的Submit,上傳壓縮文件,此時可以選擇數據上傳類型(新的上傳數據或更新的數據);選擇數據釋放時間(最長可設置3年后釋放);如果你還有想對GEO管理員“偷偷說的悄悄話”,也可以填寫相應內容;如果你的壓縮文件太大,上傳失敗,不要灰心,可以用FTP工具上傳你的數據。
?
?

?
?
到此,所有數據上傳工作就結束了,你只需要等GEO管理員回復郵件,通知你的數據上傳成功,并給你相應GSE編號就可以了。
?
一些細心的同學可能會問,GEO數據庫如何上傳高通量測序數據呢?
?
向GEO數據庫上傳高通量測序數據,需要將原始數據上傳到NCBI SRA數據庫,其他與芯片數據上傳類似。
?

?
?
如果有高通量測序數據急需上傳的同學,可以聯系區域內我們的銷售人員,他們有本上神親自撰寫的《高通量測序數據上傳指南》,需要的同學快快聯系啊,歷完此劫(讀完指南),我相信你也會從高通量數據上傳的小仙飛升為上神的!
?
?
聯系方式
活動詳情請咨詢當地業務員也可以發郵件至
bioservice@capitalbiotech.com
?
或者撥打電話
010-69002900-8303
?
?
?
?
博奧晶典科研服務事業部張偉 吳潔 張西軒 | 文案
部分配圖來源于網絡 侵刪
