科學家重新命名人類基因防止微軟Excel將其誤讀為日期
人類基因組中有數以萬計的基因:DNA和RNA的微不足道的扭曲,它們結合在一起,表達了使我們每個人獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼,即所謂的符號,科學家用它來協調研究。但在過去的一年多時間裡,大約有27個人類基因被重新命名,這都是因為微軟Excel一直把它們的符號誤讀為日期。
這個問題並不像最初聽起來那麼意外。Excel是電子表格界的龐然大物,科學家經常使用它來跟踪他們的工作,甚至進行臨床試驗。但它的默認設置是以更平凡的應用為目的的,所以當用戶在電子表格中輸入一個基因的字母數字符號時,比如MARCH1,即”膜關聯環-CH型手指1 “的縮寫,Excel會將其轉換為日期:1-Mar(3月1日)。
研究發現,論文中的基因數據有五分之一受到EXCEL錯誤影響。這是非常令人沮喪的,甚至是危險的,科學家們不得不用手整理恢復被破壞的數據。它也令人驚訝地廣泛存在,甚至影響到同行評審的科學工作。2016年的一項研究檢查了3597篇發表論文旁共享的基因數據,發現大約五分之一的數據受到了Excel錯誤影響。
這種錯誤也沒有簡單的解決方法。Excel並沒有提供關閉這種自動格式化的選項,避免這種情況的唯一方法就是改變各個列的數據類型。即使這樣,科學家可能會修正自己的數據,但只要別人不假思索地在Excel中打開同樣的電子表格,錯誤就會重新引入。
不過,幫助已經到來了,那就是負責基因名稱標準化的科學機構–HUGO基因命名委員會,即HGNC。本週,HGNC發布了新的基因命名指南,包括針對影響數據處理和檢索的符號。從現在開始,人類基因和它們所表達的蛋白質在命名時將考慮Excel的自動格式化。也就是說,符號MARCH1現在變成了MARCHF1,而SEPT1變成了SEPTIN1,以此類推。HGNC將存儲舊的符號和名稱的記錄,以避免今後出現混亂。到目前為止,大約有27個基因的名字在過去的一年裡被這樣改變,但指導方針本身直到本週才正式公佈。