在8日于此間舉行的第九屆“華為杯”全國研究生數(shù)學建模競賽上傳出消息,來自上海交通大學的歐陽廷婷、武發(fā)明和豐子灝利用數(shù)學算法,成功解決了基因識別難題。
每個人的長相、身體狀況之所以各不相同,就是因為DNA的存在。其中帶有遺傳信息的DNA片段稱為基因,控制著生物的性狀。就好像天然金沙掩藏在大量淤泥里一樣,在基因片段中存在著“黃金”外顯子與“淤泥”內含子,只有外顯子上存有遺傳信息,而內含子只是冗余信息。所以,去除多余的內含子,把有用的外顯子找到,就是歐陽廷婷團隊要解決的問題。這一問題是當前生物信息學最基礎、最首要的難題。
歐陽廷婷團隊介紹,他們的“淘金術”原理在于兩大法寶:基因頻率變化規(guī)律與數(shù)學算法原理。在基因的運動過程中,會體現(xiàn)出一定頻率變化規(guī)律,其中最顯著的特征之一就是頻譜3-周期性,即基因在三個子序列上分布的“非均衡性”,從不均勻的排布上可以看出一些外顯子的端倪,對準確定位“黃金”起著舉足輕重的作用。
大概確定了“黃金”的范圍后,就要用信號處理和數(shù)學分析的手段處理DNA序列,并建立數(shù)學模型。歐陽廷婷團隊綜合前人的算法,加以提升,設計出了一套精確度更高的基因編碼區(qū)域識別算法。這一算法將盡量多的真實外顯子識別出來,同時盡量少地將內含子錯誤識別為外顯子,也就是最大限度找到“黃金”。歐陽廷婷團隊借此獲得了大賽一等獎。