Google研究團隊運用機器學習 探索科學應用

李依庭/本刊主編

這個月所上架的《科學月刊》3 月號,講的是生物辨識主題,屬機器學習的一環。機器學習,是屬於人工智慧的一個部分,主要是透過許多學科、領域的結合,設計出讓電腦、機器可以自動學習的演算法。目前機器學習已廣泛運用在許多應用之中,像是搜尋引擎、生物辨識和醫學診斷等。

Google Brain 研究團隊工程師Chris Shallue 透過視訊解說機器學習
在天文學的應用。(王弘奕攝影)


除了上述所講的應用,現今的機器學習,也將觸角伸入至許多的科學探索中。這次,Google 公司透過機器學習,讓天文學與生命科學在探索宇宙未知行星與基因組定序時的變體識別,有更快速的發現與檢測方式。

隨著望遠鏡、電腦和數位相機等眾多高科技商品的相繼問世,在科技技術日新月異之下,人們得以對太空中的世界有所認識。然而,對於無邊無垠的太空,還是有許多未知等待人類去找尋。克卜勒任務(Kepler Mission),為2009 年由NASA 所提出的一項計畫,將克卜勒太空望遠鏡(Kepler space telescope)送至太空中,截至2013 年的4年期間,每30 分鐘拍一次照片,總共蒐集超過20 萬顆恆星的亮度。

天文學家嘗試從這些照片中尋找行星,傳統上的做法是天文學家用肉眼判斷或利用電腦演算找出可能的行星訊號,因此,天文學家利用人工的方式檢查3 萬個克卜勒太空望遠鏡所偵測到的訊號,並判別出2500 個行星。不過,由於資料量太過龐大,若全然依靠天文學家來判別太過於耗時,所以,NASA 與Google 合作,透過機器學習來找行星。

首先,先利用15000 個已由天文學家進行人工標記的訊號來訓練模型,此模型為卷積神經網路(convolutional neural network),是一種機器學習的運算模型,用來辨識圖像並分類數據資料,再透過訓練此神經網路預測所偵測的訊號為行星的機率。Google 團隊在確認此模型對於行星與非行星的訊號辨識準確率達96% 時,便開始用它來尋找新的行星。研究團隊進一步讓模型搜尋在克卜勒計畫中所拍攝到的670 個恆星照片,並藉此識別是否有新行星的存在。透過這個模型,成功發現2 顆新行星,分別是克卜勒80g 和克卜勒90i。

不只是天文學的機器學習,Google 團隊也將基因組定序技術帶入深度學習。近年來,基因定序這項技術,可讓人們知曉每一個個體身上的遺傳密碼中所有訊息,而變體識別(variant calling),指的是個體中的基因組與「人類參考基因組」之間差異的部分。現今的精準化醫療就是以此方向為目標,期望能透過這些差異,找出最適合的個人化治療方法。

Google 臺灣總經理簡立峰於會後心得分享。(王弘奕攝影)
然而,要準確的執行變體辨別卻有其困難,目前市面上所使用的高通量定序技術(high-throughput sequencing, HTS)雖然能夠快速且大量的進行定序,不過由於其定序方法是將基因切成許多小片段後進行判別,使定序後的錯誤率偏高;而現在已有的變體識別工具則仍需仰賴專家進行人工設計、手動調整各參數,因此難以快速、大量推廣。

有鑑於此,Google Brain 研究團隊與Verily Life Science(Google X 生命科學部門)歷時2 年的時間,合作開發出DeepVariant,透過公開的基因組資料庫進行定序後,將定序儀所讀到的資料轉化成圖像格式,並運用圖像分類演算法,訓練出變體識別模型。目前,這項模型已發布在網路上,且已成為GitHub 上熱門的生物資訊工具。

另外, 美國DNAnexus 公司也將此變體識別模型與其他平台進行比較,發現其錯誤率是其他變體軟體(variant caller)的1/2~1/3;而DeepVariant 也分別在2016和2017 年美國食品藥物管理局舉辦的變體辨別比賽中獲得最佳表現(highest SNP performance award)的殊榮。研究團隊表示,在初步測試中,也發現此變體識別運用在小鼠或玉米的研究上有很高的準確率,未來也會朝向這部分進行研究。

Google Brain 研究團隊工程師張碧娟分享基因定序技術與
變體識別軟體DeepVariant。(王弘奕攝影)
雖然透過機器學習,能夠大量減少人工識別的時間與錯誤率,然而還是有些技術需要突破,像是行星訊號的假陽性預測(background false positives)、最後階段還是需以人工方式進行最後確認等;在DeepVariant 部分,現階段也還缺乏實際的臨床驗證。不過,可以確定的是,機器學習已逐步進入各項領域中,並帶給人們更多的幫助與優勢。

沒有留言:

張貼留言