辨識生物期刊中圖像複製的新興技術

【本刊訊】生物學研究預印網站BioRxiv日前發布「生物規模下對重製圖像的自動檢測」研究,當中提到現行電腦軟體已能在大量的文獻中,找出重製的學術圖表。於紐約雪城大學(Syracuse University)研究機械學習的雅庫納(Daniel Acuna)表示,若期刊編輯使用了與該軟體類似的方法,便能更輕易地辨識出複製圖樣,且無論圖檔被旋轉、重置大小或在顏色上進行過調整,都能被找出來。

早在2015 年,雅庫納便與研究團隊利用演算法,於美國國家生物技術資訊中心(NCBI)的搜尋引擎Pubmed 底下約760萬篇生物醫學相關開放文章裡,擷取超過260 萬張圖檔,其中不乏細胞與組織的顯微圖片,包含彩色與灰階圖片。在刪除箭頭與流程圖組件等圖樣後,該研究篩選出2 萬張可疑的圖片,並檢視該圖與相同(或相關)作者是否有相似之處。整個過程裡團隊發現,資料庫裡約1.5%的文章存在可疑的圖片,而有約0.6%的文章圖片可能有不實之嫌。

過去許多期刊都會以繁複的方式校閱研究論文,如Nature 即對所提交的稿件進行隨機抽查,並要求作者附上未經處理的圖片原始檔;而有些像是Journal of Cell Biology 與The EMBO 等刊物則是作手動篩檢,然相對耗費許多時間。Elsevier 的誠信研究負責人阿爾波司博(IJsbrand Jan Aalbersberg)表示,以前要找出文章裡重製的內容,出版商必須有一個放有已出版內容的共享資料庫。2010 年,Crossref 公司集結許多合作出版商的文章,並運用加州Turnitin 公司的偵測軟體iThenticate進行偵測,Crossref 的執行董事表示,當下的出版系統在影像檢測方面未有任何計畫,部分原因來自於科技上的不成熟,但公司團隊卻也見證了這一切的發展。

雅庫納進一步指出,未將該演算法公諸於世的原因為,其可能產生不實指控的風險,然而團隊仍計畫向期刊與研究誠信辦公室(research-integrity office)申請使用許可。日前雅庫納已和芝加哥西北大學研究誠信辦公室主任魁肯布希(Lauran Qalkenbush)及進行討論,這項工具將會為組織帶來極大的幫助,且魁肯布希也希望能在該辦公室建立測試網站,以便了解未來測試裡可以如何運用該項工具。

學術出版商Elsevier 也表示為了支持圖像相似檢查(Similarity Check), 公司於2 年前挹注為期3 年、耗資120 萬美元的資金與柏林洪堡大學(Humboldt University)合作,試圖挖掘並辨識文章撰寫上種種的不當行為,就在今(2018)年1 月25 日,該合作計畫宣布期將建立出版物圖像回收資料庫,以便優化自動篩選機制。

新聞來源:Declan Butler, Researchers have finally created a tool to spot duplicated images across thousands of papers, Nature, 2018/2/23.

沒有留言:

張貼留言