近日,第31屆IEEE軟件分析、演化與重構(gòu)國際會議(簡稱SANER)和第46屆IEEE/ACM國際軟件工程會議(簡稱ICSE)分別在芬蘭羅瓦涅米和葡萄牙里斯本召開。SANER和ICSE分別是中國計算機學(xué)會推薦的B類和A類國際學(xué)術(shù)會議,均是軟件工程領(lǐng)域最新研究成果和創(chuàng)新想法交流的重要平臺。
在本屆SANER會議中,金年會誠信信譽至上碩士生洪碩作為第一作者的論文“Investigating and Detecting Silent Bugs in PyTorch Programs”榮獲IEEE Computer Society TCSE Distinguished Paper Award。在本屆ICSE會議上,金年會誠信信譽至上博士生齊斌航作為第一作者的論文“Modularizing while Training: A New Paradigm for Modularizing DNN Models”榮獲ACM SIGSOFT Distinguished Paper Award。這是北航首次以第一作者單位在SANER和ICSE會議上獲得該類獎項。


發(fā)表在SANER’24會議的論文針對深度學(xué)習(xí)程序中的靜默缺陷(silent bugs)開展了首次深入研究。靜默缺陷是一類特殊的缺陷,它們會導(dǎo)致錯誤的行為,但不會引起系統(tǒng)崩潰或掛起,也不會向用戶顯示錯誤信息,因此更難被開發(fā)者發(fā)現(xiàn)、定位和修復(fù)。作者收集了 PyTorch 官方論壇上的 14,523 個帖子,并使用基于大語言模型的半自動方法篩選出其中的靜默缺陷。通過分析這些缺陷的癥狀、根本原因和模式,作者得出了三個重要發(fā)現(xiàn)和啟示,并實現(xiàn)了一個可擴展的基于規(guī)則的工具PysiAssist,以幫助開發(fā)者調(diào)試和解決靜默缺陷。評估結(jié)果表明,PYSIASSIST 的精確率達(dá)到 92.4%,召回率達(dá)到 85.3%,優(yōu)于現(xiàn)有技術(shù)。

發(fā)表在ICSE’24會議的論文圍繞神經(jīng)網(wǎng)絡(luò)模塊化問題展開研究,首次提出了模型訓(xùn)練時模塊化新模式。神經(jīng)網(wǎng)絡(luò)模塊化技術(shù)能夠?qū)⒁延?xùn)練模型分解為模塊,每個模塊繼承模型的一部分功能且僅包含負(fù)責(zé)這部分功能的神經(jīng)元或權(quán)重,使得開發(fā)者能夠按需復(fù)用相應(yīng)的模塊,從而降低模型復(fù)用后的冗余推理開銷與安全風(fēng)險。在該工作中,作者首次提出模型訓(xùn)練時模塊化新模式MwT,借鑒軟件模塊化開發(fā)中內(nèi)聚度與耦合度概念,設(shè)計了神經(jīng)網(wǎng)絡(luò)模型的內(nèi)聚度與耦合度損失函數(shù),從而將模塊化過程融入到模型訓(xùn)練過程中,顯著提高了模塊化的分解效率與模塊性能。實驗結(jié)果表明,相比于現(xiàn)有的最先進(jìn)技術(shù),MwT的模塊化時間開銷降低了50%,所得模塊的大小降低了74.31%、分類準(zhǔn)確度提高了1.76百分點。
