近日,大連理工大學-立命館大學國際信息與軟件學院幾何計算與智能媒體技術研究所
論文“Discriminative Feature-oriented Gaussian Mixture Model for Fine-grained Image Recognition”由大連理工大學-立命館大學國際信息與軟件學院王智慧副教授、研究生王世傑和李豪傑教授共同完成。在細粒度圖像識別的任務中,如何準確的挑選出細粒度圖像間的判別性區域是核心問題之一。該工作發現深度神經網絡在深層的特徵圖上會產生判別性區域擴散問題,增加基於深層特徵圖準確挑選判別性區域的難度,從而影響圖像識別的準確性。針對上述問題,該研究進一步提出了將高斯混合模型嵌入到深度神經網絡中的DF-GMM模型。模型使用高斯混合模型來獲得深層特徵圖的一組低秩的特徵表示,然後將低秩的特徵表示恢復到原始的座標空間來得到低秩的特徵圖,緩解深層特徵圖上的判別性區域擴散問題。與直接在深層特徵圖上挑選判別性區域相比,在低秩特徵圖上挑選的判別性區域將更加準確。實驗表明該研究提出的模型在細粒度圖像識別準確性和效率方面都達到了目前最優的結果。
論文“A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection”由大連理工大學-立命館大學國際信息與軟件學院張淼副教授與信息與通信工程學院盧湖川教授團隊合作完成。該工作針對現有RGB-D顯著性檢測方法中存在高計算/內存消耗和在測試時對深度圖的依賴問題,設計了一個深度蒸餾器,將網絡的預測圖及注意力圖作為傳輸深度知識的橋樑。首先,提出一個自適應深度蒸餾策略來自適應地最小化RGB流與深度流預測圖之間的差異,該策略可以實現深度知識傳輸的有效控制。其次,提出一個注意力深度蒸餾策略來促進RGB流與深度流注意力圖的一致性,該策略可以將深度圖所包含的定位信息有效傳輸至RGB流的圖像特徵中。此外,該研究提出的深度蒸餾器可用於大幅提高現有RGB-D模型的大小和速率,提升了其實際應用性。實驗證明該研究提出的網絡結構在5個RGB-D的數據庫取得目前最優的結果,並且與目前最優的RGB-D方法相比,測試速率快12倍,模型大小減少76%。
論文“Select, Supplement and Focus for RGB-D Saliency Detection”由大連理工大學-立命館大學國際信息與軟件學院張淼副教授與信息與通信工程學院盧湖川教授團隊合作完成。該工作針對現有RGB-D顯著性檢測方法均受到不理想深度樣本的負面影響,提供了一個新的解決思路。首先,提出多尺度消融卷積模塊,首次從網絡深層挖掘顯著性邊緣細節,並整合到顯著性定位特徵上。其次,設計了一個新穎的跨模態引導的注意力機制,高效地消除跨模態特徵之間的差距,並針對性地從深度模態深入挖掘有效補充信息。此外,對於訓練階段存在的不理想深度樣本,不同於以往思路捨棄次優選擇,作者提出了一個新的損失函數,引導網絡關注困難樣本的學習,從RGB模態挖掘顯著性相關的有效信息。該方法的引入,使得網絡具有更強的泛化能力和魯棒性。在六個廣泛使用的RGB-D數據集上大量實驗證明,該方法優於目前最先進的RGB和RGB-D顯著性物體檢測方法。
幾何計算與智能媒體技術研究團隊依託於遼寧省泛在網絡與服務軟件重點實驗室。研究課題包括機器學習、深度學習、計算機視覺、多媒體技術、優化方法等當前最前沿的領域。近年來在IEEE TPAMI、TIP、TNNLS、TMM、NeurIPS、IJCAI、AAAI、CVPR、ECCV、ACM MM等人工智能、多媒體技術等多方領域的重要期刊及會議上發表論文達100餘篇。
作為教育部直屬全國重點大學、國家“211工程”和“985工程”重點建設高校、世界一流大學A類建設高校,