使用排序學習為代碼搜索引擎排名代碼示例

2020-02-03 06:14:00 慕測科技

1 引用

Haoran Niu and Iman Keivanloo and Ying Zou. Learning to rank code examples for code search engines. Empirical Software Engineering, 2017, 22(1):259-291.

2 摘要

開發者通常會從已有的解決方案中學習使用源代碼示例來實現一些自己不熟悉的編程任務。為了更好地支持開發者查找已有解決方案，代碼搜索引擎旨在查找和排序與用戶查詢相關的代碼示例。本質上，代碼搜索引擎提供了一種排名模式，該模式整合了一組排序特徵來計算查詢和候選代碼示例之間的相關性。接著，排名模式將相關聯的代碼示例放置在結果列表的頂部。然而，很難主觀確定排名模式的配置。。在本文中，我們提出了一種代碼示例搜索方法，該方法應用了機器學習技術來自動地訓練排名方案。我們使用訓練後的排名方案在運行時對新查詢的候選代碼示例進行排名。我們使用從 586 個開源 Android 項目中爬取的超過 360,000 個代碼段的語料庫來評估該方法的排名性能。性能評估研究表明，學習排名方法可以有效地對代碼示例進行排名，並且在歸一化累計折損增益（NDCG）和預期倒數排名（ERR）度量方面，它們分別比現有的排名方案高出約 35.65％和 48.42％。

3 技術介紹

排名模式指定如何在運行時組合一組排序功能以產生最終的排序結果集。然而，我們很難主觀地確定現有排名方案的配置（即參與排名方法的特徵或其特徵的權重）。在本文中，我們使用了排序學習技術來自動調整排名模式的配置。排序學習是一種機器學習方法，主要應用於信息檢索系統的排名方案。開發人員可以使用排序學習技術來自動構建性能比最佳配置更好的排名模式，而無需為配置問題而苦惱。

3.1 總體流程

如圖 1 所示，我們的代碼搜索方法的整個過程包括四個主要階段：1）抓取 Android 項目；2）提取特徵；3）學習排名模式；4）為新查詢排名候選代碼示例。其中前三個步驟可以通過離線的方式完成，第四個步驟發生在運行時，我們方法的輸入是一個查詢語句（類+方法名）以及代碼片段語料庫。對於指定的查詢，系統會從語料庫中檢索包含查詢中指定的類或方法名稱的所有代碼段，計算查詢和代碼段之間的餘弦相似度。我們選擇與查詢最相似的代碼段作為候選代碼段。最後使用經過訓練的排名方案對候選人進行排名。

圖 1. 用於構建排名模式的代碼片段推薦流程圖

3.2 提取特徵

在本節中，我們描述了用於訓練排名模式的方法中使用的代碼示例特徵。總體而言，我們採用瞭如表 2 所示的 12 種特徵。我們將功能分為四類：文本相似性，受歡迎程度，代碼指標和上下文相似度。此外，我們可以將特徵分為兩組：依賴於查詢的特徵和不依賴於查詢的特徵。

表 2. 選用代碼示例的特徵

A. 文本相似度

我們首先使用 TF-IDF 將查詢語句和候選代碼示例轉化為空間向量的形式，之後通過如下公式計算兩個空間向量的餘弦相似度來表示文本相似度。

B. 受歡迎程度

有關代碼搜索和推薦的最新研究中使用受歡迎程度來識別具有更高接受率的候選答案。受歡迎程度表示代碼片段與在源代碼語料庫中經常觀察到的常見實現方式的接近程度。基本原理是，與語料庫中的通用模式越接近，開發人員接受推薦代碼段的機會就越大。受歡迎程度可以使用頻率或概率兩個維度進行評估。

使用頻率來衡量受歡迎程度：首先提取候選代碼片段中的方法調用的有序序列，並使用頻繁項集挖掘技術，分析語料庫來識別語料庫中的通用使用模式，之後我們通過計算每個候選代碼片段的和通用模式之間的餘弦相似度，最後將最相似的一種使用方式視為該代碼示例的通用實現方式。

C. 代碼度量

代碼度量標準組包含四組用於代碼搜索和代碼質量預測的代碼度量標準。代碼度量是一組與查詢無關的功能。表 2 總結了我們的方法中使用的代碼度量指標：

代碼行和標識符數量：代碼行和每行標識符的平均數量可以用來預測代碼的可讀性。
調用序列長度：代碼片段的調用序列中方法調用數量。
註釋與代碼的比例：代碼片段中註釋的佔比。
扇入，扇出和頁面排名：用於衡量代碼片段的複雜性, 扇入定義為調用特定代碼段的代碼片段數。扇出描述了被特定代碼段調用的數量。頁面排名通過計算指向特定代碼示例的調用量來確定代碼片段的重要性。

D. 上下文相似度

上下文相似性是指查詢上下文與候選代碼段之間的相似性。我們使用代碼示例的方法簽名和查詢片段的方法簽名分別表示代碼示例和查詢的上下文。通過識別其駝峰命名法方式將方法簽名拆分成令牌集合。之後使用 Jaccard 方法計算上下文的相似度。

3.3 訓練排名模式

在我們的方法中，我們使用一種學習排序算法來訓練排名模式，該算法由 Freund 等人提出，稱為 RankBoost。RankBoost 是一種高效算法，對我們的訓練數據的訓練過程只需幾分鐘。

排序學習算法的輸入是訓練數據，其中包含與一組查詢相關的候選代碼示例。每個代碼示例均以（q，r，Vc）形式表示為一條記錄，其中 q 表示查詢 ID； r 表示查詢 q 與候選代碼示例 c 之間的相關性，由專家進行標記；Vc 是包含代碼示例 c 的不同特徵值的向量。算法 1 顯示了生成最終排名 H 的 RankBoost 算法的詳細學習過程。

4 案例研究

為了評估我們的代碼示例搜索方法的性能，我們進行了一個案例研究。本案例研究的目標有兩個：（1）評估我們提出的方法的有效性；（2）比較研究特徵對我們方法性能的影響。

4.1 創建訓練和測試數據集

我們的訓練和測試數據集是一組查詢和候選代碼示例，首先從語料庫中隨機選擇一個代碼片段，作為預期答案。然後，通過從期望答案的代碼片段中隨機選擇一個方法調用，並提取該方法調用中的類和方法，轉化為針對期望答案的查詢。

要為我們的方法創建訓練數據集以學習如何對代碼示例進行排名，我們需要提供查詢及其候選代碼示例之間的相關性。查詢和候選答案之間的相關性由代表相關等級的標籤描述。我們使用廣泛接受的多等級絕對相關性判斷方法進行標記。具體來說，我們使用四個相關性級別，即優，良，中，差。我們要求評估者為每對查詢分配相關性標籤和候選人的答案。評估人員需要通過將候選答案與查詢的預期答案進行比較來判斷每個查詢與候選答案之間的相關性。

4.2 方法性能評估

我們通過確定由我們的方法產生的排名結果列表的優劣來評估排序模式的性能。由於結果列表中使用了多等級的相關性來度量，需要我們使用分級的相關性指標來評估結果列表。並且開發人員始終對前 k 個答案感興趣，因此我們使用擴展的評估方法 k-DCG 和 k-ERR 來強調對前 k 個答案進行排名的重要性。

4.3 基線對比

我們將已有排名方法中使用的排名模式概括為五種，包括隨機排名，相似性排名，加權總和排名，優先級排名和重排名。我們列出了五個現有的排名模式，如下所示：

隨機排名：對結果集中的候選答案進行隨機排名。在機器學習研究中，衡量相對於隨機猜測的優化情況是一種常見的做法。
相似性排名：基於候選代碼示例與相應查詢的文本相似性對它們進行排名。
加權總和排名：對代碼示例不同特徵的加權求和來計算查詢和候選代碼示例之間的相關性值。
優先級排名：基於主要特性對代碼示例進行排名，如果兩個代碼示例的主要特性相同，則使用次要特性對兩個代碼示例進行排名。
重排名：將使用次要特徵對由主要特徵確定的前 k 個候選答案進行重新排名。

最後，我們還將我們的方法與商業代碼推薦系統 Codota 進行了比較。更具體地說，Codota 是唯一能夠對 Android 代碼示例進行排名的公開代碼示例搜索引擎。 Codota 中使用的排名算法可識別常見、可信和清晰的代碼段。

5 實驗結論

RQ1: 對於代碼示例搜索，學習排名方法是否優於現已有的排名方法？

如下圖 2 所示，我們使用 10-NDCG 和 10-ERR 對比我們的排學學習方法和其他基線方法。最終結果如下圖所示，我們的排名學習方法可以勝過其他幾種基線方法，在 10-NDCG 和 10-ERR 指標上分別平均提高了 35.65％和 48.42％

圖 2. 使用 10-NDCG 進行評估，我們的方法與現有排名方案之間的績效評估研究結果

RQ2：代碼示例的研究功能對我們的方法是否同樣重要？

我們的實驗方法是將特徵中的一個的權重設置為隨機值來構建一個新的排名模式，當特徵值隨機化後，就可以和原排名進行比較，來判定該特徵的重要程度。結果如下表所示，文本相似性，頻率和上下文相似性是在代碼示例搜索和推薦中影響最大的三個特徵。

RQ3：我們使用的排序學習技術是否優於 Codota？

通過用戶研究實驗，我們選取 5 位評估員分別對我們的方法以及 Codata 的方法在推薦有效代碼數量上面進行比較，最終結果如下圖 3 所示，我們的學習排名方法比 Codota 的性能高出 44％。

圖 3.我們的學習排名方法和 Codota 的首選候選代碼示例數量方面的比較結果

4 本文主要貢獻

在本文中，我們做出了以下貢獻：1）提出一種代碼示例搜索方法，該方法應用機器學習從訓練數據中自動學習排名模式；2）使用包含 50 個查詢條件以及 2500 個用於 Android 應用程序開發的代碼示例的訓練和測試數據集來評估我們的方法。評估結果表明，與現有的排名模式和在線搜索引擎相比，我們的方法可以有效地對候選代碼示例進行排名併為開發人員推薦相關的代碼示例。

致謝

感謝國家重點研發計劃課題：基於協同編程現場的智能實時質量提升方法與技術（2018YFB1003901）和國家自然科學基金項目：基於可理解信息融合的人機協同移動應用測試研究（61802171）支持！

本文由南京大學軟件學院 2018 級碩士生門鐸翻譯轉述。

分享到:

閱讀更多 慕測科技 的文章

關鍵字: 技術示例 Android

C++核心準則R.5: 範圍對象不要在堆內存上構建

過程FMEA步驟四：失效分析（一）

關鍵支撐阻力位的有效性

gRPC java 示例

React 基礎：派生 state 的“錯誤使用”示例

leetcode 26、刪除排序數組中的重複項

移動端圖片上傳兩大問題：圖片尺寸過大和圖片方向不對

「Access示例」計算時間數據

Vue開發小技巧

Vue3和Vue2 比對看看有哪些不同的地方

十分鐘學會XLOOKUP函數，跟加班說goodbye

AWS動態擴容卷的大小

LeetCode 第 20 號問題：有效的括號

Vue表單校驗插件Vuerify使用詳細教程及示例

Vuerify表單校驗插件使用詳細教程

微信小程序視圖層WXS

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"