Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

會寫代碼的AI開源了:掌握12種編程語言C語言寫得比Codex還要好

會寫代碼的AI開源了:掌握12種編程語言C語言寫得比Codex還要好

2022-03-09 Comments 0 Comment

比Codex還會寫C語言的AI代碼生成模型,現在開源了!這段時間,用AI寫代碼可以說是大火,其中最著名的要屬OpenAI的Codex和DeepMind的AlphaCode。然而,這兩個AI模型,全都沒有開源:其中AlphaCode只給出了一些測試樣例,而Codex只開放了API。

△基於Codex的Copilot

為此,來自CMU的幾個研究人員,用GPT-2搞出了一個名叫PolyCoder的AI代碼生成模型,而且還是開源的。

據研究人員表示,雖然PolyCoder最大隻有27億參數(相比Codex有120億參數),但它用C語言寫出來的代碼,比Codex的效果還要好。

這裡面究竟有什麼秘訣?

用12種編程語言代碼集訓練

首先來看訓練用的數據集,這也是PolyCoder的最大特點之一。

此前,包括Codex、CodeParrot等AI代碼生成模型,主要都是基於Python語言的代碼來訓練。

例如Codex的評估數據集之一HumanEval,評估的也是生成Python代碼的效果。

相比之下,PolyCoder採用了多種編程語言代碼集來訓練,一共有12種:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala和TypeScript。

其中,C語言的代碼量是最多的,達到了221GB;而Python代碼的數據量比Codex和CodeParrot用得都要少。

這裡PolyCoder用的是GitHub上的公開代碼,主要選取的是各種編程語言中比較受歡迎的庫,每個庫至少有50 Stars。

據研究人員表示,每種編程語言庫的Stars總數加起來不超過25k,以避免模型生成的代碼效果太過於傾斜最流行的編程語言(通常編程語言越流行,庫的Stars就越多)。

通過提取庫中的文件、經過簡單處理(包括消除重複代碼)後,一共篩選出大約254GB的數據用於訓練。

然後是預訓練的方法。

語言模型的預訓練方法通常有三種。

第一種是自左向右的語言模型,根據上文預測下文,比較適用於代碼生成等;第二種是掩蔽語言模型,基於上下文預測屏蔽片段,比較適合代碼分類等;第三種是編解碼器模型,比較適用於代碼註釋等任務。

這裡PolyCoder主要採用的是第一種預訓練方法。

相比於同樣採用GPT-2訓練的CodeParrot和Codex,PolyCoder在超參數設置上也稍微有一些差異:

PolyCoder一共提供了三種不同的模型,分別有27億參數、4億參數和1.6億參數,研究人員可以根據自身需求和不同的訓練能力來選取合適的模型。

那麼,最終訓練出來的AI模型,代碼生成效果如何?

C語言寫得尤其好,但Python不行

研究人員將PolyCoder與已有的AI代碼生成模型進行了對比。

由於AlphaCode不好比較(接口沒開放),所以研究人員主要分析了下面這些模型,包括GPT-Neo、CodeParrot和Codex等。

其中藍色的是開源的,橙色的是沒開源的:

從參數量來看,PolyCoder並不是最頂尖的,最大的27億參數模型也只有Codex的四分之一不到。

研究人員先是用語言模型評估常用的困惑度對一系列模型進行了比較。困惑度(Perplexity),用於衡量語言模型(LM)的好壞。困惑度越低,語言模型面對代碼感到困惑的程度就越低,模型生成效果越好。

從圖中來看,PolyCoder在C語言中意外取得了最好的效果(困惑度最低)。

用大量C語言訓練PolyCoder的結果說明,即使模型整體原理不變(基於GPT-2),單純改變訓練用的代碼集,也能訓練出擅長不同語言風格的AI代碼生成模型。

可惜的是,從其他語言來看,生成的效果就完全沒辦法和Codex相比了:

例如,在主要用於評估Python代碼的HumanEval上,PolyCoder的能力遠不如Codex好:

據論文分析,這可能是Python代碼數據量、模型參數量不足等原因導致的。

此外,作者們也提到,做出PolyCoder的目的主要還是為了開源一個AI代碼生成模型,讓更多人參與研究和使用。

目前代碼已經開源,無論是直接拿來用,還是試著在它的基礎上開發新模型都可以。

感興趣的小伙伴可以上手一試了~

作者介紹

一作許方正(Frank Xu),目前在CMU讀博,研究方向是NLP、信息抽取等,發表過多篇頂會論文,包括ICLR、ACL和EMNLP等。本碩畢業於上海交通大學,師從朱其立教授。

Uri Alon,在CMU進行博士後工作,研究方向是編程語言處理(PLP)、NLP和深度學習。

Graham Neubig,CMU助理教授,研究方向是NLP、機器翻譯和基於機器學習的自然語言理解。

Vincent J. Hellendoorn,CMU計算機助理教授,主要研究方向是軟件工程和機器學習,致力於利用智能方法幫助軟件開發人員減少代碼調試、程序優化等繁瑣工作的時間。

不知道作者們是否已經在用這個AI擼代碼了(手動狗頭)

項目地址:

https://github.com/VHellendoorn/Code-LMs

論文地址:

https://arxiv.org/abs/2202.13169

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
業內:大規模停電事件暴露台積電電力短缺最大隱患
NEXT
微軟收購前突擊大筆買入動視暴雪期權三人遭美司法部調查

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2022 年 3 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 2 月   4 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 植髮手術怎麼選?從剃髮與不剃髮的區別找到最適合方案 2025-07-09
  • 把葉綠體「偷」到自己體內這些動物曬太陽就能活 2025-07-09
  • 茶顏悅色進軍美國:不賣奶茶專攻茶週邊零食 2025-07-09
  • 全球最大的3D列印學校建築計畫正在卡達建設中 2025-07-09
  • 分析師呼籲特斯拉董事會限制馬斯克結束“肥皂劇” 2025-07-09
  • Switch2在日首月熱銷140萬台《瑪利歐賽車:世界》登頂軟體榜 2025-07-09
  • 全新速騰L正式下線顏值飆升 2025-07-09
  • 多人收到河北文旅千條簡訊轟炸手機流量被限速、佔用數十GB儲存空間 2025-07-09
  • 全球最高遺產稅壓頂三星家族拋售梨泰院豪宅賺了146億 2025-07-09
  • 石破茂:美國造的尺寸大、油耗高的汽車在日本沒有市場 2025-07-09

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • YouTube By Click 2.2.86(含:註冊機序列號)
  • CCleaner全家桶激活密鑰
  • 美國力推車聯網(V2X)技術以降低交通事故率
  • 日本川崎重工確認開發氫能飛機部件計劃2040年投用
  • 拆解報告:20000mAh 18W PD雙向快充版小米移動電源3 PLM18ZM
  • Windows 10用固態硬盤還是太卡?教你一個提速神招
  • Chrome開啟硬體加速, 顯示顏色變淡
  • 特斯拉煥新Model Y如何換檔、打方向燈:操作方式確認

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.