微軟旗下的代碼托管平臺GitHub宣布了一項重大的隱私政策調整。自2026年4月24日起,GitHub將默認收集并使用部分客戶的交互數據(包括輸入提示、輸出結果、代碼片段及相關上下文)來訓練其AI模型。
這一舉措標志著AI輔助開發(fā)工具在真實場景數據獲取策略上的進一步推進。
本次政策調整主要針對使用Copilot Free、Pro以及Pro+訂閱級別的個人用戶。
由于現有的企業(yè)級合同條款限制,Copilot Business和Copilot Enterprise企業(yè)用戶將不受此新規(guī)影響。
同時,通過教育計劃獲取Copilot使用權的學生和教師群體也被明確列入豁免名單。
對于受影響的個人用戶,GitHub采取了“默認同意,允許退出”(Opt-out)的機制,這與當前北美科技行業(yè)的普遍數據收集慣例一致。
如果用戶不希望自己的代碼交互數據被用于模型增強,必須主動進入賬號的Copilot功能設置頁面,手動禁用隱私選項下的“允許GitHub使用我的數據進行AI模型訓練”功能。?
核心提取數據與私有倉庫邊界?根據官方披露的更新細則,一旦用戶處于默認參與狀態(tài),GitHub將在使用Copilot期間收集多維度的數據。
這些交互數據涵蓋:
用戶接受或修改的模型輸出結果;
包含所顯示代碼片段的模型輸入提示;
光標位置周圍的代碼上下文;
用戶編寫的注釋和文檔;
文件名及倉庫物理結構;
與Copilot功能的互動記錄(如對話);
以及點贊或點踩的反饋評分。?
這項政策在技術層面上對“私有倉庫”的數據邊界做出了更精準的界定。
官方解釋稱,GitHub不會掃描或使用私有倉庫中處于“靜態(tài)存儲”(at rest)狀態(tài)的代碼底座。
但如果用戶在私有倉庫中激活并使用Copilot,其在實時交互過程中產生的代碼片段和上下文,將被視為交互數據,納入采集與訓練的范疇。
針對數據策略的轉向,GitHub首席產品官Mario Rodriguez給出了直接的技術效用解釋。他指出,引入真實世界的交互數據能夠顯著提升AI模型的性能。
前期通過整合微軟內部員工的交互數據,模型在多語言環(huán)境下的代碼采納率已經實現了有效增長。
進一步擴大數據收集范圍,旨在幫助模型更好地理解開發(fā)工作流,從而提供更準確的安全代碼建議,并在代碼進入生產環(huán)境前攔截潛在漏洞。?
同時,GitHub在官方說明中列舉了Anthropic、JetBrains以及母公司微軟的類似政策,以說明這種數據使用策略已成為當前生成式AI賽道的行業(yè)常態(tài)。
從更宏觀的產業(yè)邏輯來看,無論是最初對公開代碼庫的微調,還是如今對實時交互數據的提取,都客觀反映了當前大模型廠商在算力競爭之外,對高質量對齊數據和真實開發(fā)者交互數據的剛性渴求。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)
快報
根據《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論