站長之家(ChinaZ.com) 7月21日 消息:麻省理工學院的研究人員通過引入一種新的隱私度量標準和一個確定所需噪音最小量的框架,取得了保護機器學習模型中敏感數(shù)據(jù)的突破。
傳統(tǒng)的隱私保護方法往往通過添加大量噪音來防止對特定數(shù)據(jù)的識別,但這會降低模型的準確性。而新的隱私度量標準 “Probably Approximately Correct (PAC) Privacy” 則從不同的角度考慮,評估了對手在添加噪音后重構敏感數(shù)據(jù)的難度。
為了實現(xiàn) PAC 隱私,研究人員開發(fā)了一個算法,根據(jù)對手的觀點計算原始數(shù)據(jù)的不確定性或熵,并通過對多次運行機器學習訓練算法的子采樣數(shù)據(jù)進行比較,確定所需噪音的最佳量。
該算法不需要了解模型的內(nèi)部工作機制或訓練過程,并且可以根據(jù)用戶對對手重構敏感數(shù)據(jù)能力的要求提供最佳噪音量。然而,該算法并不估計添加噪音對模型準確性的損失,而且由于需要反復在多個子采樣數(shù)據(jù)集上訓練機器學習模型,實現(xiàn) PAC 隱私可能會導致計算成本較高。為了提高 PAC 隱私的效果,研究人員建議修改機器學習訓練過程以增加穩(wěn)定性,從而減少子采樣輸出之間的方差。這種方法可以降低算法的計算負擔,并減少所需噪音的量。
此外,更穩(wěn)定的模型通常表現(xiàn)出更低的泛化誤差,從而可以在新數(shù)據(jù)上進行更準確的預測。通過利用 PAC 隱私,工程師可以開發(fā)出在保護訓練數(shù)據(jù)的同時保持準確性的模型,從而在實際應用中實現(xiàn)安全的數(shù)據(jù)共享。
(舉報)