国产成人av综合久久视色,а√最新版在线天堂鲁大师,超碰97资源站,成人免费ā片在线观看,gogo西西人体大尺度大胆高清

谷歌承認(rèn)“竊取”O(jiān)penAI模型關(guān)鍵信息:成本低至150元

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  AI星球 1.9w閱讀 2024-03-13 10:06
調(diào)用API即可得手,且適用于GPT-4。

文丨量子位 ID:QbitAI

什么?谷歌成功偷家OpenAI,還竊取到了gpt-3.5-turbo關(guān)鍵信息???
是的,你沒看錯。
根據(jù)谷歌自己的說法,它不僅還原了OpenAI大模型的整個投影矩陣(projection matrix),還知道了確切隱藏維度大小。
而且方法還極其簡單——
只要通過API訪問,不到2000次巧妙的查詢就搞定了。
成本根據(jù)調(diào)用次數(shù)來看,最低20美元以內(nèi)(折合人民幣約150元)搞定,并且這種方法同樣適用于GPT-4。
好家伙,這一回奧特曼是被將軍了!
這是谷歌的一項最新研究,它報告了一種攻擊竊取大模型關(guān)鍵信息的方法。
基于這種方法,谷歌破解了GPT系列兩個基礎(chǔ)模型Ada和Babbage的整個投影矩陣。如隱藏維度這樣的關(guān)鍵信息也直接破獲:
一個為1024,一個為2048。
所以,谷歌是怎么實現(xiàn)的?
攻擊大模型的最后一層
該方法核心攻擊的目標(biāo)是模型的嵌入投影層(embedding projection layer),它是模型的最后一層,負(fù)責(zé)將隱藏維度映射到logits向量。
由于logits向量實際上位于一個由嵌入投影層定義的低維子空間內(nèi),所以通過向模型的API發(fā)出針對性查詢,即可提取出模型的嵌入維度或者最終權(quán)重矩陣。
通過大量查詢并應(yīng)用奇異值排序(Sorted Singular Values)可以識別出模型的隱藏維度。
比如針對Pythia 1.4B模型進(jìn)行超過2048次查詢,圖中的峰值出現(xiàn)在第2048個奇異值處,則表示模型的隱藏維度是2048.
可視化連續(xù)奇異值之間的差異,也能用來確定模型的隱藏維度。這種方法可以用來驗證是否成功從模型中提取出關(guān)鍵信息。
在Pythia-1.4B模型上,當(dāng)查詢次數(shù)達(dá)到2047時出現(xiàn)峰值,則表明模型隱藏維度大小為2048.
并且攻擊這一層能夠揭示模型的“寬度”(即模型的總體參數(shù)量)以及更多全局性的信息,還能降低一個模型的“黑盒程度”,給后續(xù)攻擊“鋪路”。
研究團(tuán)隊實測,這種攻擊非常高效。無需太多查詢次數(shù),即可拿到模型的關(guān)鍵信息。
比如攻擊OpenAI的Ada和Babbage并拿下整個投影矩陣,只需不到20美元;攻擊GPT-3.5需要大約200美元。
它適用于那些API提供完整logprobs或者logit bias的生成式模型,比如GPT-4、PaLM2。
論文中表示,盡管這種攻擊方式能獲取的模型信息并不多,但是能完成攻擊本身就已經(jīng)很讓人震驚了。
已通報OpenAI
如此重要的信息被競爭對手以如此低成本破解,OpenAI還能坐得住嗎?
咳咳,好消息是:OpenAI知道,自己人還轉(zhuǎn)發(fā)了一波。
作為正經(jīng)安全研究,研究團(tuán)隊在提取模型最后一層參數(shù)之前,已征得OpenAI同意。
攻擊完成后,大家還和OpenAI確認(rèn)了方法的有效性,最終刪除了所有與攻擊相關(guān)的數(shù)據(jù)。
所以網(wǎng)友調(diào)侃:
一些具體數(shù)字沒披露(比如gpt-3.5-turbo的隱藏維度),算OpenAI求你的咯。
值得一提的是,研究團(tuán)隊中還包括一位OpenAI研究員。
這項研究的主要參與者來自谷歌DeepMind,但還包括蘇黎世聯(lián)邦理工學(xué)院、華盛頓大學(xué)、麥吉爾大學(xué)的研究員們,以及1位OpenAI員工。
此外,作者團(tuán)隊也給了防御措施包括:
從API下手,徹底刪除logit bias參數(shù);或者直接從模型架構(gòu)下手,在訓(xùn)練完成后修改最后一層的隱藏維度h等等。
基于此,OpenAI最終選擇修改模型API,“有心人”想復(fù)現(xiàn)谷歌的操作是不可能了。
但不管怎么說:
谷歌等團(tuán)隊的這個實驗證明,OpenAI鎖緊大門也不一定完全保險了。
(要不你自己主動點開源了吧)
論文鏈接:https://arxiv.org/abs/2403.06634
參考鏈接:https://twitter.com/arankomatsuzaki/status/1767375818391539753

(首圖來源:壹圖網(wǎng)

“在看”我嗎?

來源:AI星球

重要提示:本文僅代表作者個人觀點,并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點擊【聯(lián)系客服

網(wǎng)友評論