国产成人av综合久久视色,а√最新版在线天堂鲁大师,超碰97资源站,成人免费ā片在线观看,gogo西西人体大尺度大胆高清

字節(jié)Seed團(tuán)隊發(fā)布Seedream 4.0,已具備通用多模態(tài)創(chuàng)意引擎的雛形

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  財經(jīng)涂鴉 2947閱讀 2025-09-09 13:50

公司情報專家《財經(jīng)涂鴉》獲悉,9月9日,字節(jié)跳動Seed公眾號正式宣布,發(fā)布新一代圖像創(chuàng)作模型Seedream 4.0,采用同一套構(gòu)架實現(xiàn)文生圖與通用編輯能力,融合常識和推理能力,在多模態(tài)效果、速度和可用性上較前代模型均實現(xiàn)顯著突破。

通過多模態(tài)玩法拓展、風(fēng)格化美感提升、邏輯理解力增強(qiáng)、自適應(yīng)與4K生成、推理速度躍升等關(guān)鍵能力提升,Seedream 4.0于綜合評測中取得領(lǐng)先。目前,Seedream 4.0已正式上線,用戶可通過即夢、豆包、火山方舟等平臺直接體驗。

據(jù)字節(jié)跳動Seed團(tuán)隊自我簡介,團(tuán)隊成立于2023年,致力于尋找通用智能的新方法,追求智能上限。團(tuán)隊研究方向涵蓋 LLM、GenMedia、AI for Science、機(jī)器人等,在中國、新加坡、美國等地設(shè)有實驗室和崗位。

該公眾號于2024年4月29日以“豆包大模型”名稱注冊,2025年4月26日更名為“字節(jié)跳動Seed”。

「更是一個完整的多模態(tài)創(chuàng)意引擎」

團(tuán)隊強(qiáng)調(diào),Seedream 4.0強(qiáng)化了理解能力且運(yùn)用多維數(shù)據(jù)聯(lián)合訓(xùn)練,令圖像生成不再局限于單點(diǎn)能力,而是已具備通用多模態(tài)創(chuàng)意引擎的雛形。同時,在專業(yè)化場景的創(chuàng)作中,Seedream 4.0對于高知識密度內(nèi)容的生成處理已達(dá)初階水平。

整體來看,Seedream 4.0不僅是一個圖像生成模型,更是一個完整的多模態(tài)創(chuàng)意引擎。

據(jù)悉,其最新能力目前可支持八種基礎(chǔ)功能,包括精準(zhǔn)編輯、靈活參考、視覺信號可控生成、上下文推理生成、多圖參考生成、多圖輸出、高級文字渲染與排版、自適應(yīng)比例與4K生成等。

例如,在上下文推理生成功能中,Seedream 4.0不僅可以理解物理與時間約束、三維空間等復(fù)雜語境,還能在解謎、填字、續(xù)寫漫畫等任務(wù)中保持風(fēng)格一致與細(xì)節(jié)精致,推理與創(chuàng)意生成能力突出;而其在圖像編輯方面的能力,對廣告設(shè)計、電商修圖、影視后期等場景尤為重要,大幅減少了人工二次修正的成本。

此外,Seedream 4.0在文生圖和單圖編輯方面亦有大幅提升。文生圖方面,其特別增強(qiáng)了密集文字渲染和復(fù)雜語義理解能力,較其他同類模型在畫面質(zhì)感、光影自然度和色彩協(xié)調(diào)性上優(yōu)勢明顯;單圖編輯方面,其在指令遵循、參考一致性、結(jié)構(gòu)完整性和文字編輯方面實現(xiàn)了平衡,既能靈活完成風(fēng)格轉(zhuǎn)換、視角變換等復(fù)雜任務(wù),又能保持畫面結(jié)構(gòu)穩(wěn)定。

在多模態(tài)擴(kuò)展方面,Seedream 4.0采用同一套構(gòu)架實現(xiàn)文生圖與編輯能力的統(tǒng)一,并在聯(lián)合訓(xùn)練中實現(xiàn)相互的能力增強(qiáng)。

例如,團(tuán)隊將前續(xù)版本的 Seedream文生圖與SeedEdit 圖像編輯能力整合到同一套架構(gòu)中,保持高質(zhì)量的圖像生成與高一致性的特征參考,實現(xiàn)了生成和編輯統(tǒng)一;同時,團(tuán)隊構(gòu)建了大規(guī)??蓴U(kuò)展的多模態(tài)數(shù)據(jù)處理鏈路,能夠快速高效構(gòu)建大規(guī)模、高質(zhì)量的編輯數(shù)據(jù)對。

軟硬件串聯(lián)協(xié)同,實現(xiàn)高質(zhì)量與高效生成

同時,在Seedream 4.0中,團(tuán)隊還在推理環(huán)節(jié)進(jìn)行了多層次優(yōu)化,對算法和硬件進(jìn)行深入改造。

通過對抗蒸餾、分布匹配、量化與稀疏化、推測解碼一整套加速方案,Seedream 4.0 在實際應(yīng)用中既能生成高質(zhì)量的4K圖像,也能實現(xiàn)最快秒級推理生成2K圖片,實現(xiàn)了高質(zhì)量和高效生成的統(tǒng)一。

今年8月份,字節(jié)跳動Seed團(tuán)隊發(fā)布并開源了全模態(tài) PyTorch 原生訓(xùn)練框架——VeOmni,采用以模型為中心的分布式訓(xùn)練方案,可大幅降低工程開銷,提升訓(xùn)練效率和擴(kuò)展性,將數(shù)周的工程開發(fā)時間縮短至幾天。

7月份,Seed團(tuán)隊還正式發(fā)布端到端同聲傳譯模型Seed LiveInterpret 2.0,據(jù)稱是“首個延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級中英語音同傳系統(tǒng)”。

該基于全雙工端到端語音生成理解框架,支持中英互譯,可實時處理多人語音輸入,實現(xiàn)極低的延遲的“邊聽邊說”。其在多人會議等復(fù)雜場景中英雙向翻譯準(zhǔn)確率超70%,單人演講翻譯準(zhǔn)確率超80%,接近真人專業(yè)同傳水平。

同時,翻譯延遲可低至2-3 秒,較傳統(tǒng)機(jī)器同傳系統(tǒng)降低超60%,實現(xiàn)了真正的“邊聽邊說”翻譯。

團(tuán)隊彼時曾透露,Ola Friend耳機(jī)將于8月底接入Seed LiveInterpret 2.0,成為首個支持該模型的智能硬件設(shè)備。

作者:蘇打

編輯:tuya

出品:財經(jīng)涂鴉(ID:caijingtuya)

追加內(nèi)容

本文作者可以追加內(nèi)容哦 !

本文來源:財經(jīng)涂鴉

來源:財經(jīng)涂鴉

重要提示:本文僅代表作者個人觀點(diǎn),并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服

網(wǎng)友評論

最新文章推薦