在當(dāng)下的AI產(chǎn)業(yè)語境里,“語音”常被視作一個不起眼的模態(tài)。相比文本生成、圖像生成、視頻換臉這些風(fēng)口,純語音似乎既不炫技,也難出圈。但就在這個看似“低關(guān)注度”的領(lǐng)域里,一個不到20人的團(tuán)隊,卻用一項“聲音克隆”技術(shù)打通了影視、短劇、教育、電商、文旅甚至國家宣傳的跨語種市場,悄然跑出數(shù)百萬美元的全球營收。
我們訪談了VMEG聯(lián)合創(chuàng)始人宋開發(fā)。這支團(tuán)隊專注于讓一個人“用自己的聲音,說出從未說過的語言”,并實(shí)現(xiàn)聲音情緒、語速、語調(diào)、氣息的精準(zhǔn)擬人化還原。聽起來簡單,實(shí)則是極難的“納米級”情感克隆工程。
我們在一次深度對話中,聊到了他們?nèi)绾巫プ《虅∨c影視內(nèi)容出海的浪潮,如何與德國電視臺、南印度影視公司、日本地方文旅局達(dá)成合作,又是如何將技術(shù)打磨到“AI配音沒有80分,只有99.9分”的專業(yè)標(biāo)準(zhǔn)。從一個偶然接觸大理石廠商的定制需求出發(fā),到如今站在全球內(nèi)容跨語種傳播的關(guān)鍵節(jié)點(diǎn),宋開發(fā)和他的團(tuán)隊,正在用“聲音”重構(gòu)AI出海的認(rèn)知邊界。

一場關(guān)于聲音的全球化實(shí)驗(yàn)
大多數(shù)AI出海的故事都離不開流量紅利:用AI做圖、寫文案、改視頻,賣給最先擁抱工具的新用戶群。但VMEG做的事反其道而行。他們沒有去追大模型、也沒有卷多模態(tài),而是從一個大理石廠商的需求起步——“把我的聲音變成阿拉伯語”。這聽上去像是一個不起眼的定制請求,卻意外打開了聲音人格跨語言遷移的想象空間。
他們沒有做傳統(tǒng)字幕、也沒有用數(shù)字人,而是執(zhí)著地“復(fù)刻你本人”——保留原聲的情緒密度、語氣起伏、氣息強(qiáng)弱,甚至在0.1秒內(nèi)還原“悄悄話”的呼吸感。這種程度的擬人化,讓聲音從“傳遞內(nèi)容”變成了“重構(gòu)身份”。換句話說,是你說了那句話,即便你從未學(xué)過那種語言。
這不是翻譯,這是擬態(tài)。不是工具,這是人格。
而且最重要的是——用戶愿意為此付高價。VMEG的海外客戶中,有人為十分鐘視頻支付上百美元,只因?yàn)樗麄儾幌胍奥犉饋硐瘛?,他們要“聽起來是我”。這份需求并不情緒化,反而極具商業(yè)價值。因?yàn)閷τ谌騼?nèi)容創(chuàng)作者來說,這是一場身份延展的革命。
本地化的盡頭,是情感的保留
語言本身并不是障礙,障礙在于你在翻譯的過程中丟失了誰。
當(dāng)你把一個印度明星的聲音翻譯成另一種方言,他不是不愿意被翻譯,而是不愿被替換。VMEG抓住的正是這個細(xì)節(jié)——翻譯不是讓你“聽懂”,而是讓你“仍然是你”。
比如德國人幾乎不看英語內(nèi)容,一定要有德語配音;南印度觀眾拒絕北方方言,要聽地道的本地語調(diào);泰國文旅宣傳片的企業(yè)主堅持用“自己本人的聲音”介紹公司;印度電影公司不接受通用配音,只要明星的原聲情緒被完整遷移……這是文化自尊與本地情感的高度綁定,也是所有“簡單字幕翻譯”無法解決的深層問題。
而AI聲音克隆,恰好成為了最精巧、最低侵入的解決方案。
它既沒有破壞本人的身份感,也不強(qiáng)行替換,而是用技術(shù)延展出一個“情感不缺席”的多語言人格版本。這種“軟入侵式”的跨文化表達(dá),正是中國AI公司極少觸達(dá)的全球語言市場空白。
隱形擴(kuò)張,不靠流量靠精準(zhǔn)場景
相比于卷模型、卷視頻生成的AI創(chuàng)業(yè)者,VMEG的路線安靜而有效。他們沒有用補(bǔ)貼換數(shù)據(jù),也沒有靠熱點(diǎn)營銷,而是用“場景爆破”的方式,一點(diǎn)點(diǎn)打開了聲量。
短劇、影視、教育、電商、廣告、文旅,每一個垂直場景都像一個音頻工坊,源源不斷地產(chǎn)出有價值的定制需求。而配音這種服務(wù),有天然的標(biāo)準(zhǔn)化維度(時長、語種、情緒強(qiáng)度),又有個性化的非標(biāo)要求(語速控制、哭腔表達(dá)、老人小孩音色)。這讓他們能清晰定價,也能精準(zhǔn)打穿。
比如一位YouTube博主擁有200萬粉絲,每天發(fā)布39種語言的視頻,其中19種語言用的是VMEG服務(wù),每日產(chǎn)生400分鐘翻譯配音內(nèi)容,單一客戶年訂單就能達(dá)數(shù)十萬美元。
再比如印度、韓國、日本的一線IP內(nèi)容公司,已經(jīng)開始將內(nèi)容制作外包至中國,然后通過VMEG翻譯全球發(fā)行。這是一條極具“中國供應(yīng)鏈優(yōu)勢”的文化內(nèi)容反向外包路徑,正在被聲音AI悄然承載。
投資人應(yīng)該看見的,是判斷標(biāo)準(zhǔn)的清晰度
宋開發(fā)分享了一個極具洞察力的觀點(diǎn):創(chuàng)業(yè)最難的,不是做出一個產(chǎn)品,而是找不到“誰能判斷你的產(chǎn)品好不好”。
AI視頻營銷的好壞,取決于流量與轉(zhuǎn)化,變量太多。但聲音克隆的好壞,只需要一個母語者一聽即可判斷。正是這份“清晰的可評價性”,讓他們在定價、篩選客戶、迭代產(chǎn)品時極其高效,也更容易達(dá)成正循環(huán)。
更重要的是,語音AI的本質(zhì)并不是一個ToC的消費(fèi)工具,而是一個介于技術(shù)能力與文化資產(chǎn)之間的ToB服務(wù)——它的價值不在于“生成”,而在于“連接”:連接你和你不懂的語言,連接內(nèi)容和新的觀眾,連接品牌與陌生市場。
這是最隱形、也最穩(wěn)健的一種全球化。
AI全球化,不一定要“破圈”,也可以“入心”
在AI出海的熱浪中,有人選擇做工具平臺,有人選擇卷大模型能力,還有人選擇貼近終端用戶做體驗(yàn)優(yōu)化。但VMEG用聲音告訴我們:還有一條更小的路,那就是讓每個人,在任何語言中,依然能用自己的聲音說話。
這是一種新的全球化方式——它不是喊得更響,而是聽得更像自己。
也許未來的內(nèi)容不是用字幕通全球,也不是用數(shù)字人吸引流量,而是用一段聲音,悄無聲息地連接一個遙遠(yuǎn)的市場,讓他們說:“你聽,他在說我們的話?!?/p>
這場靜悄悄的擴(kuò)張,也許比你想象的,更有力量。
訪談Q&A精選
Q1: 素動科技(VMEG)的核心業(yè)務(wù)是什么?它主要解決了什么問題?
宋開發(fā):VMEG的核心業(yè)務(wù)是為音視頻內(nèi)容提供AI翻譯和配音服務(wù)。它主要解決的是內(nèi)容全球化過程中的語言障礙問題,但并非簡單地添加字幕或使用標(biāo)準(zhǔn)的AI播音腔,而是通過聲音克隆技術(shù),用內(nèi)容創(chuàng)作者或演員“本人”的聲音,生成不同語言的配音。這使得最終的作品能保留原聲的情感、語氣和特質(zhì),為海外觀眾提供更沉浸、更真實(shí)的觀看體驗(yàn)。主要服務(wù)的客戶群體包括影視、動漫、短劇、教育、廣告和電商等領(lǐng)域。
Q2: 素動科技的聲音克隆技術(shù)有哪些具體優(yōu)勢?它和市面上其他的AI配音有何不同?
宋開發(fā): 其技術(shù)優(yōu)勢主要體現(xiàn)在“高度擬人化”和“細(xì)節(jié)還原”上。
覆蓋全年齡段和性別: 不同于多數(shù)AI配音只能提供標(biāo)準(zhǔn)的成年男女聲,VMEG可以復(fù)刻包括老人、小孩在內(nèi)的各種聲音。
情感和語氣還原: 技術(shù)能夠捕捉并還原哭泣、吶喊、甚至低聲耳語等復(fù)雜情緒和特殊說話方式,這對于影視和短劇等注重情感表達(dá)的內(nèi)容至關(guān)重要。
技術(shù)細(xì)節(jié)處理: 他們會對聲音的波形、聲調(diào)、語速和節(jié)奏進(jìn)行精細(xì)化處理,確保聲音的真實(shí)感。宋開發(fā)先生提到,他們的標(biāo)準(zhǔn)是做到“99.9分”,而不是“80分”,因?yàn)橹挥羞@樣才能贏得高要求客戶的認(rèn)可。
Q3: 為什么說素動科技找到這個細(xì)分市場帶有“碰運(yùn)氣”的成分?
宋開發(fā): 公司最早的業(yè)務(wù)方向是AI營銷視頻出海,這是一個競爭激烈的領(lǐng)域,且效果很難量化。一次偶然的機(jī)會,一位福建做大理石生意的老板提出了一個特殊需求:他不需要制作新的營銷視頻,而是希望用自己的聲音說阿拉伯語和印度語,以便在海外參展時拉近與當(dāng)?shù)乜蛻舻木嚯x。VMEG為他實(shí)現(xiàn)后,效果出奇地好。這個“天使客戶”的成功案例,讓他們意識到聲音克隆在內(nèi)容本土化上的巨大潛力,從而自然而然地將業(yè)務(wù)重心轉(zhuǎn)移到了這個方向。
Q4: 素動科技的定價模式是怎樣的?客戶愿意為此付費(fèi)的關(guān)鍵原因是什么?
宋開發(fā):VMEG目前主要按照音視頻的“時長”來計費(fèi),以分鐘為單位。最初海外定價約為每分鐘3美金,后來根據(jù)合作深度調(diào)整至0.7到1美金不等。如果一個視頻需要翻譯成多種語言,費(fèi)用則按語言數(shù)量翻倍??蛻粼敢飧顿M(fèi)的核心原因是他們對內(nèi)容質(zhì)量有高要求,追求的是情感連接和藝術(shù)表達(dá)的真實(shí)性,而不僅僅是信息的傳達(dá)。例如,印度電影明星希望在不同方言的影片中依然使用自己的聲音,YouTube大V為了核心粉絲區(qū)的觀看體驗(yàn)而選擇高質(zhì)量配音,這些都是普通字幕或標(biāo)準(zhǔn)AI配音無法滿足的需求。
Q5: 在全球市場中,哪些國家或地區(qū)是素動科技的主要客戶來源?他們各自有什么特點(diǎn)?
宋開發(fā): 目前,歐洲是最大的市場,其中德國客戶最多。德國觀眾有強(qiáng)烈的觀看德語內(nèi)容的習(xí)慣,因此當(dāng)?shù)孛襟w和MCN機(jī)構(gòu)有大量將英語內(nèi)容翻譯成德語配音的需求。其次是印度,特別是南印度,其影視產(chǎn)業(yè)發(fā)達(dá),且存在多種方言,電影明星有強(qiáng)烈的跨方言配音需求。此外,日韓市場也在快速增長,日本的旅游局、IP公司和動漫公司希望借助這項技術(shù)將內(nèi)容推廣到全球。
Q6: 面對如此分散的全球客戶,素動科技是如何進(jìn)行海外市場推廣和獲客的?
宋開發(fā): 由于翻譯配音屬于專業(yè)需求,他們的推廣策略也更具針對性,而非追求泛娛樂化的“出圈”。主要方式包括:
搜索引擎營銷: 通過谷歌進(jìn)行SEO(搜索引擎優(yōu)化)和SEM(搜索引擎營銷),精準(zhǔn)觸達(dá)有主動搜索需求的用戶。
紅人與達(dá)人合作: 與海外YouTube等平臺上的內(nèi)容解說類博主合作。這些博主本身就有多語言內(nèi)容的需求,通過為他們提供優(yōu)惠甚至免費(fèi)的服務(wù),換取他們的使用和推薦,實(shí)現(xiàn)“帶貨”效果。
品牌合作: 未來計劃與大型機(jī)構(gòu)或知名IP進(jìn)行合作,提升品牌影響力。
Q7: 在技術(shù)層面,除了聲音克隆,素動科技還解決了哪些傳統(tǒng)翻譯配音的難題?
宋開發(fā): 一個重要的技術(shù)挑戰(zhàn)是處理不同語言間的“信息密度”差異,并同步視頻時長。例如,中文信息密度高,幾個字就能表達(dá)復(fù)雜含義,而西班牙語則相對啰嗦。在將中文視頻翻譯成西班牙語時,既要保證在原有時長內(nèi)說完所有內(nèi)容,又要讓語速聽起來自然,不能過快或過慢。這就需要對翻譯后的語言在語速和節(jié)奏上進(jìn)行智能調(diào)整,同時保持原說話人的聲音特征,這是一個非常精細(xì)且復(fù)雜的技術(shù)活。
Q8: 除了影視、短劇等領(lǐng)域,素動科技還在探索哪些新的應(yīng)用場景?
宋開發(fā): 我們正在積極探索的一個新方向是“歌曲翻譯”。世界上有很多音樂天賦極高但受困于小語種的歌手,他們的音樂很難被世界聽懂。VMEG希望通過AI技術(shù),將這些小語種歌曲“翻唱”成英語、中文等主流語言,同時保留原唱的音色和演唱風(fēng)格。這不僅能幫助優(yōu)秀音樂人走向世界,也蘊(yùn)含著巨大的商業(yè)潛力。
Q9: 對于同樣想利用AI技術(shù)出海的創(chuàng)業(yè)者,宋開發(fā)先生提出了哪兩條核心建議?
宋開發(fā):
選擇一個規(guī)模足夠大的市場: 創(chuàng)業(yè)要看市場的“天花板”(Upside)。他以全球音視頻內(nèi)容時長為例,這是一個高達(dá)上億分鐘的巨大市場,足以容納多家公司共同發(fā)展。創(chuàng)業(yè)者應(yīng)選擇一個有足夠想象空間的賽道。
建立清晰、可量化的產(chǎn)品評價標(biāo)準(zhǔn): 你的產(chǎn)品或服務(wù)的好壞,必須能被客戶簡單、清晰地判斷。像他們的配音,找個母語者一聽便知優(yōu)劣。如果評價標(biāo)準(zhǔn)模糊,最終只會陷入拼渠道、拼價格的紅海競爭,并且很難篩選出真正的“有效客戶”,導(dǎo)致創(chuàng)業(yè)過程非常焦灼。
Q10: 在與客戶的溝通中,他們發(fā)現(xiàn)客戶最關(guān)心的是“聲音”還是“唇形”的同步?
宋開發(fā): 絕大多數(shù)客戶更關(guān)心“聲音”本身的還原度。唇形的同步雖然也有技術(shù)實(shí)現(xiàn),但重要性排在聲音之后。客戶認(rèn)為聲音是傳遞情感和建立連接的最核心要素,只要聲音足夠真實(shí)、自然,即使唇形不完全精準(zhǔn)匹配,也是可以接受的。

來源:有連云
重要提示:本文僅代表作者個人觀點(diǎn),并不代表樂居財經(jīng)立場。 本文著作權(quán),歸樂居財經(jīng)所有。未經(jīng)允許,任何單位或個人不得在任何公開傳播平臺上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】
樂居財經(jīng)APP
?2017-2025 北京怡生樂居財經(jīng)文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號院1號樓1層101內(nèi)3層S3-01房間756號 100016
京ICP備2021030296號-2京公網(wǎng)安備 11010502047973號