最近一個(gè)月,字節(jié)跳動(dòng)發(fā)生了哪些新鮮事兒?
這次公司新聞和產(chǎn)品動(dòng)態(tài)月度回顧,我們想先分享三個(gè)小故事,分別關(guān)于修復(fù)古籍的年輕人、暴雨里的尋人故事以及“一目十行”的翻譯技術(shù)。
我在抖音修文物
視頻里的紙團(tuán)顏色暗黃,被放在塑料袋里,如同揉在一起的破布。修復(fù)師將紙團(tuán)慢慢展開,按照正面排好順序,并從背面開始修復(fù)。修復(fù)完成后,紙頁被放在撤潮紙上,用木板壓平。紙團(tuán)的真面目慢慢打開,這是清代道光年間的一件地契,距今已經(jīng)200年。
視頻作者叫廉成春,是一位古籍修復(fù)師,出生于1988年。她從20歲開始研習(xí)古籍修復(fù),曾在國家圖書館學(xué)習(xí)古籍鑒定與修復(fù),后拜師古籍修復(fù)專家杜偉生。杜偉生古籍修復(fù)技藝代表性傳承人,參與過《永樂大典》、西夏文獻(xiàn)等珍貴古籍修復(fù)。
古籍修復(fù)是一項(xiàng)枯燥又有趣的冷門工藝,涉及十多道工序。真正完成一冊(cè)古籍的修復(fù)工作,往往需要一兩個(gè)月,每天重復(fù)著同樣的事。但每次看到破損的古籍逐漸恢復(fù)過去的模樣,廉成春都會(huì)覺得開心,自己的努力沒有白費(fèi)。
這些年來,廉成春修復(fù)過各種各樣的古籍和物件,比如宋代佛經(jīng)、清代地契與版畫以及民國時(shí)期的執(zhí)照和作戰(zhàn)圖。她曾修復(fù)過一件北宋孤本文集,這件古籍經(jīng)歷過火燒和受潮,受損嚴(yán)重,紙張粘在一起。修復(fù)好之后,每頁價(jià)格都在三百萬左右。
廉成春在修復(fù)古籍
去年2月,廉成春開始在抖音上定期更新視頻,科普古籍修復(fù)知識(shí),很快積累了將近8萬粉絲。原本小眾的古籍修復(fù)在抖音有了數(shù)十萬、甚至上千萬的播放量,越來越多的年輕人開始關(guān)注這項(xiàng)傳統(tǒng)工藝。同時(shí),廉成春認(rèn)識(shí)了更多同行,一起交流修復(fù)技藝,這讓她覺得不再孤單。
最近,廉成春加入了“尋找古籍守護(hù)人”項(xiàng)目。這是字節(jié)跳動(dòng)公益聯(lián)合中國文物保護(hù)基金會(huì)、國家圖書館發(fā)起的一項(xiàng)活動(dòng),旨在激勵(lì)創(chuàng)作者創(chuàng)作相關(guān)內(nèi)容,推動(dòng)古籍活化,讓古籍文化被更多人看見。
暴雨中的尋人啟事
7月21日晚上12點(diǎn),家在鄭州的張玲終于找到了失聯(lián)21小時(shí)的弟弟。
前一天中午,鄭州發(fā)生特大暴雨。下午4點(diǎn),張玲和弟弟失去了聯(lián)系。當(dāng)時(shí),很多朋友在朋友圈轉(zhuǎn)發(fā)洪水視頻。張玲不停打電話,但弟弟的手機(jī)一直顯示關(guān)機(jī)。她和父母心急如焚,直接報(bào)了警,還是沒有消息。
21日,張玲看到抖音上線的暴雨緊急尋人功能,決定試試。抖音尋人的工作人員制作了十多秒的尋人視頻,附上了弟弟的照片和信息。5個(gè)小時(shí)后,張玲收到了抖音尋人的反饋,人找到了。當(dāng)時(shí)已經(jīng)是夜里12點(diǎn),一位抖音網(wǎng)友提供了關(guān)鍵線索,弟弟所在小區(qū)停電,一直沒有信號(hào)。
抖音發(fā)布的尋人視頻
很快,張玲聯(lián)系上了弟弟。這時(shí)候她才得知,昨天自己焦急尋找弟弟的時(shí)候,他正在兩米高的洪水里救人。馬路變成了一片汪洋,弟弟幫助幾位個(gè)子比較矮的女孩和一對(duì)母子安全渡河。張玲聽完多少有些后怕。朋友跟她提起過,有個(gè)小伙子想要救助被洪水卷進(jìn)涵洞的女孩,結(jié)果失敗,兩人雙雙淹沒在洪流中。
因?yàn)檫@次經(jīng)歷,張玲第一次知道弟弟的具體住址。姐弟倆都在鄭州打拼,但平時(shí)交流不多,有時(shí)還會(huì)為一些雞毛蒜皮爭吵。聯(lián)系上張玲后,弟弟還有些抱怨,他認(rèn)為姐姐應(yīng)該保持冷靜,而不是手忙腳亂,讓父母更加擔(dān)心。張玲覺得郁悶,“我千辛萬苦找他,他卻這樣反問我,我們隔著手機(jī)大吵了一架。不過想想,還能吵架,真好?!?/span>
像這樣的故事還有很多。7月20日至今,抖音、今日頭條陸續(xù)接收到來自河南各地近2萬條求助信息,經(jīng)過篩選、核實(shí)后,累計(jì)發(fā)布315條尋人信息,幫助8名網(wǎng)友找到15位親人。
“一目十行”的翻譯技術(shù)
在近期舉辦的WMT2021國際機(jī)器翻譯大賽上,字節(jié)跳動(dòng)火山翻譯團(tuán)隊(duì)的并行生成模型GLAT獲得了「德語-英語」語向機(jī)器翻譯比賽自動(dòng)評(píng)估第一名。
WMT是由國際計(jì)算語言學(xué)協(xié)會(huì)舉辦的世界頂級(jí)機(jī)器翻譯比賽,已經(jīng)連續(xù)舉辦16年。在機(jī)器翻譯領(lǐng)域,傳統(tǒng)的“自回歸模型”技術(shù)占據(jù)著絕對(duì)的統(tǒng)治地位,被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型。這種技術(shù)按照從左向右的順序逐詞翻譯,每一個(gè)輸出的詞都依賴于之前的詞。當(dāng)輸出文本較長或者模型比較復(fù)雜時(shí),機(jī)器翻譯的速度很慢。
“自回歸模型”很接近大家平時(shí)的閱讀習(xí)慣,但這并非唯一的思路。有研究者們提出一種非自回歸的模型,充分利用并行計(jì)算資源來加速生成。這種模型由機(jī)器同步輸出所有的詞,可以將翻譯速度提高數(shù)十倍,可以說“一目十行”。此前,并行生成技術(shù)尚未成熟,仍然處于探索階段,雖然有過嘗試,但翻譯質(zhì)量并不理想,實(shí)踐應(yīng)用更是寥寥無幾。
GLAT 訓(xùn)練示例
在這次國際機(jī)器翻譯大賽中,火山翻譯團(tuán)隊(duì)的并行生成模型GLAT從眾多自回歸翻譯系統(tǒng)中脫穎而出,在具備高效解碼速度的同時(shí),實(shí)現(xiàn)了更高的翻譯質(zhì)量。這是16年來首個(gè)奪得 WMT 冠軍的并行翻譯系統(tǒng),在實(shí)踐應(yīng)用層面展示了豐富的潛力,可以說代表了自然語言生成技術(shù)的變革方向。目前,“并行翻譯”技術(shù)已應(yīng)用在火山引擎旗下產(chǎn)品火山翻譯中。
這些故事讓我們看到了傳統(tǒng)工藝的傳承,善意與愛心的傳遞,以及技術(shù)的創(chuàng)新。除了上述內(nèi)容,最近一個(gè)月字節(jié)跳動(dòng)還有其他一些動(dòng)態(tài),讓我們快速回顧一下。