站長(zhǎng)之家注:本文是來自Aliaksei Rudak的創(chuàng)業(yè)分享,講述他是如何在沒有經(jīng)商經(jīng)驗(yàn)的情況下賺到 100 萬美元,并開發(fā)一個(gè)全新翻譯軟件Lingvanex的。
辭掉工作開始創(chuàng)業(yè)
10 年前,我是一名軟件工程師,后來辭掉了工作開始創(chuàng)業(yè)。為了節(jié)省開支,我選擇先在一個(gè)小地方為學(xué)生、會(huì)計(jì)軟件、手機(jī)游戲做網(wǎng)站。由于沒有商業(yè)經(jīng)驗(yàn),在創(chuàng)收方面出現(xiàn)了一些問題,最后項(xiàng)目被迫關(guān)閉了。我再次回到明斯克找工作。
就這樣循環(huán)往復(fù)了幾次后,我開始創(chuàng)建移動(dòng)應(yīng)用程序。憑借在科技公司工作積累的經(jīng)驗(yàn),我開發(fā)了一些簡(jiǎn)單實(shí)用的應(yīng)用程序,例如,一個(gè)可以跟蹤數(shù)據(jù)的跑步應(yīng)用程序、或者一個(gè)2d游戲應(yīng)用。
起初,這些應(yīng)用程序是免費(fèi)的。然后我添加了廣告和應(yīng)用內(nèi)購(gòu)買,通過設(shè)置關(guān)鍵字和鮮明的圖標(biāo)吸引用戶下載。
當(dāng)我通過這些應(yīng)用月入 3 萬美元時(shí),我邀請(qǐng)一位來自一家大型科技公司的朋友一起工作。他告訴我他們只有一個(gè)應(yīng)用程序—— 一款擁有2. 5 萬用戶,月收入為 6 萬美元的游戲。這讓我意識(shí)到,創(chuàng)建一個(gè)高質(zhì)量的應(yīng)用程序遠(yuǎn)勝于創(chuàng)建 100 個(gè)體驗(yàn)糟糕的產(chǎn)品。
創(chuàng)建自己的翻譯程序
之后,在機(jī)緣巧合下我發(fā)現(xiàn)了翻譯軟件這個(gè)細(xì)分市場(chǎng)。數(shù)據(jù)顯示,僅僅一個(gè)月,翻譯軟件的下載量就超過 100 萬次,市場(chǎng)前景可觀。
于是,我通過使用谷歌翻譯接口創(chuàng)建了大約 40 個(gè)簡(jiǎn)單的翻譯程序,為此,我需要為每100 萬個(gè)字符付費(fèi) 20美元。后來我在應(yīng)用程序上做了改進(jìn),新增了廣告、應(yīng)用程序內(nèi)購(gòu)買和語音翻譯。
賺到足夠的錢后,我在明斯克(白俄羅斯的首都)買了房子。那時(shí),我已經(jīng)創(chuàng)建了50- 70 個(gè)翻譯應(yīng)用程序,總下載量達(dá)到了 500 萬次。用戶的增長(zhǎng)增加了谷歌翻譯接口的費(fèi)用,成本的增加使得企業(yè)盈利能力嚴(yán)重下降。這迫使我們?cè)黾酉拗?,付費(fèi)用戶一次只能翻譯 1000 個(gè)字符。但這個(gè)做法備受用戶吐槽,并有不少用戶要求退款。由于翻譯量過大,我們收入的70%都被用于支付接口費(fèi)用,業(yè)務(wù)前景并不樂觀。為了收回成本,我們只能在應(yīng)用程序中添加廣告。
我試圖向創(chuàng)業(yè)社區(qū)尋求建議和投資,但沒有得到任何支持。在他們看來,我們想和谷歌翻譯“分一杯羹”無異于以卵擊石。
事實(shí)上,除了谷歌之外,還有幾家公司提供了翻譯接口。他們提供 40 種語言翻譯,我原以為只需付 3 萬美元的技術(shù)許可費(fèi),就可以無限次翻譯。然而實(shí)際的價(jià)格比我預(yù)想的要高出好幾倍。這太貴了,我決定重建他們的翻譯技術(shù)。
翻譯接口成本太高?那就自己做一個(gè)
2016 年底,我將項(xiàng)目發(fā)給了一個(gè)外包公司的朋友,希望在 6 個(gè)月內(nèi)解決問題,而不是依賴谷歌的翻譯接口。
2017 年 3 月,我們發(fā)現(xiàn)了一個(gè)名為Open NMT的項(xiàng)目——由Systran公司和哈佛大學(xué)聯(lián)合開發(fā),他們將神經(jīng)網(wǎng)絡(luò)免費(fèi)開源。那時(shí)還沒有普遍存在的神經(jīng)翻譯,開放的NMT提供了它們?cè)谶@一領(lǐng)域的發(fā)展,并在質(zhì)量上超過了統(tǒng)計(jì)機(jī)器翻譯。所有的人都可以免費(fèi)采用這些技術(shù)并向?qū)<易稍?,這給了我很大的幫助。
我們以O(shè)penNMT為基礎(chǔ)創(chuàng)建翻譯接口,當(dāng)時(shí)它還不夠完善,運(yùn)行緩慢且不太穩(wěn)定。我們一起測(cè)試、追蹤錯(cuò)誤并分享自己的想法。隨著時(shí)間的推移,它的穩(wěn)定性逐漸增強(qiáng),越來越多的公司開始發(fā)布他們?cè)陂_源環(huán)境下處理自然語言的開發(fā)成果。
2018 年 3 月,Systran邀請(qǐng)整個(gè)社區(qū)的成員到巴黎交流經(jīng)驗(yàn),并舉辦了一場(chǎng)免費(fèi)的高級(jí)講習(xí)班,討論翻譯行業(yè)初創(chuàng)公司通常面臨的主要問題。
除了發(fā)燒友,來自eBay和Booking的人也來到了巴黎,他們?cè)谙嗤钠脚_(tái)上創(chuàng)建了一個(gè)翻譯器,主要是為了它的拍賣和酒店描述。
提高翻譯質(zhì)量
2018 年,我致力于解決歐洲主要語種的翻譯質(zhì)量問題。我覺得我還需要 6 個(gè)月的時(shí)間來解決問題。因?yàn)槲业馁Y源有限,且只有 2 個(gè)人在參與數(shù)據(jù)科學(xué)工作。我已經(jīng)在舊版翻譯器身上花費(fèi)了 45 萬美元,然而翻譯質(zhì)量還是沒有讓我滿意,但我不能放棄。
我注意到我們的社區(qū)開始討論Transformer這種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu),大家都在踴躍訓(xùn)練基于這個(gè)模型的神經(jīng)網(wǎng)絡(luò),并開始轉(zhuǎn)向Python (Tensorflow),而不是老的Lua (Torch)。于是,我也開始嘗試。
我們還采用了新的分詞器,對(duì)文本進(jìn)行預(yù)處理,開始以不同的方式過濾和標(biāo)記數(shù)據(jù),以避免翻譯出現(xiàn)太多錯(cuò)誤。經(jīng)過 1 萬個(gè)小時(shí)的過濾和標(biāo)記數(shù)據(jù)后,我意識(shí)到翻譯質(zhì)量已經(jīng)可以足夠用于翻譯程序。
然后,我們開始連接音譯、詞典、糾正單詞錯(cuò)誤的系統(tǒng)等各種工具,使我們能夠進(jìn)一步提高翻譯質(zhì)量。經(jīng)過 5 個(gè)月的努力,一些語種翻譯的質(zhì)量有了很大的提高,人們的抱怨也少了。這是一個(gè)轉(zhuǎn)折點(diǎn)。我們終于可以開始銷售軟件了。由于我們擁有自己的翻譯接口,唯一的開銷就是計(jì)算機(jī)算力,成本降低后,我們可以大大增加用戶數(shù)量。
為了訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),我需要一臺(tái)好的電腦。但為了省錢,我們租用了 20 臺(tái)常規(guī)電腦(每臺(tái)電腦都配有GTX1080 顯卡),同時(shí)通過Lingvanex控制面板對(duì)它們進(jìn)行了 20 次簡(jiǎn)單的測(cè)試。每次測(cè)試都花了一個(gè)星期,為了獲得更好的質(zhì)量,我們需要云計(jì)算和更多的顯卡。于是我們決定租一個(gè)亞馬遜8 GPU V100 x 4。速度很快,但是很貴。我們晚上開始測(cè)試,第二天早上收到了 1200 美元的賬單。當(dāng)時(shí),除了它,幾乎沒有強(qiáng)大的GPU服務(wù)器的租賃選項(xiàng)。為此,我開始尋找更為廉價(jià)的解決方案。
和團(tuán)隊(duì)協(xié)商后,我們決定以 1 萬美元的價(jià)格自己打造一臺(tái)擁有強(qiáng)大GPU的電腦。 2019 年初,我們完成了電腦的組裝,并進(jìn)行多輪測(cè)試,結(jié)果讓我們很滿意。
此前,我的移動(dòng)翻譯應(yīng)用只有一個(gè)按鈕和一個(gè)功能,現(xiàn)在我們擁有了自己的翻譯接口,于是我決定提高應(yīng)用的翻譯質(zhì)量,并開發(fā)Android、Mac OS和Windows版本。但是想要比競(jìng)爭(zhēng)對(duì)手走的更遠(yuǎn),還需要一些核心的功能和特性。
于是我決定推出離線語音翻譯。在 2017 年,絕大多數(shù)的高質(zhì)量翻譯軟件都需要連接互聯(lián)網(wǎng)才能使用谷歌翻譯接口。然而,對(duì)于出國(guó)的人們來說,網(wǎng)絡(luò)通常是不可用的。而有了離線語音翻譯,你只需提前下載好相應(yīng)國(guó)家的語言包,就可以正常使用翻譯軟件。
我們的研究成果還于 2018 年 5 月在西班牙阿利坎特市的歐洲機(jī)器翻譯協(xié)會(huì)公開展示,其中一名成員還獲得了博士學(xué)位。
創(chuàng)建公司
我們的項(xiàng)目發(fā)展得不錯(cuò),除了移動(dòng)平臺(tái),我們的應(yīng)用還在電腦、可穿戴設(shè)備、瀏覽器上被使用。除了翻譯文本外,我們還創(chuàng)建了語音、圖片的翻譯。
在此之前,我都是雇人外包,獨(dú)自管理。而隨著產(chǎn)品的發(fā)展,我需要?jiǎng)?chuàng)建一個(gè)自己的團(tuán)隊(duì)。我邀請(qǐng)我的朋友加入,他辭掉了工作,并決定在 2019 年 3 月開設(shè)Lingvanex LLC公司。
我們的目標(biāo)是保證歐洲主要語種和亞洲主要語種的翻譯質(zhì)量,然后提供方案:
1.通過我們的翻譯接口翻譯文本要比競(jìng)爭(zhēng)對(duì)手便宜三倍,例如,谷歌翻譯的成本是每百萬字符 20 美元,而我們要便宜得多。
2.通過翻譯接口對(duì)特定主題(醫(yī)藥、冶金、法律等)的文檔進(jìn)行高質(zhì)量的專題翻譯,包括集成到專業(yè)翻譯工具中(如SDL Trados)。
3.企業(yè)還可以將我們的翻譯模型運(yùn)行在公司服務(wù)器中,這使得企業(yè)不必受限于翻譯文本的數(shù)量,同時(shí)保持?jǐn)?shù)據(jù)機(jī)密性。
事實(shí)上,NLP(自然語言處理)市場(chǎng)在識(shí)別、語音分析、機(jī)器翻譯改進(jìn)等方面發(fā)展非常迅速,能夠?yàn)橐粋€(gè)小團(tuán)隊(duì)帶來良好的利潤(rùn)。2- 3 年后自然語言處理將被大肆宣傳,NLP初創(chuàng)公司將會(huì)被大公司收購(gòu)。而現(xiàn)在最主要的是要有一個(gè)好的產(chǎn)品可以銷售。
總結(jié)
多年來,我從簡(jiǎn)單的應(yīng)用程序中獲得了約 100 萬美元的收入,并將大部分利潤(rùn)用于創(chuàng)建自己的翻譯軟件。雖然管理經(jīng)驗(yàn)不足,但我還是做到了。目前,我們還沒有達(dá)到谷歌翻譯的質(zhì)量,但我們團(tuán)隊(duì)中有一些自然語言處理方面的專家,我相信趕上谷歌只是時(shí)間的問題。
注:原文編譯自indiehackers,原文標(biāo)題《How I earned $1M with no business experience, and spent it to create a brand-new translator》
(舉報(bào))