談到網(wǎng)絡(luò)抓取的文章有很多,大部分都著重考察公司如何使用它來增加營收,產(chǎn)出更好的服務(wù)。針對較小的企業(yè)也開發(fā)了一些用例,隨著自動化數(shù)據(jù)收集變得更加便利,這些用例越來越流行。
網(wǎng)絡(luò)抓取常常(只在一定程度上正確)被視為直接與營收相關(guān)。它可以提高運(yùn)營效率,或者創(chuàng)造產(chǎn)品或服務(wù)。至于網(wǎng)絡(luò)抓取可以如何創(chuàng)造工具來改善部門甚至員工的工作效率,卻少有人談及。
內(nèi)部數(shù)據(jù)抓取的優(yōu)勢
內(nèi)部數(shù)據(jù)(即,從自家網(wǎng)站收集的信息)似乎很容易訪問而無需使用抓取。充其量只是提到過邊緣案例,例如搜索404超鏈接或錨文本。即使在這種情況下,SEO 工具常??梢酝瓿蛇@類任務(wù),因而不值得開發(fā)內(nèi)部爬蟲。
但是,內(nèi)部抓取確實(shí)也有優(yōu)勢,就是不大可能觸發(fā)通常與外部數(shù)據(jù)相關(guān)的任何問題。畢竟,這是自家的網(wǎng)站,無需擔(dān)心侵權(quán)或無意中帶來負(fù)面用戶體驗(yàn)。此外,也無需設(shè)法繞過反機(jī)器人解決方案或不穩(wěn)定的網(wǎng)站結(jié)構(gòu)。
所以,這種數(shù)據(jù)收集不會有網(wǎng)絡(luò)抓取通常存在的任何缺陷,減少了啟動這類任務(wù)所需的開銷。
用于內(nèi)容管理的數(shù)據(jù)
創(chuàng)建內(nèi)容是如今所有企業(yè)都必須做的事情。落地頁和博客文章會驅(qū)動自然流量,尤其是在 SEO 的幫助下。如今,創(chuàng)建“良好內(nèi)容”的呼聲很高。雖然誰也無法精確形容如何才算良好的寫作,但我們大部分人似乎都能看到內(nèi)容之后明白好不好。不過,要做到這一點(diǎn)并不容易。寫作是一種短暫技能,很難傳承,因?yàn)楹苌儆惺裁垂潭ǖ姆▌t。每個人憑經(jīng)驗(yàn)都知道,語法和句法不足以寫出好文章。
此外,文案撰稿人常常有千差萬別的弱點(diǎn)。一些人可能詞匯量不廣,導(dǎo)致內(nèi)容的說服力欠佳。另一些人可能會使用對讀者無益的寄生詞句。打造通用的培訓(xùn)計劃比其他某些領(lǐng)域的專業(yè)知識困難得多。
然而,內(nèi)部網(wǎng)絡(luò)抓取可以揭示潛在的改進(jìn)方面。有一些前提條件:
1. 文章、博客帖子、落地頁應(yīng)該分配給知名作者。這種數(shù)據(jù)必須恰當(dāng)管理,確保作者總是與他們產(chǎn)出的內(nèi)容匹配。
2. 必須有大量內(nèi)容已經(jīng)發(fā)布,才能生成足夠大的數(shù)據(jù)集。一開始最起碼要有十來篇文章。
3. 寫作的主題和質(zhì)量必須保持一致。
制定改進(jìn)計劃
我們需要上述前提條件來創(chuàng)建基于作者的數(shù)據(jù)集,每當(dāng)有新內(nèi)容出現(xiàn)時,可以持續(xù)進(jìn)行更新。這種準(zhǔn)備工作做好之后,就可以開始數(shù)據(jù)分析,并可以擬定改進(jìn)計劃。
許多作者的常見誤區(qū)是濫用某些習(xí)語或詞語。雖然這不是大問題,但可能會破壞文字流,阻礙更有創(chuàng)意的寫作方法。利用內(nèi)部抓取,可以收集有關(guān)總體詞匯和使用頻率的深度統(tǒng)計數(shù)據(jù)。
介詞、代詞、連詞和其他詞類應(yīng)該直接去除,以便更好地概述。但是,這種數(shù)據(jù)集展示了作者的詞匯量有多廣,以及他們是否會選擇重復(fù)使用詞語,從而找到明確的改進(jìn)空間。
此外,可以分析句子和段落長度。人們似乎期待并傾向于認(rèn)為句子和段落都應(yīng)該簡短,尤其是對于在線發(fā)布內(nèi)容。這方面并不存在什么硬性數(shù)據(jù)支撐。利用內(nèi)部抓取,我們可以了解這種主張的潛在真實(shí)性。
單獨(dú)來看,這些數(shù)據(jù)集很適合用作作者自我改進(jìn)的有用工具。然而,結(jié)合來看,它們可以用于分析哪些從商業(yè)視角入手是有效的。一些作者在閱讀時間、滾動深度等方面有更好的表現(xiàn),所有這些都直接與作品質(zhì)量相關(guān)。
不過,這種數(shù)據(jù)并不會通過內(nèi)部抓取本身可見。但 Google Analytics 等熱門跟蹤工具讓我們有足夠數(shù)據(jù)來擴(kuò)充作者數(shù)據(jù)集,以便更輕松地分析業(yè)績。
但是,值得注意的是,來自 Google Analytics 的數(shù)據(jù)點(diǎn)應(yīng)該謹(jǐn)慎選擇。并非所有指標(biāo)都能證明作者的技能。瀏覽量這個看起來很直觀的指標(biāo),就與作品質(zhì)量遠(yuǎn)不相關(guān)。
如果沒有內(nèi)部抓取,就很難弄清楚為什么一些作者創(chuàng)作的內(nèi)容更優(yōu)秀。此外,我們也更容易被誤導(dǎo),因?yàn)槠髽I(yè)關(guān)注的指標(biāo)(瀏覽量、轉(zhuǎn)化率等)并不總是反映寫作質(zhì)量。它們可能反映了 SEO 研究的質(zhì)量或其他諸多因素。
結(jié)論
抓取具有獨(dú)特的優(yōu)勢,因?yàn)槠渲饕a(chǎn)品是數(shù)據(jù)創(chuàng)建。雖然它主要涉及提高企業(yè)業(yè)績,但也可以用于許多方面,如果僅專注于前者,就會限制抓取的真正潛力。
打造內(nèi)部數(shù)據(jù)庫以用于改進(jìn)文案撰稿,正是這樣一種不尋常的抓取用途。一般而言,它可以用于自定義數(shù)據(jù)驅(qū)動型實(shí)踐,幫助組建那些不太適合千篇一律培訓(xùn)的團(tuán)隊(duì)。
作者:Aleksandras Sulzenko,Oxylabs.io 產(chǎn)品負(fù)責(zé)人
(推廣)