3 月 28 日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟(CMVU)主辦、慕尼黑展覽(上海)有限公司承辦的VisionChina2025(上海)機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場,圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講。
尊敬的各位來賓,我是嘉悅,來自北京阿丘科技。今天,我將與大家分享《大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化》。
在探討大模型之前,讓我們簡單回顧一下工業(yè)AI視覺的發(fā)展歷程。 2019 年被視為工業(yè)AI視覺的元年,當(dāng)時以CNN為主流的小模型路線開始在早期客戶中落地。后續(xù)一直到 2024 年,工業(yè)AI視覺處于一個跨越鴻溝的階段,AI開始逐漸在各個細(xì)分領(lǐng)域和市場中普及,從頭部客戶到腰部客戶,甚至在某些細(xì)分行業(yè)已經(jīng)成為標(biāo)配。到了 2025 年可以說,我們已經(jīng)基本跨越了這個鴻溝,表現(xiàn)為大部分客戶已經(jīng)認(rèn)可AI在工業(yè)領(lǐng)域的實(shí)用性,認(rèn)可AI在工業(yè)檢測中的落地能力。
然而這幾年雖然認(rèn)知是變化了,但AI檢測應(yīng)用的增長速度并不算快,呈現(xiàn)出較為線性的增長趨勢,遠(yuǎn)未達(dá)到爆發(fā)狀態(tài),沒有形成質(zhì)變。原因在于小模型技術(shù)路線存在一些長期困擾行業(yè)的問題:樣本收集周期長、模型迭代周期長以及模型泛化能力差。
樣本收集方面,工業(yè)缺陷樣本稀缺,收集周期漫長。模型迭代過程中,非專業(yè)工程師在調(diào)優(yōu)模型時常常面臨不收斂的問題,導(dǎo)致AI落地周期延長。此外,小模型的泛化能力不足,對于未見過的樣本,模型往往無法準(zhǔn)確識別,這又回到了樣本收集的難題上。這些問題成為了制約AI檢測落地和增長的關(guān)鍵因素。
為了解決這些問題,阿丘科技這幾年一直在探索和嘗試。令人興奮的是,在去年AI領(lǐng)域出現(xiàn)了一個非常大的技術(shù)變量,通用大模型爆發(fā)式涌現(xiàn)了。從大家熟悉的OpenAI的ChatGPT,到后來的豆包、Kimi,再到春節(jié)期間爆火的DeepSeek, 3 月出現(xiàn)的Manus智能體,這些大模型引發(fā)了廣泛討論。我們可以看到,通用AI智能的能力水平正在以驚人的速度提升,可能已經(jīng)超越了許多普通人的智力和知識水平。雖然通用大模型不直接影響AI檢測,但它標(biāo)志著AI技術(shù)已經(jīng)來到了一個突破點(diǎn),預(yù)示著即將迎來突破性的影響。
回歸到工業(yè)檢測本身,大模型技術(shù)的變遷會產(chǎn)生哪些影響呢?對于大模型在工業(yè)檢測中的應(yīng)用,存在兩種不同的聲音。一種較為保守的觀點(diǎn)認(rèn)為,大模型與工業(yè)檢測無關(guān),它更像一個聊天機(jī)器人,可以輔助一些文書類工作,無法適應(yīng)工業(yè)場景的嚴(yán)格的準(zhǔn)確性要求。在工業(yè)檢測中無法發(fā)揮作用。另一種較為激進(jìn)的觀點(diǎn)則認(rèn)為,大模型的能力極其強(qiáng)大,很快就可以直接接入工廠,一步到位實(shí)現(xiàn)自動化質(zhì)檢。
而阿丘科技,一直對大模型技術(shù)發(fā)展進(jìn)行了長期關(guān)注,我們的觀點(diǎn)是,大模型確實(shí)會加速AI檢測范式的轉(zhuǎn)變,但它并不是一個非此即彼的替代關(guān)系,我們認(rèn)為,大模型將進(jìn)入工業(yè)檢測領(lǐng)域,并與小模型形成協(xié)同關(guān)系。
一、什么是大模型、小模型、智能體
接下來,我想簡單科普一下什么是大模型、小模型、智能體。
小模型通常指的是傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò),如CNN等,其參數(shù)規(guī)模較小,通常在萬級。小模型在數(shù)據(jù)處理能力上存在一定限制,對數(shù)據(jù)量和數(shù)據(jù)多樣性要求較高,對數(shù)據(jù)質(zhì)量和一致性的要求也較為嚴(yán)格。這也就是為什么在工業(yè)檢測中,我們要求標(biāo)注必須準(zhǔn)確無誤,否則模型會產(chǎn)生混淆。小模型的知識模態(tài)通常是單模態(tài),要么是文本,要么是圖像、視頻等。其泛化性能相對較差,因?yàn)樗鼈冎粚W(xué)習(xí)了特定的、局部的知識。例如,一個用于車牌識別的小模型,只能進(jìn)行車牌識別,無法識別其他物體。
相比之下,大模型采用了Transformer等架構(gòu),解決了小模型在長時間和遠(yuǎn)距離依賴問題上的不足。這種架構(gòu)允許我們通過堆疊海量數(shù)據(jù)和參數(shù)來提升模型能力,參數(shù)規(guī)模通常達(dá)到數(shù)十億甚至上百億。大模型能夠接收批量規(guī)模的文本、圖像、音頻等多模態(tài)數(shù)據(jù),并對其進(jìn)行處理。它對數(shù)據(jù)中的噪聲和不一致性具有較強(qiáng)的魯棒性,即使數(shù)據(jù)中存在一些錯誤,也不會對模型產(chǎn)生太大影響。大模型通常是多模態(tài)的,如視覺語言模型、聽覺語言模型等,具有出色的泛化性能,能夠在未見過的數(shù)據(jù)和新任務(wù)上表現(xiàn)出較好的適應(yīng)性和舉一反三的能力。
智能體可以簡單理解為大模型應(yīng)用的一種包裝形式,它可以自主完成一系列動作以達(dá)成目標(biāo),類似于一個輔助人類的小助理。智能體并不是一個單獨(dú)的模型分類,而是大模型在特定應(yīng)用方式下的體現(xiàn)。
接下來,我們簡單了解一下這些模型是如何訓(xùn)練出來的,這有助于我們理解模型為何具有這樣的能力。
首先,無論是小模型還是大模型,都需要經(jīng)過預(yù)處理階段。在這個階段,所有的非數(shù)字類信息都會被轉(zhuǎn)化為數(shù)字信息,以便計(jì)算機(jī)進(jìn)行處理。
其次是訓(xùn)練過程。對于小模型來說,訓(xùn)練過程主要是對專業(yè)知識的學(xué)習(xí),可以采用監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)的方式,在工業(yè)檢測領(lǐng)域,監(jiān)督學(xué)習(xí)的應(yīng)用較為廣泛。
而對于大模型,其訓(xùn)練過程則有所不同,通常分為兩個階段。首先是預(yù)訓(xùn)練階段。在這個階段,模型通過大量的互聯(lián)網(wǎng)信息,以自監(jiān)督的方式學(xué)習(xí)通用知識。這個過程通常需要消耗大量資金、算力和時間,因此,當(dāng)人們提到做大模型燒錢時,通常指的是這個預(yù)訓(xùn)練階段。預(yù)訓(xùn)練之后,還有一個關(guān)鍵步驟叫做微調(diào)。由于互聯(lián)網(wǎng)數(shù)據(jù)可能存在信息不全或不準(zhǔn)確,需要通過微調(diào)來提升模型的專業(yè)度。微調(diào)的其中一種方式是人工標(biāo)注,類似于我們在工業(yè)檢測中對缺陷進(jìn)行標(biāo)注一樣,人工標(biāo)注會告訴模型正確答案,然后模型會根據(jù)這些標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。此外,還有一種新興的方式是強(qiáng)化學(xué)習(xí),即通過給模型的答案打分,讓模型不斷嘗試,直到達(dá)到較高的分?jǐn)?shù),從而確定最終答案。這兩種方法在實(shí)際應(yīng)用中都有所采用。
前面我們所討論的大模型概念,通常指的是我們?nèi)粘=佑|的一些應(yīng)用場景,然而,當(dāng)大模型真正應(yīng)用于企業(yè)時,它可以細(xì)分為多個層次。
除了通用大模型,適用于多種任務(wù)和生活場景的模型之外,還有行業(yè)大模型,這類模型是為特定行業(yè)量身定制的,具備該行業(yè)的專業(yè)性。例如,在煤礦領(lǐng)域的大模型需要了解煤礦行業(yè)的各種專業(yè)知識;在醫(yī)療領(lǐng)域,大模型可以作為醫(yī)生的助理,具備一定的專業(yè)輔助能力。
再往下細(xì)分,還有場景大模型,這類模型針對特定的應(yīng)用場景進(jìn)行設(shè)計(jì),具有更強(qiáng)的專業(yè)性。例如,用于磁材檢測的大模型、煙草檢測的大模型,或者針對某種工藝缺陷檢測的大模型等。
最后是場景小模型,這是我們目前應(yīng)用的主流。它專注于特定場景中的特定任務(wù),在該任務(wù)上具有很強(qiáng)的專業(yè)性。例如,專門用于檢測某一產(chǎn)品某一缺陷項(xiàng)的模型,它可能無法檢測其他產(chǎn)品或其他缺陷項(xiàng),這種場景小模型在日常應(yīng)用中非常普遍。另外,按技術(shù)類型劃分,還可以分為單模態(tài)和多模態(tài)模型。多模態(tài)模型結(jié)合了多種不同類型的數(shù)據(jù),如文本、圖像、視頻等,具有更強(qiáng)大的理解和生成能力。
在企業(yè)應(yīng)用大模型時,一個關(guān)鍵點(diǎn)是要準(zhǔn)確匹配企業(yè)自己的實(shí)際問題和需求,然后選擇合適的模型。我們不能僅僅憑借感覺或偏好來選擇模型,不同模型的效果和訓(xùn)練開銷存在很大差異,我們要避免“殺雞用牛刀”或“殺牛用雞刀”的情況。
二、工業(yè)視覺如何運(yùn)用大小模型?
回到工業(yè)視覺領(lǐng)域,要探討如何合理運(yùn)用大小模型,我們可以來列舉和分析一下它們與工業(yè)檢測的匹配度。
首先,通用AI大模型是通過大量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來的,然而,工業(yè)數(shù)據(jù)在互聯(lián)網(wǎng)上相對較少,尤其是工業(yè)質(zhì)量數(shù)據(jù)。因此,這類通用大模型在工業(yè)檢測中的準(zhǔn)確度通常較差,直接應(yīng)用于工業(yè)檢測的效果并不理想。
相比之下,我們有機(jī)會構(gòu)建專門的工業(yè)檢測大模型,這類模型類似于行業(yè)大模型的層次。通過大量工業(yè)數(shù)據(jù)、文本和圖像進(jìn)行訓(xùn)練,能夠?qū)W習(xí)到各行各業(yè)、各種制造領(lǐng)域中不同產(chǎn)品的各種缺陷知識,因此在工業(yè)檢測領(lǐng)域具有很強(qiáng)的泛化能力。然而,它的準(zhǔn)確度和比較準(zhǔn)確度存在一定的上限,推理速度也相對較慢。工業(yè)檢測大模型類似于企業(yè)中的綜合性人才,對于常見的任務(wù)和稍微專業(yè)一些的工作,它可以勝任。例如,今天檢測一種產(chǎn)品,明天換到另一個車間檢測另一種產(chǎn)品,它都能很快適應(yīng)。這種模型適合于工業(yè)場景中典型的工藝,以及對檢測指標(biāo)和速度要求不是特別嚴(yán)格的場景,能夠?qū)崿F(xiàn)即插即用的效果。
接下來是場景大模型,這類模型學(xué)習(xí)了一定規(guī)模的特定范圍內(nèi)的知識,因此在準(zhǔn)確度、處理速度和泛化能力方面表現(xiàn)出色。在特定場景內(nèi),它可以實(shí)現(xiàn)即插即用,應(yīng)用性非常好。就像直接聘請一位本領(lǐng)域的佼佼者專家,他來了就能直接上手工作。這種模型適用于工藝具有一定代表性、積累了大量同場景不同產(chǎn)品數(shù)據(jù)的情況,同時待檢產(chǎn)品型號較多,需要一定的泛化能力。
然后是小模型,它專注于學(xué)習(xí)特定的知識,優(yōu)勢在于準(zhǔn)確度高和推理速度快。由于它只專注于一個任務(wù),延展能力有限,類似于聘請了一位小學(xué)生,專門訓(xùn)練他完成一項(xiàng)任務(wù),他可以將這項(xiàng)任務(wù)完成得非常好,而且成本較低。小模型適用于工藝獨(dú)特、數(shù)據(jù)較少的場景,或者對檢測指標(biāo)要求較高的情況,以及產(chǎn)品品類有限、不追求泛化能力的場景。
最后是智能體,智能體在工業(yè)檢測領(lǐng)域可以作為一個自主模型訓(xùn)練的小助手。目前,許多員工在重復(fù)性的工作中投入了大量時間,而引入智能體可以大幅降低模型迭代的難度和時間成本。
綜合來看,工業(yè)市場是一個高度碎片化的市場,各種場景、缺陷類型和指標(biāo)要求都存在。這意味著在工業(yè)檢測中,大小模型的協(xié)同是一個必然趨勢,沒有哪一種模型能夠完全取代其他模型覆蓋所有場景。
同時,協(xié)同并不意味著是一種固定的模式,相反,隨著技術(shù)的快速進(jìn)步,這一過程一定是動態(tài)的。例如,在 2024 年,可能95%以上的應(yīng)用都是小模型,只有少數(shù)企業(yè)開始落地場景大模型,并取得了不錯的效果。到了今年,大模型的應(yīng)用正在快速增長,工業(yè)檢測大模型可能迎來其頭個落地場景。預(yù)計(jì)在未來的2026、2027、 2028 年,大模型系統(tǒng)將處于快速增加的狀態(tài),但五年后可能會趨于平穩(wěn),三種模型的應(yīng)用場景分工將逐漸明確和固定下來。此外,模型訓(xùn)練智能體有望在未來一年左右時間內(nèi)出現(xiàn)在市場上。
三、阿丘科技AI模型產(chǎn)品布局
沿著這些思路,阿丘科技正在布局自己的AI產(chǎn)品序列。首先,我們?nèi)匀槐A粜∧P头较虻漠a(chǎn)品,因?yàn)樵谖磥韼啄陜?nèi),小模型仍將在應(yīng)用中占據(jù)較大比重。我們?yōu)檫@一領(lǐng)域的場景提供開發(fā)工具套件,如大家熟悉的AIDI等軟件工具型產(chǎn)品,它們追求高精度、高準(zhǔn)確度和高速性能。
對于場景大模型類產(chǎn)品,我們直接提供面向特定場景的端到端即插即用模型。除了去年分享過的PCB領(lǐng)域的大模型應(yīng)用,今年我們還嘗試了在磁材、煙草、金屬和塑料表面等場景的模型落地,并取得了良好的效果,將落地周期從幾個月縮短到了一周左右。
工業(yè)檢測大模型產(chǎn)品也是我們今年研發(fā)的重點(diǎn)。我們稱之為AQ-VLM,即阿丘的視覺語言模型,它是基于我們之前積累的所有工業(yè)圖像數(shù)據(jù)資產(chǎn)構(gòu)建的一個智能的基座模型。這個大模型分為兩個部分,一個是用于缺陷檢測的工業(yè)視覺大模型,這個大模型能夠在一些常見的通用工業(yè)檢測場景中實(shí)現(xiàn)即插即用。同時,我們還開放了模型微調(diào)窗口,只需原來小模型所需數(shù)據(jù)量的1%左右,就可以快速微調(diào)模型,以適應(yīng)新的領(lǐng)域。
另一個分支是通用缺陷生成模型,同樣基于我們積累的高質(zhì)量工業(yè)數(shù)據(jù)進(jìn)行訓(xùn)練,并支持提示和參考圖結(jié)合的方式進(jìn)行生成。由于工業(yè)圖像數(shù)據(jù)對質(zhì)量要求較高,我們通過文本編碼器和圖像編碼器相結(jié)合的方式進(jìn)行生成,以確保生成的數(shù)據(jù)能夠滿足模型訓(xùn)練的要求。
這是一個正在研發(fā)中的產(chǎn)品,我們制作了一個小型demo在展臺供大家分享。例如您可以導(dǎo)入任意一張圖片,然后給它一個指令,比如“請幫我檢測這張圖像中的臟污”,它能夠理解您的意思并框出缺陷的位置。同樣,對于缺陷生成模型,您可以輸入產(chǎn)品圖樣,并要求生成某種特定的缺陷,如“請幫我這張圖像的右下角生成一個凹陷”。
接下來是智能體的部分。智能體不會作為我們的一個單獨(dú)的產(chǎn)品品類存在,而是更多地集成到我們的模型訓(xùn)練開發(fā)平臺中。它的使用模式是將原本許多人工重復(fù)性的工作,包括一些需要專業(yè)知識的重復(fù)性工作,轉(zhuǎn)變?yōu)橛芍悄荏w完成。我們的目標(biāo)是讓人工只需負(fù)責(zé)保障標(biāo)準(zhǔn)的正確性,其余工作都交由智能體處理。所以智能體可能嵌入在AIDI或阿丘的其他訓(xùn)練平臺中。我們相信,未來智能體將成為小模型和大模型訓(xùn)練過程中的核心“人員”。
四、實(shí)踐案例
最后,我想分享一個實(shí)踐案例,以幫助大家更好地理解大小模型協(xié)同的概念。
我們最近在幾個不同的客戶中在嘗試金屬結(jié)構(gòu)件檢測的場景。這些客戶都已經(jīng)非常認(rèn)可AI技術(shù),但仍被一些問題所困擾,如周期過長、模型不收斂等。于是,我們嘗試通過VLM和小模型協(xié)同的方案,看看是否能夠?qū)崿F(xiàn)模型的復(fù)用,從而解決這些問題。
具體來說,我們針對不同的缺陷類型采取了不同的策略。對于明顯的缺陷,我們可以直接使用大模型進(jìn)行檢測。例如,金屬表面上的壓傷是一種非常典型的缺陷類型,大模型此前已經(jīng)經(jīng)過充分學(xué)習(xí),我們可以直接輸入指令,如“幫我檢測一下壓傷”,模型就能直接識別出壓傷,無需額外訓(xùn)練。
對于不那么明顯但相對常見的缺陷,如果我有一些樣本數(shù)據(jù),我們可以采用VLM加上微調(diào)的方法來實(shí)現(xiàn)檢測。例如,劃傷也是一種常見缺陷,但在某些場景中,劃傷可能很輕,看起來對比度很低,模型之前沒有學(xué)習(xí)過如此輕微的劃傷。我們可以通過微調(diào),將這些對比度很低的劃傷樣本數(shù)據(jù)額外輸入模型,使其能夠順利識別出這種劃傷。
第三種情況是缺陷既不明顯又較為罕見,幾乎沒有通用性。針對這種情況,我們采用生成式AI結(jié)合小模型和智能體的方法來解決。我們可以給生成模型輸入一張良品圖,再結(jié)合真實(shí)的缺陷參考圖,然后輸入一個指令,如“幫我生成一個類似的缺陷”,模型會理解您的意思,并生成一個形態(tài)不同但看起來較為真實(shí)的缺陷圖像。然后,我們將這些真實(shí)圖和生成圖作為訓(xùn)練數(shù)據(jù)集輸入到AIDI中進(jìn)行訓(xùn)練,這個過程可以利用智能體來輔助。最終,我們可以在場景中實(shí)現(xiàn)實(shí)現(xiàn)對缺陷的良好識別。
總結(jié)來說,對于明顯的缺陷,我們?nèi)渴褂么竽P蚔LM解決;對于不明顯但常見的缺陷,我們使用VLM加微調(diào)的方法;對于不明顯且罕見的缺陷,我們采用生成大模型+小模型+智能體的方式。當(dāng)然,這些模型的能力邊界是動態(tài)變化的,因此,我們的方案也保持一定的開放性,例如也許對明顯且長尾的缺陷可以采用非監(jiān)督小模型,這些都有很多可能性,這些也是我們會持續(xù)關(guān)注的方向。
最后總結(jié)一下,去年展會演講時,我們老板說過一句話:“不會用AI的將會被用AI的淘汰。”今年,在這個快速變化的時代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰?!?/p>
(推廣)