AI技術(shù)在3C工業(yè)質(zhì)檢的核心矛盾是"工業(yè)場(chǎng)景對(duì)極高穩(wěn)定性、可靠性和魯棒性的要求"與"AI模型在數(shù)據(jù)稀缺、環(huán)境多變下表現(xiàn)的不確定性"之間的矛盾。3C場(chǎng)景中,缺陷樣貌復(fù)雜多變并呈現(xiàn)嚴(yán)重的長尾分布,新項(xiàng)目初期缺陷數(shù)據(jù)稀缺,常規(guī)AI模型需要經(jīng)過漫長的缺陷搜集、數(shù)據(jù)標(biāo)注和模型優(yōu)化過程。即使后期模型具有一定檢測(cè)能力,依然難以應(yīng)對(duì)先前未出現(xiàn)的缺陷,此外,若成像、機(jī)構(gòu)等出現(xiàn)變動(dòng),模型可能失效。針對(duì)常規(guī)AI模型在使用過程中的痛點(diǎn)問題,我們結(jié)合跨項(xiàng)目數(shù)據(jù)集和多模態(tài)模型的泛化能力,提出一套基于大模型的解決方案。
一.基于跨項(xiàng)目數(shù)據(jù)治理的模型進(jìn)化機(jī)制
目前,AI視覺技術(shù)已在工業(yè)質(zhì)檢領(lǐng)域廣泛應(yīng)用。針對(duì)工業(yè)產(chǎn)品的缺陷檢測(cè)問題,由于工藝、外力導(dǎo)致的缺陷樣本具有稀缺性和隨機(jī)性,缺陷目標(biāo)相對(duì)自然場(chǎng)景,語義信息較弱。工業(yè)缺陷數(shù)據(jù)的特點(diǎn)決定常規(guī)AI模型很難處理樣貌變化導(dǎo)致的各類漏檢問題。此外,單個(gè)項(xiàng)目甚至單個(gè)工位的數(shù)據(jù)量極其有限。然而借鑒人腦的識(shí)別機(jī)制,即使新的場(chǎng)景也可以識(shí)別到絕大部分異常位置,這說明缺陷信息本身是具有共性的,常規(guī)AI模型僅處理單個(gè)項(xiàng)目或單個(gè)工位,數(shù)據(jù)之間完全割裂,數(shù)據(jù)上限被嚴(yán)重制約,進(jìn)一步?jīng)Q定模型泛化能力十分有限??珥?xiàng)目數(shù)據(jù)治理的核心動(dòng)機(jī)是進(jìn)一步提升大模型檢測(cè)能力上限,一套嚴(yán)密的數(shù)據(jù)管理機(jī)制可以保障模型能力隨時(shí)間不斷進(jìn)化,形成數(shù)據(jù)、模型能力、設(shè)備性能的良性循環(huán)。
跨項(xiàng)目數(shù)據(jù)治理過程中,我們通過特定維度歸納缺陷的共性特征,即使針對(duì)不同成像、材質(zhì)、工藝也可以進(jìn)行嚴(yán)格歸類。圖1中(a),(b)分別展示了不同項(xiàng)目的劃傷和缺口樣本。從缺陷樣貌上觀察,每種類型缺陷類內(nèi)雖然存在一定差異,但從幾何形態(tài)上看,類間區(qū)分度也比較明顯。因此,我們從缺陷的本身形態(tài)對(duì)所有項(xiàng)目樣本進(jìn)行了新的整理和歸類。由于綜合利用了跨項(xiàng)目數(shù)據(jù),缺陷樣本的數(shù)量遠(yuǎn)遠(yuǎn)高于一般針對(duì)單個(gè)項(xiàng)目甚至單個(gè)工位的模型,決定了模型能力可以隨樣本拓展不斷進(jìn)化。
從歸類結(jié)果上看,發(fā)現(xiàn)單個(gè)缺陷的多樣性遠(yuǎn)超想象。即使針對(duì)圖1中常見缺口缺陷,在不同項(xiàng)目中由于光照條件、拍攝角度、材質(zhì)、工藝等多種因素影響,呈現(xiàn)出各種隨機(jī)變化的樣貌,缺陷樣本的多樣性極大程度上提升了模型的泛化能力,同時(shí)經(jīng)過嚴(yán)格歸類的數(shù)據(jù)一定程度上緩解了缺陷的弱語義特性。
二.多模態(tài)模型賦能AI工業(yè)質(zhì)檢
在跨項(xiàng)目大樣本條件下,常規(guī)AI模型可能由于模型的復(fù)雜度面臨欠擬合風(fēng)險(xiǎn),基于Transformer架構(gòu)的Dyson多模態(tài)大模型天然具有學(xué)習(xí)大樣本的能力。我們借鑒人腦在識(shí)別事物時(shí)結(jié)合語言信息的特點(diǎn),構(gòu)建了工業(yè)場(chǎng)景的學(xué)習(xí)方案。此外,我們借鑒人腦天然能夠區(qū)分不同類別物體,采用自監(jiān)督方法訓(xùn)練圖像編碼器,然后通過圖像編碼和文本編碼得到多模態(tài)信息,在模型內(nèi)部通過進(jìn)一步的對(duì)比學(xué)習(xí)方法得到圖像信息和語言信息的關(guān)聯(lián)特征。
相比常規(guī)的有監(jiān)督訓(xùn)練方法,Dyson多模態(tài)大模型的訓(xùn)練方法進(jìn)一步提升了模型的泛化能力,實(shí)測(cè)檢測(cè)能力接近人類,不但在已訓(xùn)練場(chǎng)景泛化性更強(qiáng),而且能夠無需訓(xùn)練精準(zhǔn)識(shí)別到新領(lǐng)域的新缺陷。
圖2展示了Dyson大模型在跨域條件下的檢測(cè)示例,所有該場(chǎng)景樣本完全沒有經(jīng)過訓(xùn)練,模型能夠精確定位和分割缺陷目標(biāo)和背景區(qū)域,在子圖(b)中,背景存在大量文字和黑色零件干擾,在子圖(d)中,水泥路面存在大量噪點(diǎn),裂縫相對(duì)正常路面對(duì)比度較低,且紋理十分細(xì)微。
多模態(tài)大模型結(jié)構(gòu)復(fù)雜,然而實(shí)際機(jī)臺(tái)PC算力有限。我們?cè)谀P驮屑軜?gòu)基礎(chǔ)上進(jìn)行了模型壓縮、算子和模型加速等各種極致效率優(yōu)化,最終實(shí)現(xiàn)毫秒級(jí)延遲,實(shí)現(xiàn)大模型在單個(gè)PC上的本地部署。
三.基于大模型的數(shù)據(jù)集
征圖深耕檢測(cè)領(lǐng)域十幾年,積累原始數(shù)據(jù)集非常龐大,為現(xiàn)有的大模型提供了大量的優(yōu)質(zhì)樣本。數(shù)據(jù)覆蓋各3C產(chǎn)品線外觀所有工序,成像復(fù)雜性和缺陷復(fù)雜性對(duì)模型能力提出了更高的要求。圖(3)展示了不同成像方案、不同材質(zhì)的缺陷樣本示例。
四.基于大模型的項(xiàng)目案例
目前,Dyson大模型已在多個(gè)項(xiàng)目現(xiàn)場(chǎng)實(shí)現(xiàn)落地應(yīng)用,包括觸摸屏蓋板玻璃、手機(jī)邊框、攝像頭模組、新能源電池等場(chǎng)景。相對(duì)原有方案,雖然基于大模型的方案在算力消耗上有一定提升,但真實(shí)缺陷漏檢率大幅降低,同時(shí)針對(duì)新場(chǎng)景,由于模型本身具有一定的檢測(cè)能力,項(xiàng)目指標(biāo)收斂周期大幅縮短。例如,在我們的新能源電池場(chǎng)景中,由于光源和成像方案相對(duì)已有樣本差異很大,但模型初期即可檢測(cè)90%以上缺陷,后期通過各個(gè)工位總計(jì)200余張缺陷樣本微調(diào)即可達(dá)到穩(wěn)定檢測(cè)狀態(tài),機(jī)臺(tái)月度維持0漏檢,綜合良率接近人工檢測(cè)。
后記:
我們認(rèn)為大數(shù)據(jù)和多模態(tài)能力是工業(yè)場(chǎng)景恒星級(jí)的能量,而Dyson大模型可以利用這種能量賦能工業(yè)質(zhì)檢行業(yè)。作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn)本地部署的工業(yè)質(zhì)檢大模型,于2024年被國家工信部評(píng)為年度AI賦能工業(yè)應(yīng)用的典型案例。我們希望以Dyson大模型為baseline,為AI質(zhì)檢提供更多新方案和思路,和征圖一起,看·見更多不同!