基于統(tǒng)計分類的方法:
(1)基于KNN方法(最近鄰法):利用相似度,找出k個訓(xùn)練樣本,然后打分,按得分值排序。
(2)基于Naive Bayes算法:計算概率,構(gòu)建分類模型。
引導(dǎo):
醫(yī)生對病人進(jìn)行診斷就是一個典型的分類過程,任何一個醫(yī)生都無法直接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗檢測數(shù)據(jù)來推斷病情,這時醫(yī)生就好比一個分類器,而這個醫(yī)生診斷的準(zhǔn)確率,與他當(dāng)初受到的教育方式(構(gòu)造方法)、病人的癥狀是否突出(待分類數(shù)據(jù)的特性)以及醫(yī)生的經(jīng)驗多少(訓(xùn)練樣本數(shù)量)都有密切關(guān)系。
一、KNN分類器
1.1.1最近鄰算法
定義:計算未知樣本與所有訓(xùn)練樣本的距離,并以最近鄰者的類別作為決策未知樣本類別的唯一依據(jù)。
缺陷:對噪聲數(shù)據(jù)過于敏感。
措施:將被決策樣本周邊的多個最近樣本計算在內(nèi),擴(kuò)大參與決策的樣本量,以避免個別數(shù)據(jù)直接決定決策結(jié)果。
1.1.2K-最近鄰算法(KNN)
基本思路:選擇未知樣本一定范圍內(nèi)的K個樣本,該K個樣本中某一類型出現(xiàn)的次數(shù)最大,則未知樣本判定為該類型。
舉例說明:
如果K=3,綠色圓點(diǎn)的最近的3個鄰居是2個紅色小三角形和1個藍(lán)色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點(diǎn)屬于紅色的三角形一類。如果K=5,綠色圓點(diǎn)的最近的5個鄰居是2個紅色三角形和3個藍(lán)色的正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點(diǎn)屬于藍(lán)色的正方形一類。
算法執(zhí)行步驟:
(1)輸入測試集。
(2)設(shè)定參數(shù)k。
(3)遍歷測試集,對于測試集中每個樣本,計算該樣本(測試集中)到訓(xùn)練集中每個樣本的距離;取出訓(xùn)練集中到該樣本(測試集中)的距離最小的k個樣本的類別標(biāo)簽;對類別標(biāo)簽進(jìn)行計數(shù),類別標(biāo)簽次數(shù)最多的就是該樣本(測試集中)的類別標(biāo)簽。
(4)遍歷完畢,輸出測試集的類別。
1.1.3 知識補(bǔ)充
距離度量表示的是兩樣本之間的相似程度。
常用距離度量方式:
二、樸素貝葉斯分類器
2.1貝葉斯公式
貝葉斯公式理解
(怎樣用非數(shù)學(xué)語言講解貝葉斯定理(Bayes’s theorem)?)
2.2樸素貝葉斯分類器
2.2.1基本思想
對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此待分類項屬于哪個類別。
2.2.2樸素貝葉斯“公式”
2.2.3樸素貝葉斯分類器
三、瑕疵缺陷檢測
檢測方法:
(1)瑕疵缺陷圖像特征的選擇與提取。
(2)計算缺陷圖像與標(biāo)準(zhǔn)圖像關(guān)于灰度的差值。
(3)通過差值與設(shè)定閾值比較判斷是否存在缺陷。
3.1缺陷圖像差分法
3.1.1基本原理
3.1.2基本流程
(1)有效檢測區(qū)域的設(shè)定
(2)圖像配準(zhǔn)與剪裁
(3)設(shè)定差分閾值
(4)缺陷位置的判別
3.2缺陷圖像特征的選擇與提取
3.2.1特征提取方法
(1)灰度值特征
(2)灰度差特征
(3)直方圖特征
(4)變換系數(shù)特征
(5)線條和角點(diǎn)的特征
(5)灰度邊緣特征
(6)紋理特征
3.2.2特征選擇(數(shù)據(jù)降維)
降維的原因:在機(jī)器學(xué)習(xí)中,如果特征值即維度過多,會引發(fā)維度災(zāi)難。維度災(zāi)難最直接的后果就是過擬合現(xiàn)象,進(jìn)而導(dǎo)致分類識別的錯誤,因此我們需要對所提的特征進(jìn)行降維處理。
基本原理:特征選擇是將原始空間進(jìn)行變換,重新生成一個維數(shù)更小各維之間更獨(dú)立的特征空間。
降維面臨的問題:
(1)降維后數(shù)據(jù)應(yīng)該包含更多的信息?
(2)降維后會損失多少信息?
(3)降維后對分類識別效果有多大影響?
數(shù)據(jù)降維后的好處:
(1)進(jìn)行數(shù)據(jù)壓縮,減少數(shù)據(jù)存儲所需空間以及計算所需時間。
(2)消除數(shù)據(jù)間的冗余,以簡化數(shù)據(jù),提高計算效率。
(3)去除噪聲,提高模型性能。
(4)改善數(shù)據(jù)的可理解性,提高學(xué)習(xí)算法的精度。
(5)將數(shù)據(jù)維度減少到2維或者3維,進(jìn)行可視化。
常用方法:主成分分析,隨機(jī)映射,非負(fù)矩陣分解。
3.2.3主成分分析(PCA)
方法概述:此方法目標(biāo)是找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除噪音冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭露出隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的數(shù)據(jù)表進(jìn)行最佳綜合簡化。這些綜合指標(biāo)就稱為主成分,也就是說,對高維變量空間進(jìn)行降維處理,很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。從線性代數(shù)角度來看,PCA目標(biāo)是找到一組新正交基去重新描述得到的數(shù)據(jù)空間,這個維度就是主元。
3.3灰度形態(tài)學(xué)的缺陷檢測
3.3.1概述
灰度數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算有膨脹、腐獨(dú)、開啟和關(guān)閉,其中利用膨脹和腐蝕的組合可構(gòu)成開啟和關(guān)閉,而利用開啟和關(guān)閉又可構(gòu)成形態(tài)濾波器。
在灰度圖像的形態(tài)分析中,結(jié)構(gòu)元素可以是何的三維結(jié)構(gòu),常用的有圓錐、圓柱、半球或拋物線。模板尺寸總是奇數(shù),這樣檬板中心正好對應(yīng)一個像素。
3.3.2 形態(tài)操作對圖像影響
(1)膨脹灰度圖像的結(jié)果是,比背景亮的部分得到擴(kuò)張,而比背景暗的部分受到收縮。
(2)腐蝕灰度圖像的結(jié)果是,比背景暗的部分得到擴(kuò)張,而比背景亮的部分受到收縮。
(3)開啟一幅圖像可消除圖中的孤島或尖峰等過亮的點(diǎn)。
(4)關(guān)閉一幅圖可將比背景暗且尺寸比結(jié)構(gòu)元素小的結(jié)構(gòu)除掉。
(5)形態(tài)濾波器是非線性信號濾波器,它通過變換來局部地修改信號的幾何特征。將開運(yùn)算和閉運(yùn)算結(jié)合起來可消除噪聲。
(6)如果用一個小的結(jié)構(gòu)元素先開啟再閉合一幅圖像,就有可能將圖像中小于結(jié)構(gòu)元素的類似噪聲結(jié)構(gòu)除去。
3.3.3實例說明
電路板布線的缺陷檢測:對于一幅大小為1100×870、灰度級為256的電路板灰度圖像,其布線缺陷分為斷線和毛刺,利用灰度形態(tài)學(xué)檢測這些缺陷。取結(jié)構(gòu)元素為5×5的半球模板,首先對原圖灰度開啟,消除比鄰域亮且尺寸比結(jié)構(gòu)元素小的區(qū)域;然后對原圖灰度閉合,消除比鄰域暗且尺寸比結(jié)構(gòu)元素小的區(qū)域,兩次結(jié)果差異即為缺陷。
四、劃痕檢查
概述:劃痕檢測的基本分析過程分為兩步首張,確定檢測產(chǎn)品表面是否有劃痕,其次,在確定被分析圖像上存在劃痕之后,對劃痕進(jìn)行提取。由于在工業(yè)檢測中圖像的多樣性,對于每一種圈像,都要經(jīng)過分析綜合考慮各種手段來進(jìn)行處理達(dá)到效果。一般來說,劃痕部分的灰度值和周圍正常部分相比要暗,也就是劃痕部分灰度值偏小,而且大多都是在光滑表面,所以整幅圖的灰度變化總體來說非常均勻,缺乏紋理特征。
基本方法:基于統(tǒng)計的灰度特征或者閾值分割的方法將劃痕部分標(biāo)出。
版權(quán)聲明:本文為CSDN博主「橡皮人生」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_40719550/java/article/details/84030419