전체 글 146

Training Technique: Regularization(규제)

Regularization을 하는 이유: Generalization 규제가 필요한 이유는, deep model이 데이터셋의 truth를 학습하는 것을 넘어서 training set이 포함하고 있는 noise까지 학습하는 것을 막기 위함이다. 즉, Overfitting을 '규제'하기 위한 방법들이 Regularization이라고 생각하면 되겠다. 규제 종류에는 아래가 대표적이다. 1. Model에 Extra Constraint 더하기 (e.g. Batch Normalization) 2. Cost Function에 Extra Term 더하기 3. 앙상블 기법 4. Data Augmentation 😶 Extra Term on Cost Function 모델 파라미터는 Cost Function에서 계산되어 나오는..

Training Technique: Data Pre-processing, Weight Initialization, Feature Normalization

Training Technique들에 대해서 포스팅할 예정이다. 그 중에서 data pre-processing과 weight initialization, Feature Normalization을 그 종류와 적용이유 위주로 정리하였다. 😶 Data Preprocessing training을 더 쉽게 하기 위해 input data를 조정하는 것이다. ✔️ Preprocessing의 종류 종류에는 아래와 같은 것들이 있다. # Mean Substraction 원점(origin)주위로 데이터를 centering하는 처리다. # Normalization✨✨✨ 데이터의 dimension을 비슷한 scale로 조정하는 방법. 다른 scale의 dimension을 가진 데이터들이 결과에 영향을 미치는 정도가 다르기 때..

Backpropagation

2022.08.21 - [Data Science/ML | DL] - Optimization: Random Search부터 Gradient Descent까지 Optimization 방법으로 대표적인 Gradient Descent 방식의 개념을 배웠다. Optimization: Random Search부터 Gradient Descent까지 Optimization이란?😶 optimization은, 말 그대로 모델의 파라미터를 '최적화'하는 것이다. cost function이 최소가 되도록 하는 파라미터가 무엇인지, 그것을 찾는 것이 optimization이라고 이해하면 되겠다. Ra dippingtodeepening.tistory.com Gradient Descent는 Loss Function을 weight에..

Affine Coupling Layer 개념 보충

FastFlow 등 Anomaly Detection 모델에 사용되는 coupling layer 구조 중 Affine Coupling Layer를 잘 이해하기 위해 정리함. ✔️Affine Coupling Layer Affine Transformation: z = Ax+b의 형태로 (scaling과 shifting)바꿔주는 것. 이와 같은 affine transformation을 이용하여 것이 Affine Coupling Layer. 전체 D Dimension을 1~d dimension과 d+1~D dimension으로 나눠서 진행 (절반으로 나눠서 (coupling) 진행한다고 이해하기) 1~d dimension은 y=x 형태의 연산(입력 그대로를 출력으로) 진행 d+1~D dimension은 affin..

[논문리뷰] OOD 논문리뷰

🎈Do Deep Generative Models Know What They Don’t Know? (2019) High Ood Likelihood 본적 없는 데이터셋에 대해서 더 낮은 BPD(Log-Likelihood의 대용으로 낮을수록 likelihood가 높은 것이라고 이해)를 보이는 현상을 발견. Normalizing Flow 모델의 object function 중 어떤 term이 문제인지 알아보기 위해 test, 결과적으로 term2에서 high ood likelihood를 발견. 문제의 원인을 term2라고 결론짓지 않고, normalizing flow 기반 모델 자체의 일반화 어려움이 원인이라고 결론지음. 입력데이터에 따라 민감하게 학습⇒ Generalization에는 약함. **특히 term2..

[논문리뷰] CS-Flow: Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection

2022 논문 https://openaccess.thecvf.com/content/WACV2022/papers/Rudolph_Fully_Convolutional_Cross-Scale-Flows_for_Image-Based_Defect_Detection_WACV_2022_paper.pdf Cross Scale Normalizing Flow. 여러 scale 정보를 함께 활용해 Normalizing Flow를 학습 Jointly processes multiple feature maps of different scales. 기존 모델의 문제점😶 1. AD field 데이터 특징에 맞지 않는 기존모델들 Anomaly Detection 문제에서의 데이터는 대부분 small intra-class variance &..

[논문리뷰] CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localizationvia Conditional Normalizing Flows

https://openaccess.thecvf.com/content/WACV2022/papers/Gudovskiy_CFLOW-AD_Real-Time_Unsupervised_Anomaly_Detection_With_Localization_via_Conditional_Normalizing_WACV_2022_paper.pdf 기존 방식에 positional encoding을 추가하여 decoder에서 Normalizing Flow를 학습함. 이전 모델의 문제점😶 Real Time System에 맞지 않는 클러스터링 기반 모델들 SPADE와 같은 모델은 KNN기반의 모델들. Clustering에 기반한 이런 모델들은 high-dimensional data에 대해서 test time이 긴 것이 단점. 이는 Rea..

[논문리뷰] DifferNet - Same Same But DifferNet:Semi-Supervised Defect Detection with Normalizing Flows

https://openaccess.thecvf.com/content/WACV2021/papers/Rudolph_Same_Same_but_DifferNet_Semi-Supervised_Defect_Detection_With_Normalizing_Flows_WACV_2021_paper.pdf 기존 기술의 문제점😶 ✨Supervised Learning 기존 supervised learning method는 새로운 detection에 취약. 특정 유형의 anomalous data를 잘 학습한다고 해도 manufacturing과정에서 어떤 다른 유형의 defect가 나올지 예측하는 것이 불가능함. ✨Bad at Subtle Problem Anomaly detection은 주로 normal sample과 거의 비슷..

[논문리뷰] PatchCore - Towards Total Recall in Industrial Anomaly Detection

PaDiM과 SPADE를 합친 모델. memory bank 사용 (1) maximizing nominal information available at test time (2) reducing biases towards ImageNet classes (3) retaining high inference speeds. 에서 effective remedy를 가진다고 강조. 기존 모델의 한계점 (PaDiM, SPADE)😶 [SPADE] KNN 시간이 오래걸림. (train data의 양에 따라 inference time이 비례해 늘어남) ⇒ alignment가 되어있어야 함. [PaDiM] Alignment가 잘 되어 있다는 가정 하에 진행. SPADE, PaDiM과의 관계😶 [SPADE] SPADE는 nomin..

[논문리뷰] PaDiM - PaDiM: a Patch Distribution Modeling Frameworkfor Anomaly Detection and Localization

Pretrained Model중 몇 개의 layer를 뽑아 그걸로 embedding vector를 만들고, distribution을 구하는 방식 이미지 전체가 feature가 아니고, 이미지를 패치로 나누어 각각에 대한 Mahalanobis Distance를 구하여 anomaly score를 계산하는 방식. Localization에 유리한 모델. 아래 두 가지 큰 특성으로 모델을 요약할 수 있음. 각 patch position은 multivariate Gaussian Distribution을 따른다. Pretrained CNN의 다른 semantic level간의 correlation을 고려한다. 기존모델의 한계점😶 Deep Neural Network를 training을 통해 최적화하는 과정이 필요 / ..