In the manufacturing process of semiconductor products, many production steps are required, involving the use of different machines. It is difficult to eliminate or identify dysfunctions at each stage of treatment. Operating conditions in a process control environment can often change, whether intentionally or unintentionally. This is why the identification of KPIVs (Key Process Input Variables) is essential to enable rapid recovery, optimization and control. The goal of this case study is to develop a causal feature selection approach that applies to this domain, helps to solve process control issues and enhance overall business improvement strategies.
For that, we are going to use the UCI SECOM Dataset. The first file contains 1567 examples, each having 591 features, thus forming a matrix of dimensions 1567 x 591. The second file is a label file which contains the classifications and timestamps corresponding to each example. As with all real data situations, this data may contain null values that vary in intensity based on individual characteristics. Not only that, but the data set it is also imbalanced, since contains only 104 fails (6.6 % examples).
Dataset avaliable in: https://archive.ics.uci.edu/ml/datasets/SECOM
(Tradução PT)
No processo de fabricação de produtos semicondutores, muitas etapas de produção são necessárias, envolvendo o uso de diferentes máquinas. É difícil eliminar ou identificar disfunções em cada etapa do tratamento. As condições de operação em um ambiente de controle de processo podem frequentemente mudar, intencionalmente ou não. É por isso que a identificação de KPIVs (Key Process Input Variables) é essencial para permitir uma rápida recuperação, otimização e controle. O objetivo deste estudo de caso é desenvolver uma abordagem de seleção de características causais que se aplique a este domínio, ajude a resolver problemas de controle de processos e a aprimorar estratégias gerais de melhoria de negócios.
Para isso, vamos usar o UCI SECOM Dataset. O primeiro arquivo contém 1567 exemplos, cada um com 591 feições, formando assim uma matriz de dimensões 1567 x 591. O segundo arquivo é um arquivo de etiquetas que contém as classificações e timestamps correspondentes a cada exemplo. Como em todas as situações de dados reais, esses dados podem conter valores nulos que variam em intensidade com base nas características individuais. Não apenas isso, mas o conjunto de dados também é desequilibrado, pois contém apenas 104 falhas (6,6% exemplos).
Conjunto de dados disponível em: https://archive.ics.uci.edu/ml/datasets/SECOM