BASHA TECH

A dataset for deep learning based detection of printed circuit boardsurface defect 본문

TXT/Papers

A dataset for deep learning based detection of printed circuit boardsurface defect

Basha 2026. 1. 28. 16:52
728x90
  • 제목: A dataset for deep learning based detection of printed circuit board surface defect
  • 저자: Shengping Lv, Bin Ouyang, Zhihua Deng, Tairan Liang, Shixin Jiang, Kaibin Zhang, Jianyu Chen, Zhuohui Li
  • 발표 연도: 2024년
  • 게재 학술지: Scientific Data (Nature Portfolio)

 

기존 PCB 결함 데이터셋의 한계(인위적 합성 데이터, 부족한 클래스 다양성, 불균형한 데이터 분할 등)를 극복하기 위해, 실제 제조 현장의 데이터를 기반으로 9개 범주의 결함을 포함하는 대규모 고품질 공개 데이터셋인 DsPCBSD+를 구축하여 딥러닝 기반 결함 검출 연구를 가속화하고자 함.

 

이 논문의 방법론 부분만 집중적으로 분석표

단계 주요 활동 내용
세부 사항 및 기술적 요소
1. 데이터 수집 실제 공정 이미지 확보
- 출처: Guangzhou FastPrint Technology Co., Ltd.의 실제 생산 라인



- 장비: AGLE'OL AOI-100 V8 장비 사용



- 방식: 16K 고해상도 라인 스캔 시스템 및 LED 스포트라이트 조명



- 확보량: 관리 시스템에서 직접 추출한 32,259장의 초기 이미지
2. 결함 분류 및 전처리 분류 체계 재정의 및 필터링
- 분류: 원인에 따라 4개 주범주, 형태/위치에 따라 9개 세부 범주로 확립



- 중복 제거: Hash value matching 기법을 통한 유사 이미지 필터링



- 데이터 정제: 결함 없는 이미지, 불완전한 결함, 2D로 판별 불가능한 결함 수동 제외





- 샘플 균형: 희귀 결함(Open, Short)은 전수 포함, 흔한 결함(CFO, BMFO)은 무작위 샘플링으로 균형 조절
3. 라벨링 및 데이터 분할 어노테이션 및 셋 구성
- 도구: LabelImg 소프트웨어 활용



- 형식: VOC 스타일로 시작하여 YOLO 및 COCO 형식으로 변환




- 최종 통계: 10,259개 이미지 내 20,276개의 결함 바운딩 박스 라벨링



- 분할 비율: 학습용(Training)과 검증용(Validation) 데이터를 8:2 비율로 무작위 분할

 

결함 분류 세부 항목 (9 Categories)

  1. Short (SH): 잔류 구리로 인한 도체 간 의도치 않은 연결
  2. Spur (SP): 도체 가장자리의 불규칙한 돌기
  3. Spurious copper (SC): 기판 위 원치 않는 구리 잔여물
  4. Open (OP): 도체 경로의 단절
  5. Mouse bite (MB): 도체 가장자리의 미세한 함몰
  6. Hole breakout (HB): 홀 중심 편차로 인한 구리 재료 부족
  7. Conductor scratch (CS): 도체 표면의 선형 긁힘
  8. Conductor foreign object (CFO): 도체 위의 이물질 또는 오염
  9. Base material foreign object (BMFO): 기판(Base material) 또는 홀 내부의 이물질

주요 결과

  • 데이터셋 규모: 총 10,259장의 이미지($226\times226$ 픽셀)와 20,276개의 어노테이션 박스를 포함한다
  • 모델 성능 검증: 최신 객체 탐지 모델인 Co-DETR과 YOLOv6-L6를 사용하여 검증한 결과, 각각 0.8480.851의 mAP($IoU=0.50$)를 기록하여 데이터셋의 신뢰성을 입증함.
  • 객체 크기 분포: 전체 결함의 66.65%가 소형(Small), 28.9%가 중형(Medium), 4.45%가 대형(Large)으로 구성되어 실제 공정의 복잡성을 반영함

한계점 및 향후 과제

  • 2차원 데이터의 한계: AOI 카메라의 특성상 3D 깊이 정보가 없어, 높낮이가 있는 결함(recessed areas 등)은 식별이 어려움
  • 공정 단계의 국한: 에칭(Etching) 후 내/외층 기판 이미지만 포함하고 있으며, 솔더 마스크(Solder mask) 이후의 결함은 고려되지 않았음
  • 부분 이미지: 전체 보드 이미지에서 크롭된 국소 영역 데이터이므로, 실제 적용 시에는 전체 보드 내 결함 위치를 마킹하는 통합 시스템이 필요.

통계적 유의성 및 신뢰성 분석 (Statistical Significance & Reliability)

본 연구는 데이터셋의 신뢰성을 확보하기 위해 교차 검증 및 전문가 검수 등 다각적인 통계적·방법론적 검증을 수행하였습니다.

  • 5-Fold 교차 검증 (Five-fold Cross-validation):
    • 데이터셋 분할의 우연성을 배제하기 위해 전체 데이터를 5개의 그룹으로 나누어 순차적으로 검증을 수행하였습니다.
    • 검증 결과, Co-DETRYOLOv6-L6 모델의 성능 지표가 원래의 분할 결과와 비교했을 때 미미한 편차만을 보였습니다.
    • 이는 본 데이터셋이 전체 표본 공간을 효과적으로 대표하고 있으며, 데이터 구성이 안정적임을 시사합니다.
  • 전문가에 의한 엄격한 검수:
    • PCB 제조 업계에서 풍부한 경험을 가진 5명의 전문가가 모든 이미지와 라벨을 직접 전수 조사하였습니다.
    • 모호한 결함(유사 범주 간 중첩, 다중 요소 결함 등)에 대해서는 전문가 그룹의 공동 논의를 통해 라벨링 위치와 범주를 결정하여 주관적 편향을 최소화하였습니다.
  • 객체 크기별 성능 분석:
    • COCO 기준에 따라 결함 크기를 소(Small), 중(Medium), 대(Large)로 구분하여 통계적 성능을 분석하였습니다.
    • 소형 결함의 경우 약 0.40~0.42, 대형 결함의 경우 약 0.67의 정밀도를 보여, 결함 크기에 따른 모델의 탐지 한계를 수치적으로 명확히 제시하였습니다.
검증 항목 주요 수치 및 결과 통계적 의미
mAP (IoU=0.50) Co-DETR: 0.848 / YOLOv6-L6: 0.851
모델의 높은 범용 탐지 성능 입증
5-Fold mAP 편차 원본 데이터 결과와 최소한의 차이 발생
데이터 분포의 균질성 및 재현성 확보
라벨 분포 총 20,276개 라벨 (Train: 16,184 / Val: 4,092)
대규모 데이터 기반의 통계적 유의미성

샘플링의 한계점 (Sampling Limitations)

연구진은 데이터셋 구축 과정에서 발생할 수 있는 샘플링의 내재적 한계점을 다음과 같이 기술하고 있습니다.

  • 결함 범주 간 불균형 (Class Imbalance):
    • 실제 공정에서 Open(OP) 및 Short(SH) 결함은 발생 빈도가 낮으나 제품 폐기에 직결되는 치명적인 결함입니다.
    • 반면 CFO(도체 이물) 및 BMFO(기판 이물)는 발생 빈도가 매우 높습니다
    • 연구진은 OP/SH 결함 이미지를 전수 포함하고 타 범주를 샘플링하는 방식으로 균형을 맞추려 노력했으나, 여전히 범주 간 샘플 수의 차이가 존재합니다 (예: SP 4,584개 vs SH 915개).
  • 차원 및 정보의 제약 (Dimensional Limitation):
    • 사용된 AOI 장비가 2D 이미지만을 수집하므로 3D 깊이 정보가 결여되어 있습니다.
    • 이로 인해 돌출되거나 함몰된 형태의 결함(Raised/Recessed areas)은 물리적으로 탐지가 불가능한 샘플링적 한계가 있습니다.
  • 공정 단계의 편향 (Process Stage Bias):
    • 수집된 모든 샘플은 에칭(Etching) 직후의 내층 및 외층 기판 이미지로 한정됩니다.
    • 따라서 솔더 마스크(Solder mask) 도포 이후 발생하는 결함에 대해서는 본 데이터셋을 통한 학습 및 예측 성능을 보장할 수 없습니다.
  • 국소 영역 캡처 (Local Area Cropping):
    • 전체 보드 이미지가 아닌 226*226 픽셀의 국소 영역으로 크롭된 이미지들로 구성되어 있습니다.
    • 실제 현장 적용 시에는 이러한 국소 이미지를 전체 보드 상의 좌표와 통합하여 위치를 식별해야 하는 추가적인 시스템 설계가 요구됩니다.

A dataset for deep learning based detection of printed circuit board surface defect .pdf
2.53MB

728x90
반응형
Comments