AdversarialKit

예정

AI 모델 적대적 공격 실험 및 방어 기법 연구를 위한 Python 툴킷 — FGSM, PGD, C&W 공격 구현 포함

주요 기능

  • FGSM / PGD / C&W 공격 알고리즘 구현
  • PyTorch / TensorFlow 모델 지원
  • 공격 성공률 자동 벤치마킹
  • Adversarial Training 방어 기법
  • 시각화 도구 (공격 전/후 비교)
  • 사전 학습된 모델 예제 포함

AdversarialKit (출시 예정)

📅 이 툴은 출시 예정입니다. 관심 있으시면 GitHub에서 Star를 눌러 알림을 받으세요.

AdversarialKit은 AI/ML 모델의 적대적 공격(Adversarial Attack)과 방어 기법을 연구하기 위한 Python 툴킷입니다. 논문에서 제안된 주요 공격 알고리즘들을 구현하고, 실험 환경을 쉽게 구성할 수 있도록 설계됩니다.

예정 기능 미리보기

공격 알고리즘

from adversarialkit import FGSM, PGD, CW

# FGSM 공격
attacker = FGSM(model, epsilon=0.03)
adv_examples = attacker.attack(images, labels)

# PGD 공격
pgd = PGD(model, epsilon=0.03, steps=40, alpha=0.01)
adv_examples = pgd.attack(images, labels)

# C&W 공격
cw = CW(model, c=1.0, kappa=0, max_iter=1000)
adv_examples = cw.attack(images, labels)

방어 기법

from adversarialkit.defense import AdversarialTraining

# Adversarial Training
trainer = AdversarialTraining(
    model=model,
    attacker=PGD(model, epsilon=0.03),
    epochs=100
)
trainer.train(train_loader)

연구 배경

이 툴킷은 Adversarial Robustness 연구를 진행하면서 반복적으로 구현하게 되는 코드들을 모아 재사용 가능한 라이브러리로 만든 것입니다.

관련 논문 리뷰는 블로그에서 확인하실 수 있습니다.

출시 일정

2025년 2분기 내 첫 번째 알파 버전 출시를 목표로 개발 중입니다.