Technology

크롤에서 리포트까지, 한 흐름의 파이프라인

전수 크롤링 → 3중 취약점 탐지 → 악성코드 분석 → 로컬 AI 판정 → 규제 리포트. 페이지를 저장하지 않고, 외부로 데이터를 보내지 않으며, 읽기 전용으로만 동작합니다.

Pipeline

분석 파이프라인

크롤·악성코드·취약점·판정·리포트를 인라인 훅으로 연결해, 본문을 보존하지 않고도 한 흐름으로 분석합니다.

STEP 1

전수 크롤링

frontier에서 URL을 받아 BFS로 탐색하고, 인증 세션을 포함한 전체 자산을 인벤토리화합니다.

STEP 2

3중 취약점 탐지

알려진 취약점(CVE)·AI 추론(120B)·패시브 보안분석을 결합해 후보를 추출합니다.

STEP 3

악성코드 분석

다운로드 파일을 SHA-256 평판·IOC 조회와 CAPE 샌드박스 동적분석으로 판정합니다.

STEP 4

로컬 AI 판정

GX10 2-tier 로컬 LLM이 후보 스니펫을 검증·기각해 오탐을 제거합니다(캐시 인지).

STEP 5

규제 리포트

확인된 발견만 CVSS·CWE·OWASP·ISMS-P에 매핑한 감사 리포트로 발행합니다.

크롤 워커는 frontier에서 URL을 받아 fetch한 본문을 그 순간에만 메모리에 두고 룰로 후보를 추출합니다. 후보 스니펫만 로컬 LLM이 검증하고, 확인된 발견(Finding)만 적재합니다.

저장 비용은 페이지 수가 아니라 발견 수에 비례하므로, 1000만 페이지여도 저장은 수만~수십만 발견 수준에 머뭅니다.

★ 핵심 강점 · AI 추론 취약점 탐지 아키텍처

로컬 120B 딥 추론 에이전트

WebCIA 2.0은 넓이(전수 크롤 + 패시브 + LLM 판정)와 깊이(추론 에이전트)를 결합한 하이브리드 분석을 수행합니다. 깊이 단계에서 로컬 120B 모델이 고가치 엔드포인트의 맥락을 추론해, 패턴 규칙으로는 표현되지 않는 인젝션·인증우회·정보노출 가설을 도출합니다. 추론은 전부 GX10 로컬 LLM에서만 실행되어 데이터 망외 송출은 0입니다.

🧠 2-tier 모델 정책

고속 판정 모델은 항시 상주, 120B 추론 모델은 애매·고심각 발견에만 온디맨드 로드 후 유휴 시 언로드합니다.

🧩 룰 + LLM 결합

내부 룰 기반 가설 엔진(노드 9분류 → CWE 매핑)을 시드로 LLM이 평가·보강 — 결정적 커버리지 + 추론.

🛡️ 방어적 추론

새 공격 요청 없이, 크롤 중 캡처한 컨텍스트만으로 추론 — 대상 변경·페이로드 전송 없음.

✅ 증거 기반 격상

추론 가설은 AI_INFERRED_NEEDS_VALIDATION → 무해 GET 실증 시 CONFIRMED로 격상합니다.

💰 비용 통제

상위 우선순위 후보(max_deep_targets)만 120B 심층 추론에 보내 동기·대용량 잡 모두 비용을 통제합니다.

🔒 완전 로컬

외부 LLM(anthropic/openai) SDK 미사용 — GX10 로컬 추론, 데이터 망외 송출 0.

도입 절차 보기 3중 탐지 상세

로컬 AI 판정 · 2-tier

룰이 낸 모든 발견을 로컬 LLM이 확인/기각해 오탐을 제거합니다. 외부로 한 바이트도 나가지 않습니다.

✓캐시 인지 판정 — (finding_type, 증거 시그니처)를 키로 동일 패턴은 1회만 호출, sublinear 확장
✓fail-open 보존 — LLM 미가용·파싱 실패 시 발견을 보존(via=heuristic)
✓외부 송출 0 — Ollama 호환 로컬 엔드포인트만 사용

2-tier 모델 구성

✓항시 상주: 고속 판정 모델 + 임베딩(keep_alive)
✓온디맨드: 120B MoE 추론 모델(고심각·애매 발견)
✓에스컬레이션 임계로 120B 호출 통제
✓요청별 모델·추론강도 재정의 가능

read-only 방어 원칙

WebCIA 2.0은 점검 도구이지 공격 도구가 아닙니다. 모의해킹(공격 실행)은 제품 범위에서 제외됩니다. 라이브러리 레벨에서 POST/PUT/DELETE를 거부해 GET/HEAD만 사용하고, 호스트 allowlist + 경로 prefix/금지 패턴을 fail-closed로 적용합니다. per-host 토큰버킷 rate-limit과 429/503 Retry-After 존중·지수 백오프로 사이트 부하를 통제하며, 인증 헤더는 [REDACTED], 응답 본문은 미저장(SHA-256 해시만)합니다. 고객이 승인한 자기 사이트만, 식별 가능한 스캐너로 동작합니다(WAF/IPS allowlist 권장).

Scale

대용량 아키텍처 (5M~10M 페이지)

frontier·visited·sink 백엔드를 교체 가능하게 추상화해, 단일 노드부터 Redis 분산까지 같은 엔진으로 확장합니다.

역할	단일 노드(기본)	대용량 / 분산
Frontier (URL 큐)	InMemory (asyncio.Queue)	Redis Frontier — 다중 워커 공유·영속·재개
Visited (중복제거)	정확 InMemory	Bloom (천만 URL ≈ 수십 MB) 또는 Redis SET
Finding Sink	InMemory	OpenSearch / ClickHouse / DB — 발견만 스트리밍
Rate gate	프로세스 전역 rps	Redis 토큰버킷 — 노드 간 전역 rps
LLM 판정	로컬 추론 + 캐시	로컬 LLM 서버 풀(배치·동시성 제한)

WARC 저장·재분석: 크롤하며 페이지를 .warc.gz로 순차 저장하고(JSONL 인덱스), 저장 코퍼스에 새 CVE 룰·IOC·LLM 모델을 재적용해 재크롤 없이 즉시 재평가합니다.

CVE

Common Vulnerabilities and Exposures. 공개된 알려진 취약점에 부여되는 식별자. 컴포넌트 핑거프린팅 후 NVD와 매칭합니다.

CVSS

Common Vulnerability Scoring System (3.1). 취약점 심각도를 0–10으로 정량화하는 표준 점수 체계.

CWE

Common Weakness Enumeration. 취약점의 근본 약점 유형을 분류하는 체계. 발견에 CWE를 부착해 원인을 식별합니다.

OWASP Top 10

웹 애플리케이션의 가장 치명적인 보안 위험 10가지(2021). 발견을 카테고리에 매핑합니다.

ISMS-P

정보보호 및 개인정보보호 관리체계 인증. 국내 기업의 보안·개인정보 관리 수준을 인증하는 제도.

WARC

Web ARChive. 크롤한 페이지를 표준 형식으로 저장하는 웹 아카이브 포맷. 재크롤 없이 재분석에 사용합니다.

Deployment

온프레미스 · 망분리 친화

운영 호스트에 설치해 고객 데이터가 외부로 나가지 않도록 합니다. 로컬 LLM과 인바운드 API만으로 동작합니다.

아키텍처 문의