Safety Guardrail System

소프트웨어 안전 장치
통합 아키텍처

ERICA Career Chat은 학생들의 진로 데이터를 보호하고 신뢰할 수 있는 정보를 제공하기 위해 5단계의 독립적인 안전 레이어를 운영합니다. 모든 검사는 Fail-Closed 원칙을 따르며, 부적절한 요청과 답변은 실시간으로 필터링됩니다.

Layer 1 입력 안전 검사 (Input Safety)

사용자가 입력한 질문에 포함된 악의적인 의도(인젝션)와 개인정보(PII) 노출을 차단합니다. 첫 번째 관문으로서 시스템의 무결성을 유지합니다.

핵심 지표: 18개 테스트 시나리오 통과 / PII 탐지율 100% / 인젝션 방어율 100%
레이어 1 사례 및 기술 상세 보기
Layer 2 소스 안전 정책 (Source Safety)

검색된 정보(RAG Sources) 내부에 숨겨진 적대적 명령어나 안전하지 않은 링크, 불필요한 개인정보를 사전에 제거하여 모델에 전달합니다.

핵심 지표: 5개 주요 소스 정제 케이스 통과 / 악성 링크 100% 격리
레이어 2 사례 및 기술 상세 보기
Layer 3 근거 증명 정책 (Evidence Policy)

추출된 근거 자료가 사용자의 질문에 답변하기에 충분히 구체적이고 신뢰할 수 있는지 판단합니다. 근거가 부족할 경우 환각(Hallucination) 방지를 위해 답변을 거부합니다.

핵심 지표: 8개 정밀 근거 검증 통과 / 3-Tier 거부 로직 적용
레이어 3 사례 및 기술 상세 보기
Layer 4 프롬프트 엔지니어링 가드 (Prompt Guard)

모델에 전달되는 프롬프트 구조를 정교하게 설계하여, 외부 데이터(untrusted)가 시스템 지시(System Prompt)를 침범하지 못하도록 격리합니다.

핵심 지표: 8개 구조적 인젝션 테스트 통과 / 데이터 신뢰 수준(Trust Level) 마킹 적용
레이어 4 사례 및 기술 상세 보기
Layer 5 출력 검증 (Output Validation)

사용자에게 답변이 노출되기 직전의 마지막 단계로, 허위 보장, 부적절한 인증 유도, 숨겨진 인용 누락 등을 최종 검증합니다.

핵심 지표: 64개 출력 필터링 테스트 통과 / 보장성 문구 100% 탐지
레이어 5 사례 및 기술 상세 보기