"AI 텍스트의 지표"란 인간이 작성한 글과 AI가 생성한 글을 구별하거나 특징을 파악하기 위한 문체적, 통계적, 구조적 단서들을 의미한다.
이러한 지표는 AI 탐지기 개발, 저작권 보호, 학술 부정 방지, 생성형 AI의 신뢰성 평가 등에 매우 중요하다.
✅ 1. 언어적·문체적 지표 (Linguistic & Stylistic Features)
구분 | 설명 | AI 텍스트 특징 |
어휘 다양성 (Lexical Diversity) | 다양한 단어를 사용하는 정도 | 낮은 편 (반복적 단어 사용) |
평균 문장 길이 | 문장당 단어 수 | 일정한 길이 유지, 중간 정도 |
전형적 표현 패턴 | 자주 사용하는 문장 구조 | "It is important to note that", "One key aspect is..." 등 |
중립적·완곡한 어조 | 감정이 배제된 설명 위주 | 강한 감정보다는 중립적 기술 선호 |
전환어 사용 빈도 | furthermore, however, in conclusion 등 | 과도하게 체계적인 전개 |
동어반복 | 같은 개념을 다른 말로 반복 | 의미 변화 없이 다양한 표현 사용 |
관계절/수식어 과다 | 명사를 수식하는 문장 삽입 | 긴 복합문으로 설명적 어투 유지 |
✅ 2. 형식·구조적 지표 (Structural Features)
구분 | 설명 | AI 텍스트 특징 |
제목-본문 간 일관성 | 제목과 내용이 얼마나 밀접한가 | 매우 일치, 주제 중심으로 구성 |
단락 구조의 규칙성 | 서론-본론-결론의 구성 여부 | 고정된 구조 자주 사용 |
문단 길이 균등성 | 문단마다 길이가 일정한가 | 일정한 분량 유지 경향 |
논리 전개 방식 | 논거, 사례, 결론의 연결 방식 | 예측 가능한 흐름 (ex. 주장→근거→요약) |
✅ 3. 통계적 지표 (Statistical Features)
지표 | 설명 | 특징 |
퍼플렉서티 (Perplexity) | 텍스트가 얼마나 예측 가능한지를 수치화한 값 | 낮을수록 AI 가능성 ↑ |
버스트니스(Burstiness) | 문장마다 길이, 어휘의 변동성 | AI는 균등한 버스트(즉, 낮은 변동성) |
n-그램 반복율 | 특정 단어 조합(n-gram)이 반복되는 비율 | GPT는 자주 쓰는 조합 반복 경향 있음 |
자기일치성(Self-similarity) | 문단 간 유사도 | AI는 유사한 문장구조 반복 ↑ |
✅ 4. 기호·문장 부호 지표 (Punctuation & Symbol Use)
요소 | AI 텍스트 경향 |
엠 대시 (—) | 강조 표현으로 자주 사용됨 |
콜론 (:) | 설명 연결용으로 많이 등장 |
세미콜론 (;) | 인간보다 자주 쓰는 경우 많음 |
인용부호 (“”) | 직접 인용보다 설명적 재진술 선호 |
✅ 5. 의미적 지표 (Semantic Features)
항목 | AI 경향 |
맥락 일관성 | 문맥 흐름은 부드럽지만 깊이는 부족한 경우 많음 |
창의성 | 아이디어는 논리적이지만 기발함·독창성 부족 |
감정 표현 | 감정을 담기보다는 설명에 치중 |
사실 오류 유무 | 사실처럼 보이지만 실제로는 틀린 정보 포함 가능성 있음 (hallucination) |
Comments
Post a Comment