Kgaroo
점프의 정치학
강걸우의 AI정치놀이터
문서 홈으로

데이터 파이프라인

소스 수집부터 공개 스냅샷까지

이 페이지는 캥거루 점프 엔진이 어떤 데이터를 어디서 가져오고, 어느 단계에서 공개 예측에 반영하는지 설명합니다. 핵심 원칙은 단순합니다. 원문 작업 자료는 공개하지 않고, 검수된 입력과 집계 리포트만 웹에 노출합니다.

페르소나
1,000,000명
개별 행 비공개
인구 기준
공식 인구 기준
44,519,085명 보정
확인 후보
643건
출마 중 626건
반영 여론조사
12건
11건 참고/보류

단계별 처리 흐름

1

수집

공식/공개 표면에서 원천을 가져오되 원문 작업 자료는 공개하지 않습니다.

2

정규화

지역명, 선거 종류, 후보 상태, poll 필드, 인구 셀을 같은 키 체계로 맞춥니다.

3

신뢰도 평가

공식성, 필수 필드, coverage, 최신성, 모델 입력 성격으로 네 단계 신뢰도 라벨을 붙입니다.

4

공개 반영

필수 항목이 충족된 자료만 공개 예측 후보가 되고, 부족한 자료는 blocker가 아니라 낮은 신뢰도 라벨로 구분합니다.

5

엔진 실행

확인된 후보, 여론조사 반영 상태, 인구 보정, 공약·뉴스 요약과 신뢰도 라벨을 묶어 새 예측판을 만듭니다.

6

공개 검증

개인 정보, 원문 자료, 비공개 경로가 섞이지 않았는지 확인한 공개 스냅샷만 앱이 읽습니다.

7

시나리오 분기

사용자 실험실 입력은 공식 스냅샷을 덮지 않고 별도 scenario run으로 저장합니다.

소스별 계약

합성 페르소나

대표 집단과 인구 보정의 기본 표면

NVIDIA Nemotron-Personas-Korea합성 가정
공개 제외
개별 행은 공개하지 않음
화면 반영
집계 규모와 보정 상태

후보·과거 선거

과거 득표 기준선, 후보 반영 범위, 후보 이력

선관위 공개 자료와 과거 선거 결과공식·고신뢰
공개 제외
확인 전 원문은 공개하지 않음
화면 반영
후보 반영 범위와 예측 요약

여론조사

공개 표시 요건 확인 후 여론조사 반영 후보

선거여론조사심의위 주요 데이터공식·고신뢰
공개 제외
필수 공개 필드가 빠진 상세 자료는 예측에서 제외
화면 반영
공개 표시 요건을 충족한 여론조사 수와 반영 상태

인구 기준

시·도/시·군·구/연령/성별 가중치

KOSIS/MOIS 공식 표공식·고신뢰
공개 제외
행 단위 원자료는 공개하지 않음
화면 반영
공식 인구 기준 사용 여부와 집계 상태

뉴스

이슈 신호 후보와 설명용 메타데이터

RSS/search 메타데이터참고 신호
공개 제외
기사 전문 저장 금지
화면 반영
뉴스 건수와 요약 신호

공약

정책 영역별 후보 신호

후보·정당 공개 자료검증 공개
공개 제외
원문과 첨부는 공개하지 않음
화면 반영
공약 영역별 요약

사용자 실험실 입력

공식 예측과 분리된 시나리오 변화량

로그인 사용자 시나리오와 private Storage 첨부합성 가정
공개 제외
raw 첨부·OCR 원문·캡처는 공개하지 않음
화면 반영
컴파일된 이벤트 요약과 사용자 본인 run 결과

신뢰도 라벨 판정 규칙

신뢰도 라벨은 사용자가 결과의 근거 수준을 구분하기 위한 표시입니다. 낮은 라벨은 실패나 차단을 뜻하지 않습니다. 해당 입력이 예측에서 얼마나 강한 근거로 쓰이는지, 어디까지 참고해야 하는지를 알려줍니다.

공식·고신뢰

high

공식 기관 자료이거나 공개 계약의 필수 필드, 출처, 기준 시점, coverage가 모두 맞는 데이터입니다.

예측 결과와 공개 수치의 기준값으로 사용합니다.

검증 공개

medium

공개 출처와 필수 메타데이터가 있으나 coverage, 최신성, 해석 범위에 제한이 있는 데이터입니다.

예측 보정과 설명에는 쓰되 품질 라벨과 함께 표시합니다.

참고 신호

low

뉴스 메타데이터, 검색 결과, 공약 요약처럼 방향성은 주지만 단독 사실로 쓰기 어려운 신호입니다.

지역 설명과 이슈 민감도 보조 신호로만 사용합니다.

합성 가정

synthetic

NVIDIA 합성 페르소나처럼 실제 개인이 아니라 대표 집단 계산을 위한 합성·모형 입력입니다.

집계 시뮬레이션과 보정 기준으로만 사용하고 개인 추론에는 쓰지 않습니다.

저장형 실험실 실행 흐름

실험실은 공개 예측판을 수정하는 관리자 도구가 아니라, 로그인 사용자가 기준 스냅샷 위에 합성 가정을 얹어 보는 개인 작업 공간입니다. 같은 프로젝트 안에서 입력, 첨부 요약, 컴파일 이벤트, queued run, completed result가 연결되지만 `public/data` 파일은 바뀌지 않습니다.

컴파일 보류 정책

후보·정당·지역을 확정할 수 없는 입력은 임의 추론하지 않습니다. 이 경우 질문을 남긴 `needs_clarification` 입력으로 저장하고, 실행 가능한 `ScenarioEvent`를 만들지 않습니다.

실행 결과 표면

completed run은 지역, 기준/시뮬레이션 1위, 득표율, 예상 득표수, 승리확률 변화, 불확실성 변화, 대표 코호트 설명만 표시합니다. private 원문과 storage path는 결과 표면에 들어가지 않습니다.

후보 반영 현재값

시·도지사

준비됨
확인 후보
85건
출마 중
68건
이력 보존
17건
반영 지역
15/1

후보 기준 공개 가능

시장·군수·구청장

준비됨
확인 후보
519건
출마 중
519건
이력 보존
0건
반영 지역
227/220

후보 기준 공개 가능

국회의원 재·보궐

준비됨
확인 후보
39건
출마 중
39건
이력 보존
0건
반영 지역
14/14

후보 기준 공개 가능

인구·여론조사 준비도

공식 인구 기준 상태는 공식 인구 기준 준비됨입니다. 현재 공식 인구 기준 자료는 준비되어 있고, 공개 계약을 충족한 인구 기준 행은 272건입니다.

필수 검수 항목은 시·도, 연령대, 성별, 인구, 출처 표, 자료 기준 기간, 출처 링크, 검수 상태입니다.

공식 인구 기준은 필수 항목이 빠지거나 출처가 맞지 않으면 공개 예측에 반영하지 않습니다.

보완 중인 인구 기준 경로가 남아 있습니다.

NESDC 여론조사는 공개 반영 12건, 검수 대기 11건입니다. 가장 많이 빠진 항목은 조사 기간 11건, 조사 지역 11건, 공개 표시 요건 확인 11건, 조사 방식 11건, 조사기관 11건, 공표일 11건입니다.

스냅샷 변경 입력은 근거 매니페스트, 엔진 실행 리포트, candidate_acceptance_readiness, 여론조사 검수 준비도, goal_completion_readiness입니다.

아직 필요한 선거 종류는 없음입니다.

보완 중인 후보 수집 경로가 남아 있습니다.