Engines observed

Data

Data 엔진의 목적, 경계, 조합 기준을 Skill OS에서 확인하고 실행은 기능/docstring으로 내려간다.

engines.data GitHub 원본

절차

실행 순서

  1. 1

    1. 자동 파이프라인 — 핵심 데이터 워크플로우로 간다 기준을 확인한다.

  2. 2

    수집 경로 (가벼움 vs 무거움) 기준을 확인한다.

  3. 3

    2. Flow 1 — DART 수집 (dataSync.yml) 을 12h 주기로 돌린다 기준을 확인한다.

  4. 4

    2-1. Flow 1B — KindList 신규 종목은 별도 bootstrap 으로 보장한다 기준을 확인한다.

  5. 5

    3. Flow 2 — DART scan 프리빌드 (dataPrebuild.yml) 은 workflow_run 으로 이어진다 기준을 확인한다.

  6. 6

    **단일 책임**: DART 수집(dataSync) · DART 프리빌드(dataPrebuild) · EDGAR 전체(edgarSync) · 감사(dataAudit) 독립.

  7. 7

    **직렬화**: 모든 HF 업로드는 `concurrency.group: hf-dataset-push` 로 순차 처리 (sliding-window 429 회피).

  8. 8

    **workflow_run 체인**: KindList 완료 → 신규 종목 bootstrap, DART 수집 완료 → 자동 프리빌드 트리거 (EDGAR 는 edgarSync 내부 end-to-end).

  9. 9

    **backup**: `dataSync.yml workflow_dispatch mode=full` 로 88 분기 차집합 수동 실행.

예시

이런 질문이 들어오면 이 skill 을 쓴다

  • Data 규칙 확인
  • data 작업을 Skill OS에서 시작

출력

기대 결과

  • 작업 경로
  • 확인한 근거
  • 검증 결과

Skill OS 흡수 규칙

  • 이 skill이 공식 진입점이다. 삭제된 운영 문서 경로를 다시 안내하지 않는다.
  • 공개 호출 방식과 대표 반환 형태는 skill에서 확인하고, 세부 필드는 capability/docstring으로 검산한다.
  • 분석이나 변경 결과는 ref, 실행 로그, 테스트 결과로 검증한다.

실행 순서

    1. 자동 파이프라인 — 핵심 데이터 워크플로우로 간다 기준을 확인한다.
  • 수집 경로 (가벼움 vs 무거움) 기준을 확인한다.
    1. Flow 1 — DART 수집 (dataSync.yml) 을 12h 주기로 돌린다 기준을 확인한다.
  • 2-1. Flow 1B — KindList 신규 종목은 별도 bootstrap 으로 보장한다 기준을 확인한다.
    1. Flow 2 — DART scan 프리빌드 (dataPrebuild.yml) 은 workflow_run 으로 이어진다 기준을 확인한다.
  • 단일 책임: DART 수집(dataSync) · DART 프리빌드(dataPrebuild) · EDGAR 전체(edgarSync) · 감사(dataAudit) 독립.
  • 직렬화: 모든 HF 업로드는 concurrency.group: hf-dataset-push 로 순차 처리 (sliding-window 429 회피).
  • workflow_run 체인: KindList 완료 → 신규 종목 bootstrap, DART 수집 완료 → 자동 프리빌드 트리거 (EDGAR 는 edgarSync 내부 end-to-end).
  • backup: dataSync.yml workflow_dispatch mode=full 로 88 분기 차집합 수동 실행.

공개 호출 방식

  • dartlab.gather("price", "005930")
  • dartlab.scan("fields")
  • dartlab.Company("005930").show("finance")

호출 동작

  • Company, gather, scan이 사용할 원자료 위치와 freshness를 확인한다. 분석 결론보다 source table과 latestAsOf를 먼저 만든다.
  • 실행 전에 target, period/date, metric, source 또는 universe를 확인한다.
  • 데이터가 없거나 runtime 제한이 있으면 값을 추정하지 않고 한계와 필요한 다음 수집 경로를 말한다.

대표 반환 형태

  • dataset/table ref 또는 DataFrame을 반환한다. 핵심 컬럼은 provider, dataset, entity, period/date, metric, value, latestAsOf다.
  • 전체 세부 필드는 공개 docstring/capability와 동기화한다. 코드/API 변경으로 이 설명이 오래되면 skill 갱신 누락으로 본다.

기본 검증

  • 실행 결과는 tableRef, valueRef, dateRef, executionRef 중 필요한 근거로 남긴다.
  • 최종 판단의 숫자 claim은 해당 table/value ref에 직접 묶는다.
  • 스킬과 실제 공개 API의 호출 방식, 대표 반환 형태, 오류/제한 동작이 다르면 같은 변경에서 스킬을 갱신한다.

런타임

실행 환경별 호환성

환경상태비고 / 제한
Local Python supported
Server supported
MCP supported
Web AI supported
Pyodide limited
  • 실제 실행 가능 여부는 연결된 capability와 데이터 snapshot 범위를 따른다.

실패 회피

흔한 실패 · 절대 금지

흔한 실패
  • Skill OS 검색 없이 과거 문서 경로를 직접 찾음
  • API schema를 skill 본문에 중복해 docstring/기능와 어긋남
  • 검증 게이트 없이 변경 또는 답변을 완료 처리함
절대 금지
  • 삭제된 운영 문서 경로를 공식 진입점으로 안내하지 않는다.
  • 공개 호출 방식, 대표 반환 형태, 오류/제한 동작을 skill과 불일치한 채 방치하지 않는다.