파이프라인

데이터

약 1분 읽기

데이터의 수집, 가공, 모델 학습, 배포에 이르는 일련의 처리 과정을 자동화된 흐름으로 연결한 시스템입니다. 데이터 정합성 유지와 재현 가능한 실험 환경 구축을 통해 운영 효율성을 높입니다.

다른 이름

PipelineML Pipeline데이터 파이프라인

상세 설명

파이프라인은 원천 데이터가 가치 있는 정보나 예측 모델로 변환되기까지의 전 과정을 자동화된 워크플로우로 연결한 것입니다. 데이터 엔지니어링의 ETL 파이프라인은 데이터의 이동과 변형에 집중하며, ML 파이프라인은 학습, 검증, 배포 및 자동 재학습(CT)을 포함하는 순환 구조를 가집니다. 최근에는 생성형 AI를 위한 RAG 파이프라인으로 확장되어 비정형 데이터의 청킹(Chunking)과 벡터화 과정이 핵심 요소로 부각되고 있습니다. 잘 설계된 파이프라인은 수동 작업을 최소화하여 실험의 재현성을 보장하고, 운영 중 발생하는 장애에 대한 관측 가능성(Observability)을 제공합니다.

도구 선택에서 중요한 이유

AI 도구 선택 시 파이프라인의 가시성(Observability)과 모듈화 수준을 반드시 확인해야 합니다. 단순 자동화를 넘어, 데이터 소스 변경 시 모델 성능 변화를 추적할 수 있는지, 특정 단계에서 실패했을 때 부분 재실행이 가능한지가 운영 비용을 결정합니다. 특히 LLM 시대에는 비정형 데이터를 실시간으로 처리하는 능력과 벡터 DB와의 유기적인 통합 여부가 핵심 선택 기준입니다.

확인할 점

재현 가능성: 동일한 코드와 데이터로 언제든 같은 결과의 모델을 생성할 수 있는가?
관측 가능성: 단계별 로그와 지표를 통해 병목 구간이나 오류를 즉각 파악할 수 있는가?
확장성: 데이터 양이나 워크로드 증가에 따라 컴퓨팅 자원을 유연하게 확장하는가?
데이터 계약: 데이터 스키마 변경이 파이프라인 하단부에 미치는 영향을 제어할 수 있는가?

예시

RAG(검색 증강 생성) 파이프라인: PDF 문서 수집 → 텍스트 추출 및 정제 → 임베딩 모델을 통한 벡터화 → 벡터 데이터베이스 저장 → 사용자 질문 기반 유사 문서 검색 → LLM 응답 생성을 거치는 자동화된 흐름입니다.

헷갈리기 쉬운 용어

워크플로우 (Workflow)

비즈니스 프로세스 전반을 포함하는 상위 개념으로, 사람의 승인 단계나 비IT 작업을 포함할 수 있습니다.

ETL

파이프라인의 일종으로, 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 데이터 엔지니어링 과정에 특화되어 있습니다.

참고 링크

전체 용어 목록

파이프라인

상세 설명

도구 선택에서 중요한 이유

확인할 점

예시

헷갈리기 쉬운 용어

워크플로우 (Workflow)

ETL

관련 AI 도구

파이프시프트

오픈파이프

관련 용어

참고 링크