ETL
용어 이름 복사
기술 용어약 1분 읽기
분산된 원천 데이터(Source)를 추출하여 분석에 적합한 형태로 변환한 뒤, 목적지(Target)인 저장소에 적재하는 핵심 데이터 통합 프로세스입니다.
다른 이름
Extract Transform Load데이터 파이프라인
상세 설명
ETL(Extract, Transform, Load)은 서로 다른 시스템에서 데이터를 추출하고, 정제·결합 등 비즈니스 규칙에 맞게 변환한 뒤 데이터 웨어하우스에 저장하는 일련의 과정입니다. 전통적인 데이터 분석뿐만 아니라, AI 모델의 성능을 결정짓는 고품질 학습 데이터셋 구축과 RAG(검색 증강 생성) 시스템을 위한 비정형 데이터 전처리의 핵심 기반이 됩니다. 최근에는 클라우드 연산 능력을 활용해 먼저 적재하고 나중에 변환하는 ELT 방식으로 진화하고 있습니다.
도구 선택에서 중요한 이유
AI와 데이터 분석의 성패는 데이터의 정합성에 달려 있습니다. ETL 도구를 선택할 때는 '데이터 소스 지원 범위', '실시간 증분 복제(CDC) 기능', '비정형 데이터 처리 역량'을 우선 고려해야 합니다. 특히 LLM 기반 서비스를 구축할 경우, 텍스트와 이미지 등 비정형 데이터를 효율적으로 파싱하고 벡터 데이터베이스로 연결할 수 있는 커넥터 유무가 개발 생산성을 좌우합니다.
확인할 점
- 필요한 원천 시스템(SaaS, DB, API 등)과의 연동 커넥터 제공 여부
- 데이터 처리 방식이 코드 중심(dbt 등)인지 혹은 노코드(GUI) 방식인지 확인
- 대용량 트래픽 발생 시 자동 확장(Auto-scaling) 가능성
- 민감 정보 비식별화 및 보안 준수(GDPR, HIPAA 등) 기능 포함 여부
실제 활용 사례
고객 상담 이력(Extract)을 수집하여 개인정보를 마스킹하고 텍스트 임베딩 모델로 변환(Transform)한 뒤, 검색 성능 최적화를 위해 Pinecone과 같은 벡터 데이터베이스(Load)에 저장하여 AI 챗봇의 지식 베이스를 구축합니다.
헷갈리기 쉬운 용어
ELT
데이터를 먼저 목적지에 적재한 후 클라우드 저장소의 성능을 이용해 변환하는 방식입니다.
Reverse ETL
데이터 웨어하우스의 가공된 데이터를 다시 현업 도구(CRM, 광고 등)로 내보내는 역방향 프로세스입니다.
관련 용어
eltdata-warehousevector-databasedata-pipelineRAG
RAG는 실시간 데이터베이스 검색 결과를 AI 답변에 결합하는 기술입니다. 단순히 문서를 찾는 'Naive RAG'를 넘어, AI가 스스로 검색과 검증을 반복하는 '에이전틱 RAG'로 진화했습니다. 대규모 데이터를 ...