촌키

촌키

Chonkie

웹 정보와 내부 문서를 자동 분석해 핵심 인사이트와 시각화된 데이터를 제공하는 딥 리서치 플랫폼

부분 무료WebDesktop오픈소스LLM 기반
웹사이트 방문하기chonkie.ai

검증된 사실

최신 버전
v1.6.8
GitHub
★ 4,113
최근 변경
2026-06-01 Chonkie v1.6.8 정식 버전 출시: MistralOCR 지원 및 PyEmscripten 휠 추가를 통해 데이터 추출과 호환성 강화 소스: https://pypi.org/project/ch

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

촌키 제품 화면

2026-06-15 확인

가격 정보

부분 무료시작 가격: Open source (free)

오픈 소스 기반의 RAG(검색 증강 생성) 청킹 라이브러리로, 누구나 무료로 다운로드하여 사용할 수 있다. 별도의 유료 구독 없이 GitHub를 통해 소스 코드가 제공되며, 상업적 프로젝트에도 자유롭게 통합이 가능하다.

가격표 확인하기

최근 업데이트와 소식

소개AI 요약

Chonkie는 세계에서 가장 빠른 청킹 라이브러리를 기반으로 하는 딥 리서치 오토파일롯 플랫폼입니다. 단순한 검색을 넘어 내부 문서와 웹 데이터를 결합해 맥락을 생성하며, 특히 텍스트 속에 파편화된 숫자 데이터를 추출해 즉시 시각화 차트로 변환하는 기능이 탁월합니다. 기업 사용자를 위해 자체 인프라 배포 옵션과 최고 수준의 보안 규격(SOC 2, HIPAA)을 제공합니다.

활용 워크플로우

데이터 인입 및 소스 모니터링
데이터 인입 및 소스 모니터링웹 공개 소스 실시간 크롤링기업 내부 보안 문서 통합 (PDF, Docs)시장 이슈 및 특정 토픽 모니터링 설정
Chonkie 지능형 프로세싱
Chonkie 지능형 프로세싱시맨틱 기반 스마트 청킹 (Semantic Chunking)내부 지식과 웹 맥락의 유기적 결합다중 에이전트 기반 심층 분석 (Deep Research)
데이터 추출 및 구조화
데이터 추출 및 구조화비정형 텍스트 내 수치 데이터 식별표(Table) 데이터 자동 추출 및 정제검증된 출처(Citations) 매핑
시각화 및 엔터프라이즈 배포
시각화 및 엔터프라이즈 배포데이터 시각화 그래프 자동 생성SOC 2/HIPAA 준수 보안 리포팅협업 도구(Slack, 이메일) 알림 송출

핵심 차별점: 방대한 내부 문서와 실시간 웹 데이터를 결합하여 텍스트 속 숨은 수치를 자동으로 시각화하고 보안 인프라 내에서 연구를 수행함.

주요 기능AI 요약

  • 토큰·문장·재귀·시맨틱·코드·LLM 기반 등 7가지 이상의 청킹 방식 지원
  • 토큰 청킹 기준 기존 대비 최대 33배 빠른 처리 속도
  • HTML 테이블 구조 보존 청킹(TableChunker) 지원
  • 56개 언어 다국어 청킹 지원
  • 32개 이상의 벡터DB·AI 프레임워크 통합
  • 자체 호스팅 FastAPI 기반 REST API 서버 제공

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

  • Token Chunking이 최대 33배 빠른 처리 속도 제공
  • 기본 설치 21MB로 LangChain/LlamaIndex(80-171MB) 대비 가벼움
  • 기본 기능에 외부 의존성 없이 독립 실행 가능
  • 32개 이상 벡터 DB 및 임베딩 모델 통합 지원
  • 56개 언어 기본 지원으로 다국어 환경 대응
  • SDPM, Late Chunking 등 독특한 청킹 전략 내장

단점

  • 벤치마크 수치가 경쟁사 대비 '콜드' 실행 비교로 과장 의심
  • 내장 Ollama 프로바이더 미지원으로 별도 연동 작업 필요
  • HTML 파싱용 사전 정의 규칙 미포함 (추후 지원 예정)
  • 원격 API 호출 시 비동기 인터페이스 미지원으로 성능 제한
  • GitHub 저장소가 법적/IP 문제로 일시 비공개된 이력 존재
  • 임베딩 레지스트리가 신규 프로바이더 추가 시 중앙 수정 필요한 구조

활용 사례AI 요약

  • RAG 파이프라인의 문서 전처리 및 청킹
  • 대규모 코드베이스 시맨틱 검색 인덱싱
  • 다국어 문서의 고속 텍스트 분할 처리
  • 벡터 데이터베이스 임베딩 전 데이터 준비

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안