캑터스

캑터스

Cactus

모바일 기기에서 데이터 유출 없이 고성능 AI 모델을 로컬로 구동하는 오픈 소스 SDK

부분 무료iOSAndroidFlutter오픈소스멀티모달
웹사이트 방문하기cactuscompute.com

검증된 사실

라이브 가격
Free · 무료2026-06-15 확인
GitHub
★ 4,245
최근 변경
2026-05-12 Cactus가 26M 파라미터 함수 호출 전용 오픈소스 모델 Needle을 공개하였으며, INT4 양자화 시 14MB로 소비자 기기에서 초당 1,200 토큰 디코딩 속도를 달성합니다. 소스: ht

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

캑터스 제품 화면

2026-06-15 확인

가격 정보

부분 무료시작 가격: Open source (free)라이브 확인 2026-06-15

기본적인 온디바이스 추론 기능을 제공하는 무료 티어가 존재한다. 하이브리드 클라우드 추론, 맞춤형 모델, 하드웨어 가속 등 고급 기능은 유료로 제공된다. 구체적인 유료 플랜의 월 고정 가격은 공개되어 있지 않으며 사용량이나 요구 사항에 따라 달라질 수 있다.

가격표 확인하기

최근 업데이트와 소식

  • 버전 업데이트
    Cactus 출시 — 스마트폰·웨어러블 로컬 AI 추론 엔진

    Cactus Compute가 2026년 2월 9일 스마트폰·웨어러블·저전력 기기용 크로스플랫폼 오픈소스 추론 프레임워크 Cactus를 출시했습니다. HuggingFace의 모든 LLM·VLM과 GGUF 모델을 지원하며 Flutter·React-Native로 제공됩니다.

    근거: Fondo: 'Cactus Launches: Deploy AI Models Locally on Smartphones' — launched February 9, 2026

소개AI 요약

Cactus는 스마트폰 및 소비자 기기에서 LLM·비전·음성 모델을 로컬로 구동할 수 있는 고성능 오픈소스 SDK입니다. Metal·Vulkan·NPU 하드웨어 가속으로 50ms 미만의 첫 토큰 생성 시간을 구현하며, iOS·Android·macOS를 단일 SDK로 지원합니다. 에이전트 빌더 캔버스를 통해 복잡한 AI 워크플로우를 기기 내부에서 완벽하게 처리하며, 데이터를 외부로 전송하지 않아 완전한 프라이버시를 보장합니다.

활용 워크플로우

입력

Hugging Face GGUF/Safetensors 모델 파일Flutter 또는 React Native 모바일 프로젝트 소스기기 내장 센서(카메라, 마이크) 실시간 스트림에이전트 빌더 기반 시스템 프롬프트 및 도구 정의

캑터스

Cactus 최적화 엔진을 통한 모델 로컬 로딩 및 양자화Metal/Vulkan 기반 GPU 가속 하드웨어 추론 수행에이전트 빌더 캔버스를 통한 멀티모달 로직 오케스트레이션내장 텔레메트리를 활용한 실시간 토큰 처리 및 성능 모니터링

출력

50ms 미만 지연 시간의 실시간 텍스트/음성 반응외부 노출 없는 로컬 온디바이스 벡터 임베딩디바이스별 하드웨어 최적화 추론 리포트배포 가능한 고성능 AI 탑재 모바일 애플리케이션

시각적 에이전트 설계

에이전트 빌더 캔버스를 통해 복잡한 AI 워크플로우를 코딩 없이 시각적으로 구성하고 배포

로컬 프라이버시 모드

네트워크 연결 없이 모든 데이터를 기기 내에서만 처리하여 제로 트러스트 보안 환경 구축

멀티모달 통합 추론

텍스트, 비전, 음성 모델을 동시에 로컬에서 구동하여 하이브리드 인터랙션 구현

핵심 차별점: 모바일 하드웨어 전용 커널 최적화로 50ms 미만의 지연 시간을 보장하는 온디바이스 멀티모달 AI SDK

주요 기능AI 요약

  • Apple NPU·Qualcomm·MediaTek 하드웨어 가속으로 50ms 미만 TTFT 달성
  • iOS·Android·macOS 단일 SDK 크로스플랫폼 지원
  • 도구 호출(Tool Calling) 및 음성 전사 기능 내장
  • 온디바이스↔클라우드 하이브리드 라우팅으로 복잡도에 따라 자동 전환
  • Flutter·React Native·Kotlin Multiplatform 네이티브 SDK 지원
  • GGUF 포맷 지원으로 Llama·Qwen·Mistral 등 주요 모델 즉시 활용

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

  • 24시간 운영되는 AI 콜센터로 비즈니스 시간 외에도 전화 응대 가능
  • 고객 확인 및 예약 프로세스를 자동화하여 운영 효율성 증대
  • 검증 문서를 몇 분 만에 언더라이팅 모델로 전환하여 업무 시간 단축
  • 시장 비교 및 임료율 데이터 기반의 신뢰도 높은 분석 제공

활용 사례AI 요약

  • 금융·의료용 보안 온디바이스 AI 챗봇 구현
  • 실시간 오프라인 음성 전사 및 번역 앱 개발
  • 기기 내 로컬 이미지·비디오 분석 에이전트 구축
  • 저지연 게임 내 AI 캐릭터 상호작용 개발
  • 인터넷 미연결 환경에서의 엣지 AI 솔루션 구축

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안