웨이퍼

웨이퍼

Wafer

AI 에이전트가 GPU 커널 프로파일링부터 최적화까지 자동화하여 LLM 추론 속도를 최대 2.8배 향상하는 GPU 성능 엔지니어링 도구

부분 무료VS CodeCursor
웹사이트 방문하기wafer.ai

검증된 사실

라이브 가격
plan · $1.002026-06-15 확인
최신 버전
0.0.96
GitHub
★ 789
최근 변경
2026-04-15 고성능 오픈소스 LLM을 정액제로 이용할 수 있는 'Wafer Pass' 정식 출시 — OpenClaw·Claude Code 등 AI 코딩 도구에 최적화된 추론 구독 서비스 소스: https://

2026-06-15 직접 확인 · 자동 검증 데이터

제품 화면

웨이퍼 제품 화면

2026-06-15 확인

가격 정보

부분 무료시작 가격: Pay-as-you-go (from $0.43/M tokens)라이브 확인 2026-06-15

Wafer Pass 구독 기준 Starter 플랜은 주당 $10(5시간 윈도우당 1,000 요청), Pro 플랜은 주당 $25(5,000 요청, 데이터 무보관 포함)로 운영됩니다. 모든 플랜에 Wafer가 호스팅하는 모든 모델 접근권이 포함됩니다.

가격표 확인하기

최근 업데이트와 소식

  • 버전 업데이트
    Wafer, 최적화 오픈소스 LLM 정액 구독 'Wafer Pass' 출시

    AI 추론 최적화 플랫폼 Wafer가 Claude Code·Cline 등 코딩 에이전트와 연동되는 최적화 오픈소스 LLM 정액 구독 'Wafer Pass'를 주 10달러부터 출시하고 400만 달러 투자를 함께 발표했습니다.

    근거: [APPROX_DATE] YC 런치 페이지·LinkedIn(2026년 초)에 따르면 Wafer가 DeepSeek·Qwen 등 최적화 OSS LLM에 단일 API로 정액 접근하는 Wafer Pass를 출시하고 400만 달러 투자를 공개했습니다(정확 일자 미상, 월 단위).

소개AI 요약

Wafer는 GPU 커널 최적화 전 과정을 IDE(VS Code·Cursor) 내로 통합한 AI 에이전트 기반 개발 도구입니다. NVIDIA·AMD·AWS·Google·Tenstorrent 등 모든 주요 하드웨어를 지원하며, AI 에이전트가 커널부터 배치·스케줄링·메모리 레이아웃까지 전체 서빙 스택을 자동으로 재작성해 최대 2.8배 이상의 처리량 향상을 달성합니다. Claude Code·Cursor·Cline 등 주요 AI 코딩 도구와 바로 연동됩니다.

활용 워크플로우

입력

PyTorch, CUDA, Triton 소스 코드NSight Systems / ROCProfiler 데이터 (.ncu-rep 등)NVIDIA/AMD 하드웨어 ISA 및 아키텍처 사양커널 런타임 성능 카운터 및 추적(Trace) 데이터

웨이퍼

AI 에이전트 기반 성능 병목(지연 시간, 레지스터 압박 등) 자동 진단IDE 내 실시간 PTX/SASS 어셈블리 코드-소스 코드 매핑 분석영구 CPU 환경(GPU Workspace)을 활용한 온디맨드 리소스 할당LLM 기반 커널 최적화 제안 및 자동화된 코드 패치 생성

출력

최적화된 고성능 GPU 커널 코드성능 메트릭 비교 및 하드웨어 리소스 활용 가시화 리포트상세 주석이 포함된 저수준 어셈블리 분석서배포 가능한 하드웨어 맞춤형 바이너리 패치

이기종 하드웨어 최적화 경로

NVIDIA NCU와 AMD ROCm 프로파일러를 단일 환경에서 전환하며 멀티 GPU 벤더 성능 통합 관리

GPU Workspaces 비용 절감 모드

GPU 연결 없이 영구 CPU 환경에서 AI와 대화하며 코드 분석 및 수정 후 실행 시에만 GPU 점유

핵심 차별점: IDE 내에서 프로파일링 리포트와 저수준 어셈블리(SASS)를 AI 에이전트와 결합하여 전문 지식 없이도 극도의 GPU 성능 튜닝을 가능케 하는 루프 제공

주요 기능AI 요약

  • IDE 내 NCU·ROCm 프로파일러 실행 및 AI 기반 결과 자동 해석
  • 소스 코드-PTX/SASS 어셈블리 실시간 매핑 뷰어
  • 커널·배치·스케줄링·메모리 레이아웃 전체 서빙 스택 자동 최적화
  • NVIDIA·AMD·AWS·Google·Tenstorrent 등 다중 하드웨어 동시 지원
  • Claude Code·Cursor·Cline·OpenHands 등 AI 코딩 도구 직접 연동
  • 영구 CPU 워크스페이스로 GPU 비용 최대 90% 절감

장점 & 단점AI 분석

공식 정보와 공개 피드백을 함께 정리한 참고 메모입니다

장점

  • IDE, Nsight Compute, 터미널, 브라우저 탭 간 전환 없이 한 곳에서 GPU 개발 가능해 컨텍스트 스위칭 비용 절감
  • Nsight Compute를 에디터 내에서 바로 실행하고 소스 코드 옆에서 프로파일링 결과 확인 가능
  • CUDA 컴파일러 익스플로러로 PTX와 SASS 어셈블리를 소스 코드와 매핑하여 몇 초 만에 분석 가능
  • 실제 개발자들이 일상적인 GPU 개발에 사용한다고 직접 확인함
  • 프로파일링 데이터를 AI 에이전트가 활용 가능한 기계 판독 가능 형태로 제공하여 구체적 작업 가능

단점

  • 현재 NVIDIA/CUDA에 집중되어 있어 NPU, TPU 등 다른 아키텍처 지원은 아직 개발 중
  • 개발자가 오동작, 느림, 혼란 등의 문제 제보를 요청할 정도로 아직 안정화 단계
  • 초기 버전의 커스텀 스냅샷 엔진이 사용자들에게 외면받아 표준 git refs 방식으로 전환함
  • 저수준 데이터가 통합되어 있어도 카운터나 SASS 해석에는 여전히 깊은 전문성 필요

활용 사례AI 요약

  • LLM 추론 서빙 스택 전체 자동 최적화로 처리량 극대화
  • CUDA/Triton 코드의 메모리 병목 진단 및 최적화
  • NVIDIA에서 AMD 등 타 하드웨어로의 커널 성능 이식
  • AI 에이전트 기반 반복적 커널 벤치마킹 및 성능 측정 자동화
  • GPU 성능 엔지니어링 교육 및 커리큘럼 실습

사용자 리뷰

리뷰를 불러오는 중...

대안 도구

이 도구 대신 사용할 수 있는 대안