파라미터

데이터

약 1분 읽기

AI 모델이 학습을 통해 저장하는 내부 변수(가중치·편향)입니다. 수치가 클수록 복잡한 패턴을 학습할 수 있지만 연산·메모리 비용도 함께 증가합니다.

다른 이름

Parameter매개변수가중치

상세 설명

파라미터(Parameter)는 인공신경망 내부에서 입력 데이터에 곱해지고 더해지는 가중치(Weights)와 편향(Biases)의 총합입니다. AI 모델이 학습 과정에서 스스로 최적화하는 '내부 지식'의 단위이며, 주로 'B(Billion, 10억 개)' 단위를 사용해 모델의 체급을 나타냅니다. 파라미터 수가 많을수록 모델은 더 방대한 데이터의 상관관계를 학습하여 높은 수준의 추론과 창의적 작업을 수행할 수 있습니다. 하지만 파라미터가 늘어날수록 모델 구동에 필요한 연산 자원(VRAM)과 추론 시간(Latency)도 함께 증가하므로, 무조건 큰 모델보다는 사용 목적과 운영 환경에 최적화된 규모를 선택하는 것이 중요합니다.

도구 선택에서 중요한 이유

파라미터 수는 AI 도입 시의 경제성과 성능을 결정하는 척도입니다. 70B 이상의 대규모 모델은 복잡한 논리 추론에 유리하지만 운영 비용이 비쌉니다. 반면, 특정 분야의 데이터로 잘 학습된 7B~13B급 모델(SLM)은 적은 비용으로도 특정 업무에서 거대 모델 못지않은 성능을 낼 수 있습니다.

확인할 점

보유한 GPU의 메모리(VRAM)가 선택한 모델의 파라미터 규모를 감당할 수 있는가?
단순한 텍스트 분류나 요약 업무에 과도하게 큰 파라미터 모델을 사용하고 있지 않은가?
파라미터 수 대비 벤치마크(MMLU 등) 성능 효율이 뛰어난 최신 아키텍처 모델인가?

예시

Llama 3 8B 모델은 파라미터 수가 적어 일반 소비자용 PC에서도 구동 가능하며 빠른 응답이 필요할 때 적합합니다. 반면, GPT-4(수조 개 추정)나 Llama 3 400B+ 모델은 고도의 법률/의료 전문 지식이나 복잡한 프로그래밍 지원이 필요할 때 사용됩니다.

헷갈리기 쉬운 용어

하이퍼파라미터 (Hyperparameter)

모델이 스스로 학습하는 것이 아니라, 사람이 학습 시작 전에 직접 설정해 주는 제어 값(예: 학습률, 배치 크기)입니다.

토큰 (Token)

모델의 지능 크기인 파라미터와 달리, 모델이 한 번에 처리하거나 생성하는 데이터의 양적 단위입니다.

참고 링크

전체 용어 목록