오픈소스

기술 용어

약 1분 읽기

소스 코드를 공개하여 누구나 자유롭게 열람, 수정, 배포할 수 있는 개발 방식입니다. AI 분야에서는 2024년 발표된 '오픈소스 AI 정의(OSAID)'에 따라 모델 가중치뿐 아니라 학습 데이터 정보와 훈련 코드까지 투명하게 공개되어 재현 및 개선이 가능한 시스템을 의미합니다.

다른 이름

Open SourceOSS

상세 설명

오픈소스는 기술의 투명성과 공동 발전을 위해 설계도인 소스 코드를 공유하는 모델입니다. AI 생태계에서는 허깅페이스(Hugging Face)를 중심으로 모델과 데이터셋이 공유되며 혁신을 주도합니다. 특히 2024년 10월, 오픈소스 이니셔티브(OSI)는 모델 가중치, 훈련 코드, 데이터에 대한 상세 정보를 포함해야 한다는 '오픈소스 AI 정의(OSAID)' v1.0을 확정했습니다. 이에 따라 상업적 이용 제한이나 데이터 미공개 상태인 Llama 3 등은 엄밀히 '오픈 웨이트(Open Weights)'로 분류되기도 합니다. 따라서 도구 선택 시에는 단순히 공개 여부뿐만 아니라 라이선스 조항(Apache 2.0 등)과 데이터 투명성, 커스터마이징 허용 범위를 면밀히 검토해야 합니다.

도구 선택에서 중요한 이유

특정 기업의 API에 의존하지 않는 '벤더 종속성(Vendor Lock-in)' 탈피가 가능하며, 내부 서버에 직접 구축하여 보안성을 높일 수 있습니다. 또한 기업 고유의 데이터를 학습시키는 파인튜닝(Fine-tuning)을 통해 비즈니스에 최적화된 맞춤형 솔루션을 제작하기에 유리합니다.

확인할 점

라이선스가 OSI 인증을 받은 표준형인가(Apache 2.0, MIT 등), 아니면 커스텀 제한이 있는가?
상업적 이용 시 사용자 수 제한이나 별도 로열티가 발생하는 조항이 있는가?
학습 데이터의 출처와 가공 방식이 공개되어 편향성 및 보안 검토가 가능한가?
GitHub 스타 수나 기여 활동 등 커뮤니티의 사후 관리가 활발한 프로젝트인가?

주요 예시

PyTorch(프레임워크), Transformers(라이브러리), OLMo(학습 데이터까지 완전 공개된 모델). 반면 Llama 3나 Mistral은 가중치는 공개되었으나 라이선스 및 데이터 측면에서 '오픈 웨이트' 성격이 강합니다.

헷갈리기 쉬운 용어

Open Source AI

코드, 가중치뿐 아니라 학습 데이터 정보까지 공개되어 누구나 동일한 수준의 모델을 재현할 수 있는 상태.

Open Weights

학습된 결과물(가중치)은 내려받아 사용할 수 있으나, 학습 과정이나 데이터는 비공개인 모델 (예: Llama, Gemma).

참고 링크

전체 용어 목록