멀티모달
용어 이름 복사
AI 개념약 1분 읽기
텍스트·이미지·음성·영상 등 둘 이상의 데이터 형식을 함께 이해하고 처리하는 AI 모델입니다.
다른 이름
Multimodal멀티모달 AI다중 모달
상세 설명
멀티모달(Multimodal) AI는 텍스트·이미지·오디오·비디오처럼 서로 다른 형식(모달리티)의 데이터를 함께 이해하고 처리하는 인공지능입니다. 텍스트만 다루던 모델과 달리, 이미지를 보고 설명하거나 그래프를 해석하고 음성을 이해하는 등 여러 입력을 결합해 추론합니다. GPT-4o, Gemini, Claude 등 최신 모델이 이런 능력을 갖추면서, 사진을 올려 질문하거나 화면을 보여 주며 도움을 받는 사용 방식이 보편화됐습니다. 사람이 정보를 받아들이는 방식에 가까워, AI 도구의 활용 범위를 크게 넓혀 줍니다.
도구 선택에서 중요한 이유
멀티모달 지원 여부는 도구의 활용 범위를 크게 바꿉니다. 텍스트만 다루는 도구로는 스크린샷 분석, 손글씨 메모 정리, 도표 해석, 영상 요약 같은 작업을 할 수 없습니다. 다만 "멀티모달"이라 해도 어떤 입력을 어느 수준까지 지원하는지는 도구마다 다르므로, 실제로 다룰 형식(이미지·음성·문서·영상)에서의 정확도를 직접 확인하는 것이 중요합니다.
도구를 고를 때 확인할 점
- 실제로 다룰 입력 형식(이미지·음성·PDF·영상)을 지원하는가
- 이미지 속 표·그래프·한글 텍스트를 정확히 해석하는가
- 입력 파일 크기·길이·해상도 제한이 작업에 충분한가
- 여러 형식을 한 번에 결합한 질문에도 일관되게 답하는가
실제 적용 예시
회의 중 화이트보드를 찍어 올리고 "여기 적힌 항목을 표로 정리하고 빠진 일정도 제안해줘"라고 요청하면, 멀티모달 모델이 손글씨를 읽어 표로 변환하고 후속 작업까지 제안합니다. 텍스트 전용 도구로는 사진을 해석하는 첫 단계부터 불가능한 작업입니다.
관련 용어
LLM
수십억 개 이상의 매개변수를 통해 방대한 데이터를 학습한 인공지능 모델입니다. 자연어 이해와 생성뿐만 아니라 복잡한 추론, 요약, 코드 작성 등 다양한 지적 작업을 수행하며 현대 생성형 AI 서비스의 핵심 엔진 역할...
컴퓨터 비전컴퓨터가 이미지와 비디오 등 시각적 데이터를 인간처럼 이해하고 분석하여 의사결정을 내릴 수 있게 하는 AI 기술 분야입니다. 단순한 화면 픽셀 분석을 넘어 사물 인식, 상황 파악, 3D 공간 이해를 수행합니다.
GPTOpenAI가 개발한 트랜스포머 기반 생성형 AI 모델 시리즈로, 문맥을 이해하고 자연스러운 텍스트, 코드, 이미지를 생성하며 복잡한 추론과 멀티모달 작업을 수행합니다.
생성형 AI대규모 데이터를 학습하여 데이터의 패턴과 구조를 이해하고, 이를 바탕으로 텍스트, 이미지, 오디오, 코드 등 독창적인 새로운 콘텐츠를 생성하는 인공지능 기술입니다.