멀티모달

AI 개념

약 1분 읽기

텍스트·이미지·음성·영상 등 둘 이상의 데이터 형식을 함께 이해하고 처리하는 AI 모델입니다.

다른 이름

Multimodal멀티모달 AI다중 모달

상세 설명

멀티모달(Multimodal) AI는 텍스트·이미지·오디오·비디오처럼 서로 다른 형식(모달리티)의 데이터를 함께 이해하고 처리하는 인공지능입니다. 텍스트만 다루던 모델과 달리, 이미지를 보고 설명하거나 그래프를 해석하고 음성을 이해하는 등 여러 입력을 결합해 추론합니다. GPT-4o, Gemini, Claude 등 최신 모델이 이런 능력을 갖추면서, 사진을 올려 질문하거나 화면을 보여 주며 도움을 받는 사용 방식이 보편화됐습니다. 사람이 정보를 받아들이는 방식에 가까워, AI 도구의 활용 범위를 크게 넓혀 줍니다.

도구 선택에서 중요한 이유

멀티모달 지원 여부는 도구의 활용 범위를 크게 바꿉니다. 텍스트만 다루는 도구로는 스크린샷 분석, 손글씨 메모 정리, 도표 해석, 영상 요약 같은 작업을 할 수 없습니다. 다만 "멀티모달"이라 해도 어떤 입력을 어느 수준까지 지원하는지는 도구마다 다르므로, 실제로 다룰 형식(이미지·음성·문서·영상)에서의 정확도를 직접 확인하는 것이 중요합니다.

도구를 고를 때 확인할 점

실제로 다룰 입력 형식(이미지·음성·PDF·영상)을 지원하는가
이미지 속 표·그래프·한글 텍스트를 정확히 해석하는가
입력 파일 크기·길이·해상도 제한이 작업에 충분한가
여러 형식을 한 번에 결합한 질문에도 일관되게 답하는가

실제 적용 예시

회의 중 화이트보드를 찍어 올리고 "여기 적힌 항목을 표로 정리하고 빠진 일정도 제안해줘"라고 요청하면, 멀티모달 모델이 손글씨를 읽어 표로 변환하고 후속 작업까지 제안합니다. 텍스트 전용 도구로는 사진을 해석하는 첫 단계부터 불가능한 작업입니다.

참고 링크

전체 용어 목록