AI 하면 텍스트 대화를 먼저 떠올리는 사람이 많습니다. 그런데 요즘 AI는 텍스트만 다루지 않습니다. 이미지를 보고 설명하고, 음성을 텍스트로 바꾸고, 그림을 그리고, 동영상을 분석합니다. 이처럼 여러 종류의 데이터를 함께 처리할 수 있는 AI를 멀티모달 AI라고 부릅니다.멀티모달이 뭔지 정확히 짚으면모달(Modality)은 데이터의 종류를 의미합니다. 텍스트, 이미지, 음성, 영상, 코드 각각이 하나의 모달입니다. 멀티모달은 이 중 두 가지 이상을 함께 처리할 수 있다는 뜻입니다.초기 LLM은 텍스트 입력에 텍스트 출력만 가능했습니다. 지금은 이미지를 입력으로 받거나, 음성으로 대화하거나, 텍스트 설명으로 이미지를 생성하는 것까지 하나의 모델에서 처리하는 방향으로 발전하고 있습니다. GPT-4o, C..