애플이 작정하고 만든 AI 만자노 이미지 생성과 이해를 동시에 잡은 비결

애플 연구진이 시각적 이해와 이미지 생성을 하나로 합친 혁신적인 AI 모델 ‘만자노(Manzano)’를 발표했어요. 지금까지는 이미지를 잘 이해하면 생성이 아쉽고, 생성을 잘하면 이해력이 떨어지는 한계가 있었는데 이걸 깔끔하게 해결했더라고요.

A futuristic and clean conceptual illustration of Apple's Manzano AI model, showing a glowing apple core integrated with complex digital neural networks and colorful image pixels swirling around it, high-tech laboratory background, cinematic lighting, 4:3 aspect ratio, no visible text

애플의 새로운 병기 만자노는 무엇이 다른가요?

애플이 이번에 공개한 만자노는 단순히 그림을 그려주는 인공지능이 아니에요. 사진이나 그림을 보고 그 안에 무엇이 있는지 정확히 파악하는 ‘시각적 이해’ 능력과, 텍스트를 입력하면 멋진 그림을 만들어내는 ‘이미지 생성’ 능력을 한 몸에 합친 모델이거든요. 보통 이 두 가지는 서로 다른 방식으로 작동하기 때문에 하나를 잘하면 다른 하나가 서툴러지는 경우가 많았는데요. 만자노는 이 균형을 기가 막히게 맞췄다는 평가를 받고 있어요.

왜 그동안 이미지 생성과 이해는 사이가 안 좋았을까요?

인공지능이 이미지를 다룰 때 ‘이해’를 하려면 연속적인 흐름의 데이터가 필요하고, ‘생성’을 하려면 딱딱 끊어지는 디지털 토큰 방식이 유리하다고 해요. 그래서 기존 모델들은 이해용 엔진과 생성용 엔진을 따로 쓰거나, 하나를 선택해서 다른 쪽 성능을 희생하곤 했죠. 마치 왼손잡이용 가위로 오른손잡이가 종이를 자르려고 애쓰는 것과 비슷한 상황이었던 셈이에요. 애플 연구진은 이 근본적인 충돌이 AI의 발목을 잡고 있다는 점에 주목했어요.

만자노가 문제를 해결한 비밀 무기 세 가지

애플은 이 문제를 해결하기 위해 ‘하이브리드 비전 토크나이저’라는 새로운 기술을 도입했어요. 첫째로 이해와 생성에 필요한 두 가지 형태의 데이터를 모두 만들어내는 영리한 장치를 장착했고요. 둘째로는 글자와 이미지 데이터를 동시에 예측하는 강력한 언어 모델(LLM) 디코더를 사용했죠. 마지막으로 예측된 데이터를 실제 눈에 보이는 픽셀로 변환해주는 확산 기반의 이미지 디코더를 결합했어요. 이 세 가지가 톱니바퀴처럼 맞물리며 돌아가기 때문에 성능 저하 없이 두 작업을 동시에 해내는 거예요.

A modern and clean infographic style illustration showing a hybrid AI architecture, blending continuous wave forms and discrete digital blocks into a central core, vibrant blue and purple gradients, professional technology layout, 4:3 aspect ratio, no visible text

말도 안 되는 물리적 상황까지 그려내는 똑똑함

사실 기존 AI들은 “코끼리 아래에서 새가 날고 있다” 같은 비상식적인 문장을 주면 당황해서 엉뚱한 그림을 그리곤 했어요. 하지만 만자노는 문장의 의미를 정확히 파악하는 능력이 뛰어나서 이런 물리 법칙을 무시하는 요청도 아주 자연스럽게 소화해내더라고요. 연구 결과에 따르면 오픈AI의 GPT-4o 같은 최상급 모델과 비교해도 뒤처지지 않는 실력을 보여줬다고 하니 정말 놀랍죠. 3억 개에서 300억 개에 달하는 다양한 규모로 테스트를 마쳤다고 하니 확장성도 대단해요.

단순한 생성을 넘어 정교한 편집까지 가능한 실력

만자노의 진가는 단순히 새로운 그림을 그릴 때만 나타나는 게 아니에요. 이미 있는 사진의 스타일을 바꾸거나, 사진의 일부분을 지우고 새로운 사물로 채워 넣는 인페인팅, 사진 밖의 풍경을 상상해서 그려주는 아웃페인팅 실력도 수준급이거든요. 사용자가 “이 배경을 노을 지는 바닷가로 바꿔줘”라고 말하면 문맥을 찰떡같이 알아듣고 수정을 해주는 식이죠. 깊이 정보를 파악하는 능력도 좋아서 입체적인 편집도 아주 매끄러워요.

A creative digital art showing a surreal scene where a small colorful bird is flying underneath a giant floating elephant in the clouds, dreamlike atmosphere, high detail, vibrant colors, 4:3 aspect ratio, no visible text

우리 손안의 아이폰에서 만자노를 만날 날은?

아쉽게도 아직 이 모델이 지금 당장 아이폰이나 아이패드에 탑재된 것은 아니에요. 하지만 애플이 이미지 플레이그라운드 같은 자체 생성 AI 기능을 계속 강화하고 있다는 점을 생각하면, 만자노 연구 성과가 조만간 우리 기기 속으로 들어올 가능성이 매우 높아요. 애플이 추구하는 온디바이스 AI 환경에서 더 가볍고 똑똑하게 이미지를 다룰 수 있는 핵심 기술이 될 것으로 보입니다.

A lifestyle photography of a person's hands holding a modern iPhone, the screen shows a sophisticated AI photo editing interface with glowing effects, warm natural indoor lighting, cozy atmosphere, 4:3 aspect ratio, no visible text

마무리

지금까지 애플이 공개한 차세대 멀티모달 모델 만자노에 대해 자세히 살펴봤는데요. 단순히 그림을 잘 그리는 것을 넘어, 우리가 무엇을 원하는지 정확히 이해하고 소통하려는 애플의 방향성을 잘 보여주는 연구인 것 같아요. 앞으로 우리가 찍은 사진을 더 똑똑하게 편집하고 관리해줄 애플의 AI 비전이 정말 기대되네요. 여러분은 만자노 같은 기술이 아이폰에 들어온다면 어떤 사진을 가장 먼저 만들어보고 싶으신가요?

출처: 9to5Mac

함께 보면 좋은 글

#애플만자노 #AI이미지생성 #멀티모달모델 #애플인텔리전스 #인공지능트렌드 #애플연구소 #이미지편집AI #시각지능 #차세대AI #테크뉴스

Leave a Comment

error: Content is protected !!