애플 연구진이 최근 발표한 Ferret-UI Lite는 스마트폰 화면을 직접 보고 조작하는 혁신적인 온디바이스 AI 기술입니다. 기존의 거대 언어 모델들이 방대한 서버 자원을 필요로 했던 것과 달리 이 모델은 단 30억 개의 매개변수만으로도 복잡한 앱 환경을 정확하게 이해합니다. 사용자의 개인정보를 보호하면서도 비서처럼 앱을 대신 실행해 주는 이 기술의 핵심 원리를 살펴보겠습니다.

Ferret-UI Lite 모델이 왜 특별한가요
애플이 공개한 이번 연구 결과에서 가장 눈에 띄는 점은 모델의 효율성입니다. Ferret-UI Lite는 30억 개의 매개변수(3B parameters)를 가진 경량 모델임에도 불구하고 자신보다 최대 24배나 큰 대규모 모델들과 대등하거나 오히려 앞서는 성능을 보여주었습니다. 이는 단순히 크기를 키우는 방식이 아니라 모바일 환경에 최적화된 설계가 얼마나 중요한지를 증명하는 사례입니다.
과거의 멀티모달 대규모 언어 모델들은 일반적인 이미지를 이해하는 데는 뛰어났지만 스마트폰의 길쭉한 화면 비율이나 아주 작은 아이콘 그리고 텍스트를 인식하는 데는 한계가 있었습니다. 애플은 이러한 기존 모델의 약점을 보완하기 위해 인터페이스 이해에 특화된 새로운 구조를 도입했습니다. 이를 통해 사용자가 앱 화면의 특정 부분을 가리키거나 질문을 던졌을 때 이를 정확하게 추론하고 실행할 수 있게 되었습니다.
온디바이스 AI가 모바일 UI 이해를 돕는 방식
모바일 화면은 일반적인 사진과 다릅니다. 세로로 긴 형태를 가지고 있으며 화면 안에는 아주 미세한 아이콘과 텍스트 정보가 밀집되어 있습니다. Ferret-UI Lite는 이러한 특수성을 해결하기 위해 어떤 해상도에서도 세부 사항을 확대해서 볼 수 있는 기능을 갖추고 있습니다.
- 화면 내 작은 객체인 아이콘과 텍스트 인식 강화
- 모바일 특유의 길쭉한 화면 비율에 최적화된 시각 특징 추출
- 화면의 맥락을 파악하여 사용자의 의도대로 인터페이스와 상호작용
이 모델은 단순히 화면을 보는 것에 그치지 않고 각 구성 요소가 어떤 기능을 하는지 논리적으로 판단합니다. 예를 들어 특정 버튼이 장바구니 담기인지 아니면 결제하기인지 그 위치와 텍스트의 맥락을 통해 정확히 구분해 냅니다.

작은 모델로 성능을 극대화하는 3가지 핵심 기술
제한된 자원을 가진 기기에서 높은 성능을 내기 위해 애플 연구진은 세 가지 주요 전략을 사용했습니다. 이는 하드웨어의 부담을 줄이면서도 추론의 정확도를 획기적으로 높이는 비결이 되었습니다.
-
실시간 크로핑 및 줌인 기법
모델이 처음 화면을 예측한 뒤 중요한 영역을 잘라내어 다시 한번 정밀하게 예측하는 방식입니다. 이를 통해 작은 모델이 한 번에 처리해야 할 데이터 양을 줄이면서도 세부적인 특징을 놓치지 않게 됩니다. -
실제 데이터와 합성 데이터의 혼합 학습
다양한 모바일 도메인에서 수집한 실제 UI 데이터와 함께 AI가 스스로 생성한 합성 데이터를 활용하여 학습의 밀도를 높였습니다. -
강화 학습 및 미세 조정 적용
지도 학습 기반의 미세 조정과 더불어 강화 학습 기법을 도입하여 모델이 실제 앱 조작 과정에서 발생할 수 있는 복잡한 상황에 유연하게 대처하도록 만들었습니다.
특히 실시간으로 영역을 확대해서 다시 들여다보는 기술은 소형 모델이 가진 물리적인 한계를 극복하는 데 핵심적인 역할을 했습니다.
애플 AI 에이전트 스스로 학습 데이터를 만드는 법
이번 연구의 또 다른 혁신은 Ferret-UI Lite가 스스로 학습 데이터를 생성하는 시스템을 구축했다는 점입니다. 사람이 일일이 수만 개의 앱 화면에 라벨을 붙이는 대신 멀티 에이전트 시스템이 직접 살아있는 앱 플랫폼과 상호작용하며 학습 사례를 만들어냈습니다.
이 시스템은 목표 설정 에이전트가 점점 어려운 과제를 부여하면 계획 에이전트가 이를 단계별로 나누고 실행 에이전트가 화면에서 직접 조작을 수행하는 구조로 작동합니다. 마지막으로 비평가 모델이 결과가 올바른지 평가하며 데이터를 정제합니다. 이 과정에서 발생하는 실수나 예상치 못한 오류 그리고 이를 복구하는 전략까지 모델이 스스로 학습하게 되어 현실 세계의 복잡한 사용자 환경에 더 강해졌습니다.

개인정보 보호와 속도를 모두 잡은 로컬 실행의 이점
Ferret-UI Lite가 온디바이스 AI로 구현되었다는 사실은 사용자에게 큰 혜택을 제공합니다. 모든 연산이 기기 내부에서 이루어지기 때문에 사용자의 화면 데이터나 앱 활동 내역이 외부 서버로 전송될 필요가 없습니다. 이는 강력한 개인정보 보호를 의미합니다.
또한 네트워크 상태에 구애받지 않고 즉각적인 응답이 가능합니다. 클라우드 서버를 거치지 않으므로 지연 시간이 최소화되어 사용자는 마치 실제 비서가 옆에서 도와주는 듯한 매끄러운 경험을 할 수 있습니다. 비록 아주 복잡한 다단계 작업에서는 대형 모델에 비해 다소 한계가 있을 수 있지만 일상적인 앱 조작과 정보 확인 업무에서는 충분히 강력한 도구가 될 것입니다.

모바일 경험의 새로운 패러다임
Ferret-UI Lite는 단순히 똑똑한 AI를 넘어 우리 손안에서 안전하고 빠르게 작동하는 진정한 개인 비서의 시작점입니다. 복잡한 앱 조작을 AI에게 맡기고 더 가치 있는 일에 집중할 수 있는 시대가 머지않았습니다. 사용자의 의도를 정확히 파악하고 화면을 대신 눌러주는 온디바이스 AI 기술은 앞으로 우리가 스마트폰을 사용하는 방식을 근본적으로 바꿀 것입니다. 혁신적인 애플 AI 에이전트 기술이 가져올 편리한 일상을 기대해 봅니다.
이어서 보면 좋은 글
#FerretUILite #애플AI #온디바이스AI #모바일UI #AI에이전트 #애플연구 #스마트폰기술 #개인정보보호 #인공지능비서 #애플혁신