AI Tools & AgentsEN

Google COSMO 해부 — 온디바이스 AI 에이전트의 새 아키텍처

Google이 실수로 공개한 차세대 AI 어시스턴트 COSMO. Gemini Nano + PI 서버 + 하이브리드 모드의 3-모드 아키텍처를 완전히 분석합니다. Google I/O 2026 직전 유출.

Google COSMO 해부 — 온디바이스 AI 에이전트의 새 아키텍처

Google COSMO 해부 — 온디바이스 AI 에이전트의 새 아키텍처

2026년 5월 1일, Google이 실수로 Play Store에 올렸다가 곧바로 내린 1.13GB짜리 앱. 이름은 COSMO. Google I/O를 2주 앞두고 노출된 이 앱이 보여준 것은, 차세대 AI 어시스턴트의 하이브리드 아키텍처입니다.

사건의 개요

5월 1일 새벽, Google Research의 공식 Play Store 계정에 com.google.research.air.cosmo라는 패키지가 등록되었습니다. 1.13GB라는 큰 용량이 눈에 띄었고, 설명에는 "experimental AI assistant"라고 적혀 있었습니다.

몇 시간 뒤 Google은 이 앱을 조용히 내렸지만, 이미 다운로드한 사람들과 분석한 기자들에 의해 내부 구조가 드러났습니다. 패키지 경로의 research.air에서 알 수 있듯, 이는 Google Research의 AIR(AI Research) 그룹이 만든 차세대 어시스턴트 프로토타입입니다.

Google I/O 2026이 5월 중순 예정이라는 점을 고려하면, 의도된 발표 2주 전 사고성 노출로 보입니다.

COSMO가 보여준 핵심 — 3가지 Fulfillment Models

COSMO 설정에서 가장 먼저 눈에 띄는 것은 사용자가 직접 선택할 수 있는 3가지 처리 모드입니다.

모드작동 방식사용 시나리오
Hybrid온라인 시 PI 서버, 오프라인 시 Nano기본값 (추정), 일반 사용자
PI Only항상 서버 PI 모델 사용최고 품질 우선, 데이터 OK
Nano Only항상 로컬 Gemini Nano 사용프라이버시 우선, 오프라인

여기서 PI(Personal Intelligence)가 정확히 무엇을 가리키는지 Google은 공식 정의를 내놓지 않았습니다. 다만 문맥상 서버사이드 Gemini 모델(아마도 Gemini 2.x Pro 또는 전용 인프라)을 의미할 가능성이 높습니다.

이 3가지 모드 설계가 흥미로운 이유는, 단순히 "강한 모델 vs 약한 모델"의 선택이 아니라 사용자에게 트레이드오프 자체를 노출한다는 점입니다.

PI Only    → 품질 ↑↑, 프라이버시 ↓, 네트워크 의존
Nano Only  → 품질 ↓,  프라이버시 ↑↑, 오프라인 OK
Hybrid     → 품질 ↑,  프라이버시 ~, 자동 fallback

왜 이 아키텍처인가 — Apple Intelligence와의 비교

이 패턴은 새로운 것이 아닙니다. Apple Intelligence도 비슷한 라우팅을 사용합니다:

  • On-device: 작은 작업은 로컬 모델
  • Private Cloud Compute: 큰 작업은 서버, 단 프라이버시 보장 인프라
  • ChatGPT 위탁: 복잡한 질문은 외부 LLM

하지만 Apple은 라우팅을 자동으로 결정하는 반면, COSMO는 사용자가 직접 선택합니다. 이것이 핵심 철학적 차이입니다.

측면Apple IntelligenceGoogle COSMO
모드 결정자동 (작업 복잡도 기반)수동 (사용자 선택)
로컬 모델~3B Apple Foundation ModelGemini Nano (~3-4B)
서버 모델Apple Private Cloud Compute"PI" (Gemini 서버)
외부 위탁ChatGPT (옵션)없음 (Google 통합)
투명성모드 노출 안 함3개 모드 명시적 노출

Google의 접근은 "개발자/파워유저 친화적"입니다. 어떤 데이터가 서버로 가는지 투명하게 보여주고, 선택하게 합니다. 이는 EU GDPR과 글로벌 프라이버시 규제 강화 추세에 잘 맞습니다.

14개 Skills — 진짜 "에이전트"인가

COSMO가 단순한 챗봇과 다른 점은 14개의 사전 정의된 Skills입니다. 이는 사용자 활동에 따라 능동적으로 트리거됩니다.

Productivity Skills

  • List Tracker — 할 일 목록 추적
  • Document Writer — 문서 자동 작성
  • Calendar Event Suggester — 일정 제안
  • Add Timer — 타이머 설정

Research & Knowledge Skills

  • Deep Research — 심층 리서치 (Gemini의 Deep Research 기능 추정)
  • Google it — 검색 위임
  • Jargon Definitions — 전문용어 자동 설명
  • Provide Insight — 컨텍스트 분석 후 인사이트 제공

Memory & Context Skills

  • Recall — 과거 대화/활동 회상
  • Conversation Summary — 대화 요약
  • People Understanding — 사용자가 자주 만나는 사람 학습
  • Event Understanding — 사용자의 이벤트 패턴 학습

Visual & Browser Skills

  • Quick Photo Lookup — 갤러리 검색 위임
  • Browser Agent — 웹 자동화 (Project Mariner 사용)

특히 Browser Agent가 Project Mariner를 사용한다는 점이 결정적입니다. Mariner는 Google이 2024년 12월 발표한 브라우저 자동화 에이전트로, Chrome 확장을 통해 웹사이트를 직접 조작합니다. COSMO는 이를 온디바이스 에이전트의 한 도구로 통합한 것입니다.

기술적 구현 — AccessibilityService

COSMO는 Android의 AccessibilityService API를 사용합니다. 이는 원래 시각/청각 장애인을 위한 화면 읽기 API였지만, 최근 AI 에이전트들이 화면 인식 + 조작을 위해 활용하고 있습니다.

[사용자 화면] 
    ↓ (AccessibilityService 캡처)
[화면 컨텍스트 텍스트화]
    ↓
[Skill Trigger 판단]  ← Nano (저비용) 또는 PI (정확)
    ↓ (적절한 Skill 활성화)
[Skill 실행 → UI 조작 또는 응답 생성]

이 구조는 Apple의 App Intents와 비슷하지만, 모든 앱에 적용 가능하다는 점에서 더 범용적입니다. 단점은 보안 — 사용자가 모든 화면 접근 권한을 줘야 하므로 신뢰가 필수입니다.

"AIR" 코드네임의 의미

패키지 경로 com.google.research.air.cosmoAIR는 흥미롭습니다. 추정되는 의미:

  • Agenteic Intelligence Research
  • 또는 Google Research 내 특정 그룹의 코드네임

Google이 2025년부터 "Agentic AI"를 강조해온 흐름과 일치합니다. 단순한 챗봇이 아닌, 사용자 대신 행동하는 에이전트가 차세대 AI의 방향이라는 신호입니다.

개발자 관점 — Gemini Nano API의 부상

여기서 진짜 흥미로운 부분이 시작됩니다. COSMO가 보여준 아키텍처는 개발자도 만들 수 있다는 점입니다.

Google은 Gemini Nano API를 통해 다음을 제공합니다:

  • AICore 시스템 서비스 — Pixel 8+에서 시스템 레벨 Nano 액세스
  • ML Kit GenAI APIs — 더 높은 수준의 추상화
  • 요약, 추출, 재작성, 번역 등 기본 작업

즉, 누구나 다음 같은 앱을 만들 수 있습니다:

kotlin
// Gemini Nano로 온디바이스 요약
val summarizer = Summarization.getClient(featureOptions)
val result = summarizer.runInference(longText).await()

그리고 서버 측 모델과 결합하면 COSMO와 동일한 하이브리드 패턴이 됩니다. 차이는 단지 "Skills 라이브러리를 누가 만드느냐"입니다.

무엇을 시사하는가

COSMO 사고가 보여준 것:

  1. 하이브리드가 표준이 된다 — 단일 모델 시대는 끝났습니다. 로컬 + 서버 라우팅이 차세대 표준입니다.
  2. Skills가 1급 시민 — 챗 인터페이스가 아니라 트리거되는 능력 묶음이 UX의 핵심입니다.
  3. 프라이버시 트레이드오프 노출 — 사용자에게 선택권을 주는 것이 신뢰의 시작입니다.
  4. AccessibilityService의 재정의 — 화면 인식이 모든 모바일 에이전트의 기반이 됩니다.

Google I/O 2026에서 COSMO가 어떤 형태로 정식 발표될지는 아직 모릅니다. 하지만 이 아키텍처 패턴은 이미 표준화되고 있습니다.

Apple이 그랬고, Google이 따라갑니다. 그리고 곧 개발자도 같은 패턴을 만들 수 있습니다.

다음 글 예고 — 직접 만들어 보기

다음 글(곧 공개 예정)에서는 Gemini Nano API + 클라우드 LLM을 결합해 COSMO와 동일한 3-mode 아키텍처를 직접 구현하는 가이드를 다룹니다:

  • AICore 설정과 첫 번째 Nano 호출
  • Hybrid 라우터 설계 (네트워크 상태 기반)
  • Skills 시스템 만들기 (Function Calling)
  • 화면 컨텍스트 캡처 (AccessibilityService)
  • 프라이버시 모드 토글 UI

Google I/O에서 정식 발표가 나오기 전에, 그 기반 기술을 미리 익혀두는 것이 이 시리즈의 목표입니다. 관심 있으시면 뉴스레터 구독으로 알림 받으세요.

마무리

COSMO는 사고였지만, 우연이 아닙니다. Google이 가는 방향을 명확히 보여줍니다:

  • 에이전트 (Skills) — 챗봇 → 행동하는 AI
  • 하이브리드 (Nano + PI) — 일도양단이 아닌 라우팅
  • 투명성 (3 modes) — 자동화가 아닌 선택권

5월 중순 Google I/O에서 어떤 발표가 나올지 주목할 가치가 있습니다. 그리고 그 전에, 같은 아이디어를 우리 손으로 구현해 보는 것이 가장 좋은 학습입니다.

더 많은 콘텐츠를 받아보세요

SNS에서 새로운 글과 튜토리얼 소식을 가장 먼저 받아보세요

이메일로 받아보기

관련 포스트