Google COSMO 해부 — 온디바이스 AI 에이전트의 새 아키텍처
Google이 실수로 공개한 차세대 AI 어시스턴트 COSMO. Gemini Nano + PI 서버 + 하이브리드 모드의 3-모드 아키텍처를 완전히 분석합니다. Google I/O 2026 직전 유출.

Google COSMO 해부 — 온디바이스 AI 에이전트의 새 아키텍처
2026년 5월 1일, Google이 실수로 Play Store에 올렸다가 곧바로 내린 1.13GB짜리 앱. 이름은 COSMO. Google I/O를 2주 앞두고 노출된 이 앱이 보여준 것은, 차세대 AI 어시스턴트의 하이브리드 아키텍처입니다.
사건의 개요
5월 1일 새벽, Google Research의 공식 Play Store 계정에 com.google.research.air.cosmo라는 패키지가 등록되었습니다. 1.13GB라는 큰 용량이 눈에 띄었고, 설명에는 "experimental AI assistant"라고 적혀 있었습니다.
몇 시간 뒤 Google은 이 앱을 조용히 내렸지만, 이미 다운로드한 사람들과 분석한 기자들에 의해 내부 구조가 드러났습니다. 패키지 경로의 research.air에서 알 수 있듯, 이는 Google Research의 AIR(AI Research) 그룹이 만든 차세대 어시스턴트 프로토타입입니다.
Google I/O 2026이 5월 중순 예정이라는 점을 고려하면, 의도된 발표 2주 전 사고성 노출로 보입니다.
COSMO가 보여준 핵심 — 3가지 Fulfillment Models
COSMO 설정에서 가장 먼저 눈에 띄는 것은 사용자가 직접 선택할 수 있는 3가지 처리 모드입니다.
| 모드 | 작동 방식 | 사용 시나리오 |
|---|---|---|
| Hybrid | 온라인 시 PI 서버, 오프라인 시 Nano | 기본값 (추정), 일반 사용자 |
| PI Only | 항상 서버 PI 모델 사용 | 최고 품질 우선, 데이터 OK |
| Nano Only | 항상 로컬 Gemini Nano 사용 | 프라이버시 우선, 오프라인 |
여기서 PI(Personal Intelligence)가 정확히 무엇을 가리키는지 Google은 공식 정의를 내놓지 않았습니다. 다만 문맥상 서버사이드 Gemini 모델(아마도 Gemini 2.x Pro 또는 전용 인프라)을 의미할 가능성이 높습니다.
이 3가지 모드 설계가 흥미로운 이유는, 단순히 "강한 모델 vs 약한 모델"의 선택이 아니라 사용자에게 트레이드오프 자체를 노출한다는 점입니다.
PI Only → 품질 ↑↑, 프라이버시 ↓, 네트워크 의존
Nano Only → 품질 ↓, 프라이버시 ↑↑, 오프라인 OK
Hybrid → 품질 ↑, 프라이버시 ~, 자동 fallback왜 이 아키텍처인가 — Apple Intelligence와의 비교
이 패턴은 새로운 것이 아닙니다. Apple Intelligence도 비슷한 라우팅을 사용합니다:
- On-device: 작은 작업은 로컬 모델
- Private Cloud Compute: 큰 작업은 서버, 단 프라이버시 보장 인프라
- ChatGPT 위탁: 복잡한 질문은 외부 LLM
하지만 Apple은 라우팅을 자동으로 결정하는 반면, COSMO는 사용자가 직접 선택합니다. 이것이 핵심 철학적 차이입니다.
| 측면 | Apple Intelligence | Google COSMO |
|---|---|---|
| 모드 결정 | 자동 (작업 복잡도 기반) | 수동 (사용자 선택) |
| 로컬 모델 | ~3B Apple Foundation Model | Gemini Nano (~3-4B) |
| 서버 모델 | Apple Private Cloud Compute | "PI" (Gemini 서버) |
| 외부 위탁 | ChatGPT (옵션) | 없음 (Google 통합) |
| 투명성 | 모드 노출 안 함 | 3개 모드 명시적 노출 |
Google의 접근은 "개발자/파워유저 친화적"입니다. 어떤 데이터가 서버로 가는지 투명하게 보여주고, 선택하게 합니다. 이는 EU GDPR과 글로벌 프라이버시 규제 강화 추세에 잘 맞습니다.
14개 Skills — 진짜 "에이전트"인가
COSMO가 단순한 챗봇과 다른 점은 14개의 사전 정의된 Skills입니다. 이는 사용자 활동에 따라 능동적으로 트리거됩니다.
Productivity Skills
- List Tracker — 할 일 목록 추적
- Document Writer — 문서 자동 작성
- Calendar Event Suggester — 일정 제안
- Add Timer — 타이머 설정
Research & Knowledge Skills
- Deep Research — 심층 리서치 (Gemini의 Deep Research 기능 추정)
- Google it — 검색 위임
- Jargon Definitions — 전문용어 자동 설명
- Provide Insight — 컨텍스트 분석 후 인사이트 제공
Memory & Context Skills
- Recall — 과거 대화/활동 회상
- Conversation Summary — 대화 요약
- People Understanding — 사용자가 자주 만나는 사람 학습
- Event Understanding — 사용자의 이벤트 패턴 학습
Visual & Browser Skills
- Quick Photo Lookup — 갤러리 검색 위임
- Browser Agent — 웹 자동화 (Project Mariner 사용)
특히 Browser Agent가 Project Mariner를 사용한다는 점이 결정적입니다. Mariner는 Google이 2024년 12월 발표한 브라우저 자동화 에이전트로, Chrome 확장을 통해 웹사이트를 직접 조작합니다. COSMO는 이를 온디바이스 에이전트의 한 도구로 통합한 것입니다.
기술적 구현 — AccessibilityService
COSMO는 Android의 AccessibilityService API를 사용합니다. 이는 원래 시각/청각 장애인을 위한 화면 읽기 API였지만, 최근 AI 에이전트들이 화면 인식 + 조작을 위해 활용하고 있습니다.
[사용자 화면]
↓ (AccessibilityService 캡처)
[화면 컨텍스트 텍스트화]
↓
[Skill Trigger 판단] ← Nano (저비용) 또는 PI (정확)
↓ (적절한 Skill 활성화)
[Skill 실행 → UI 조작 또는 응답 생성]이 구조는 Apple의 App Intents와 비슷하지만, 모든 앱에 적용 가능하다는 점에서 더 범용적입니다. 단점은 보안 — 사용자가 모든 화면 접근 권한을 줘야 하므로 신뢰가 필수입니다.
"AIR" 코드네임의 의미
패키지 경로 com.google.research.air.cosmo의 AIR는 흥미롭습니다. 추정되는 의미:
- Agenteic Intelligence Research
- 또는 Google Research 내 특정 그룹의 코드네임
Google이 2025년부터 "Agentic AI"를 강조해온 흐름과 일치합니다. 단순한 챗봇이 아닌, 사용자 대신 행동하는 에이전트가 차세대 AI의 방향이라는 신호입니다.
개발자 관점 — Gemini Nano API의 부상
여기서 진짜 흥미로운 부분이 시작됩니다. COSMO가 보여준 아키텍처는 개발자도 만들 수 있다는 점입니다.
Google은 Gemini Nano API를 통해 다음을 제공합니다:
- AICore 시스템 서비스 — Pixel 8+에서 시스템 레벨 Nano 액세스
- ML Kit GenAI APIs — 더 높은 수준의 추상화
- 요약, 추출, 재작성, 번역 등 기본 작업
즉, 누구나 다음 같은 앱을 만들 수 있습니다:
// Gemini Nano로 온디바이스 요약
val summarizer = Summarization.getClient(featureOptions)
val result = summarizer.runInference(longText).await()그리고 서버 측 모델과 결합하면 COSMO와 동일한 하이브리드 패턴이 됩니다. 차이는 단지 "Skills 라이브러리를 누가 만드느냐"입니다.
무엇을 시사하는가
COSMO 사고가 보여준 것:
- 하이브리드가 표준이 된다 — 단일 모델 시대는 끝났습니다. 로컬 + 서버 라우팅이 차세대 표준입니다.
- Skills가 1급 시민 — 챗 인터페이스가 아니라 트리거되는 능력 묶음이 UX의 핵심입니다.
- 프라이버시 트레이드오프 노출 — 사용자에게 선택권을 주는 것이 신뢰의 시작입니다.
- AccessibilityService의 재정의 — 화면 인식이 모든 모바일 에이전트의 기반이 됩니다.
Google I/O 2026에서 COSMO가 어떤 형태로 정식 발표될지는 아직 모릅니다. 하지만 이 아키텍처 패턴은 이미 표준화되고 있습니다.
Apple이 그랬고, Google이 따라갑니다. 그리고 곧 개발자도 같은 패턴을 만들 수 있습니다.
다음 글 예고 — 직접 만들어 보기
다음 글(곧 공개 예정)에서는 Gemini Nano API + 클라우드 LLM을 결합해 COSMO와 동일한 3-mode 아키텍처를 직접 구현하는 가이드를 다룹니다:
- AICore 설정과 첫 번째 Nano 호출
- Hybrid 라우터 설계 (네트워크 상태 기반)
- Skills 시스템 만들기 (Function Calling)
- 화면 컨텍스트 캡처 (AccessibilityService)
- 프라이버시 모드 토글 UI
Google I/O에서 정식 발표가 나오기 전에, 그 기반 기술을 미리 익혀두는 것이 이 시리즈의 목표입니다. 관심 있으시면 뉴스레터 구독으로 알림 받으세요.
마무리
COSMO는 사고였지만, 우연이 아닙니다. Google이 가는 방향을 명확히 보여줍니다:
- 에이전트 (Skills) — 챗봇 → 행동하는 AI
- 하이브리드 (Nano + PI) — 일도양단이 아닌 라우팅
- 투명성 (3 modes) — 자동화가 아닌 선택권
5월 중순 Google I/O에서 어떤 발표가 나올지 주목할 가치가 있습니다. 그리고 그 전에, 같은 아이디어를 우리 손으로 구현해 보는 것이 가장 좋은 학습입니다.
이메일로 받아보기
관련 포스트

스스로 진화하는 AI 에이전트 — 2026년의 새로운 패러다임
GenericAgent, Evolver, Open Agents — 스스로 스킬을 만들고, 실행 경로를 기억하고, 실패에서 배우는 자가 진화 에이전트 3종 비교.

나만의 LLM Knowledge Base 구축하기 — Karpathy 스타일 지식 시스템
Obsidian + Claude Code로 영구적인 개인 지식 체계를 만드는 완전 가이드. 위키 + 메모리 두 축의 지식 시스템.

Karpathy의 CLAUDE.md가 48K 스타를 받은 이유 — 그리고 나만의 CLAUDE.md 작성법
마크다운 파일 하나로 AI 코딩 정확도를 65%에서 94%로. Karpathy의 4가지 규칙과 실전 작성법을 분석합니다.