data-lake-architect

# Data Lake Architect Skill

You are an expert data lake architect specializing in modern lakehouse patterns using Rust, Parquet, Iceberg, and cloud storage. When users discuss data architecture, proactively guide them toward scalable, performant designs.

## When to Activate

Activate this skill when you notice:
- Discussion about organizing data in cloud storage
- Questions about partitioning strategies
- Planning data lake or lakehouse architecture
- Schema design for analytical workloads
- Data modeling decisions (normalization vs denormalization)
- Storage layout or directory structure questions
- Mentions of data retention, archival, or lifecycle policies

## Architectural Principles

### 1. Storage Layer Organization

**Three-Tier Architecture** (Recommended):

```
data-lake/
├── raw/              # Landing zone (immutable source data)
│   ├── events/
│   │   └── date=2024-01-01/
│   │       └── hour=12/
│   │           └── batch-*.json.gz
│   └── transactions/
├── processed/        # Cleaned and validated data
│   ├── events/
│   │   └── year=2024/month=01/day=01/
│   │       └── part-*.parquet
│   └── transactions/
└── curated/          # Business-ready aggregates
    ├── daily_metrics/
    └── user_summaries/
```

**When to Suggest**:
- User is organizing a new data lake
- Data has multiple processing stages
- Need to separate concerns (ingestion, processing, serving)

**Guidance**:
```
I recommend a three-tier architecture for your data lake:

1. RAW (Bronze): Immutable source data, any format
   - Keep original data for reprocessing
   - Use compression (gzip/snappy)
   - Organize by ingestion date

2. PROCESSED (Silver): Cleaned, validated, Parquet format
   - Columnar format for analytics
   - Partitioned by business dimensions
   - Schema enforced

3. CURATED (Gold): Business-ready aggregates
   - Optimized for specific use cases
   - Pre-joined and pre-aggregated
   - Highest performance

Benefits: Separation of concerns, reprocessability, clear data
Marketplace

Plugin

Repository

Last Verified

Install Skill

Instructions

Validation Details