Implementation Documentation

This document provides detailed information about the zip-json implementation, architecture, and internal design decisions.

Architecture Overview
Module Structure
Core Components
File System Integration
Compression Strategy
Error Handling
Testing Strategy
Build Process
Development Workflow
Performance Considerations

Architecture Overview

The zip-json package follows a modular architecture with clear separation of concerns:

┌─────────────────┐    ┌─────────────────┐
│   CLI Layer     │    │   API Layer     │
└─────────────────┘    └─────────────────┘
         │                       │
         └───────────┬───────────┘
                     │
         ┌─────────────────┐
         │  Core Services  │
         │  - Archiver     │
         │  - Extractor    │
         │  - Compressor   │
         └─────────────────┘
                     │
         ┌─────────────────┐
         │   Utilities     │
         │  - File ops     │
         │  - Glob match   │
         │  - Formatting   │
         └─────────────────┘

Design Principles:

Single Responsibility: Each module has a clear, focused purpose
Dependency Injection: Components are loosely coupled through interfaces
Error Boundaries: Comprehensive error handling with custom error types
Async/Await: Consistent asynchronous programming model
Type Safety: Full TypeScript coverage with strict type checking

Module Structure

Core Modules (`src/core/`)

types.ts - TypeScript type definitions and custom error classes
archiver.ts - Creates archives from file patterns
extractor.ts - Extracts files from archives
compressor.ts - Handles gzip compression/decompression with base64 encoding

Utility Modules (`src/utils/`)

file.ts - File system operations with error handling
glob.ts - Glob pattern processing and normalization
format.ts - Formatting utilities for display and logging

Entry Points

src/index.ts - Main API exports for programmatic use
src/cli.ts - Command-line interface implementation

Build and Testing

scripts/build.ts - Custom build script for dual ESM/CommonJS output
tests/ - Comprehensive test suite with unit and integration tests

Core Components

Archiver

The Archiver class is responsible for creating archives from file patterns.

Key Features:

Glob pattern matching with ignore support
Progress tracking with throttled callbacks
Relative path calculation from base directory
File metadata collection (size, permissions, timestamps)
Streaming compression for memory efficiency

Implementation Details:

class Archiver {
  async archive(patterns: string[], options?: ZipOptions): Promise<ZipJsonData>
}

Process Flow:

Normalize and expand glob patterns
Apply ignore patterns to filter files
Calculate relative paths from base directory
Read file contents and collect metadata
Compress file contents using gzip
Encode compressed data as base64
Return structured archive with metadata

Extractor

The Extractor class handles archive extraction and file restoration.

Key Features:

Archive validation and integrity checking
Selective file extraction support
Permission preservation (optional)
Overwrite protection
Progress tracking for large extractions

Implementation Details:

class Extractor {
  async extract(archive: ZipJsonData, options?: UnzipOptions): Promise<string[]>
}

Process Flow:

Validate archive structure and metadata
Decode base64 blob to compressed data
Decompress using gzip
Parse file contents JSON
Create directory structure
Write files with optional permission restoration
Return list of extracted file paths

Compressor

The Compressor class provides compression and decompression services.

Key Features:

Gzip compression with level 9 (maximum compression)
Base64 encoding for JSON compatibility
Error handling for corrupted data
Streaming support for large data sets

Implementation Details:

class Compressor {
  async compress(data: string): Promise<string>
  async decompress(compressedData: string): Promise<string>
}

Compression Strategy:

Uses Node.js zlib.gzip() with compression level 9
Encodes binary gzip data as base64 for JSON storage
Handles both text and binary data efficiently

File System Integration

File Operations

All file system operations are abstracted through utility functions in src/utils/file.ts:

// Core file operations
export async function readFileContent(filePath: string): Promise<Buffer>
export async function writeFileContent(filePath: string, content: Buffer): Promise<void>
export async function getFileStats(filePath: string): Promise<FileEntry>

// Path utilities
export function makeRelativePath(filePath: string, baseDir: string): string
export function joinPath(...segments: string[]): string
export function getDirName(filePath: string): string

// System integration
export function fileExists(filePath: string): boolean
export async function setFilePermissions(filePath: string, mode: number): Promise<void>

Error Handling:

FileNotFoundError for missing files/directories
PermissionError for access control issues
Generic error pass-through for unexpected conditions

Glob Pattern Processing

Glob patterns are processed using the glob library with custom normalization:

// Pattern normalization
export function normalizePattern(pattern: string): string

// Default ignore patterns
export function addDefaultIgnores(patterns: string[]): string[]

Built-in Ignore Patterns:

node_modules/** - npm/yarn dependencies
.git/** - Git repository data
.DS_Store - macOS system files
Thumbs.db - Windows thumbnail cache

Compression Strategy

Archive Format

The ZipJsonData format is designed for efficiency and compatibility:

{
  "meta": {
    "version": "1.0.0",
    "createdAt": "2024-01-15T10:30:00.000Z",
    "files": [...],
    "totalSize": 1048576,
    "fileCount": 25
  },
  "blob": "H4sIAAAAAAAA..."
}

Design Decisions:

JSON Format: Human-readable, widely supported, easy to validate
Separate Metadata: Fast listing without decompression
Base64 Encoding: Binary data compatibility with JSON
Gzip Compression: Excellent compression ratio, fast decompression

Compression Performance

Benchmarks (approximate, varies by content):

Text files: 60-80% compression ratio
Binary files: 20-40% compression ratio
Mixed content: 40-60% compression ratio

Memory Usage:

Streaming compression for files > 1MB
In-memory processing for smaller files
Peak memory: ~2x largest file size

Error Handling

Error Hierarchy

Error
├── FileNotFoundError
├── PermissionError
├── InvalidArchiveError
├── OverwriteError
└── CompressionError

Error Context:

All custom errors include relevant context (file paths, operations)
Original error causes are preserved and wrapped
Error messages are user-friendly and actionable

Validation Strategy

Archive Validation:

Check required properties exist
Validate metadata structure
Verify base64 encoding format
Test compression integrity
Validate file entry consistency

Runtime Validation:

Input parameter type checking
File system access validation
Pattern syntax verification
Path traversal protection

Testing Strategy

Test Coverage

The project maintains comprehensive test coverage across all modules with high coverage metrics for both unit and integration tests.

Test Structure

tests/
├── unit/                 # Unit tests for individual modules
│   ├── archiver.test.ts
│   ├── extractor.test.ts
│   ├── compressor.test.ts
│   ├── file.test.ts
│   └── utils.test.ts
├── integration/          # End-to-end integration tests
│   ├── api.test.ts
│   └── cli.test.ts
└── fixtures/             # Shared test utilities
    └── test-setup.ts

Testing Philosophy:

Unit Tests: Focus on individual component behavior
Integration Tests: Test complete workflows
Error Path Testing: Comprehensive error condition coverage
Edge Case Testing: Boundary conditions and unusual inputs

Test Environment

Framework: Bun Test (native, fast, TypeScript support) Utilities: Custom test setup helpers for file system operations Coverage: Built-in coverage reporting with detailed metrics CI/CD: GitHub Actions for automated testing

Build Process

Dual Module Output

The build process generates both ESM and CommonJS outputs:

// ESM (dist/esm/)
export { zip, unzip, list } from './index.js'

// CommonJS (dist/cjs/)
module.exports = { zip, unzip, list }

Build Configuration:

TypeScript compilation with strict settings
Separate tsconfig for each module format
Preserved source maps for debugging
Declaration files for TypeScript consumers

Build Script

Custom build script (scripts/build.ts) handles:

Clean previous build outputs
Create directory structure
Compile TypeScript declarations
Build ESM and CommonJS formats using Bun.build()
Generate CLI executable with proper shebang
Set executable permissions

Bundle Analysis

Output Size (gzipped):

Core library: ~25KB
CLI wrapper: ~5KB
Type definitions: ~3KB
Total package: ~35KB

Development Workflow

Git Hooks with Husky

The project uses Husky for automated Git hooks to ensure code quality and consistent commit messages:

Pre-commit Hook (.husky/pre-commit):

bun run check

Runs Biome linting and formatting checks
Prevents commits with code style issues
Ensures all staged code passes quality standards

Commit Message Hook (.husky/commit-msg):

bunx commitlint --edit $1

Validates commit messages against conventional commit format
Enforces consistent commit message structure
Supports automated changelog generation

Conventional Commits

The project follows the Conventional Commits specification for structured commit messages:

Supported Types:

feat - New features
fix - Bug fixes
docs - Documentation changes
style - Code formatting changes
refactor - Code restructuring without functional changes
perf - Performance improvements
test - Test additions or modifications
build - Build system changes
ci - CI/CD configuration changes
chore - Maintenance tasks

Commit Format:

type(scope): description

[optional body]

[optional footer]

Example Commits:

feat: add progress tracking to compression
fix: resolve memory leak in large file processing
docs: update api documentation for new features

Development Scripts

Code Quality:

bun run check      # Full linting and type checking
bun run lint       # Auto-fix linting issues
bun run format     # Format code with Biome

Testing:

bun run test              # Run all tests
bun run test:coverage     # Run tests with coverage
bun run test:watch        # Watch mode for development

Building:

bun run build             # Full production build
bun run build:watch       # Watch mode for development

Committing:

bun run commit            # Interactive commit with Commitizen
git commit -m "feat: ..."  # Manual conventional commit

Code Quality Tools

Biome Configuration:

ESLint-compatible linting rules
Prettier-compatible formatting
TypeScript-aware static analysis
Import organization and optimization

TypeScript Configuration:

Strict mode enabled
Exact optional property types
No unused variables/parameters
Comprehensive type checking

Commitlint Configuration:

Conventional commit format enforcement
Custom rules for project-specific requirements
Integration with automated release tools

Performance Considerations

Memory Management

Large File Handling:

Stream processing for files > 10MB
Chunked compression for memory efficiency
Garbage collection hints for large operations

Memory Patterns:

Peak usage during compression: ~2x input size
Steady state: ~100KB baseline
Cleanup: Explicit buffer management

I/O Optimization

File System Access:

Batch operations where possible
Async/await for non-blocking I/O
Error-first callback pattern for robustness

Glob Processing:

Efficient pattern matching algorithms
Early termination for ignore patterns
Directory traversal optimization

CPU Usage

Compression:

Multi-threaded gzip (Node.js worker threads)
Adaptive compression levels based on content
Progress reporting with minimal overhead

JSON Processing:

Streaming JSON parsing for large archives
Incremental base64 encoding
Memory-efficient string handling

Benchmarks

Performance Metrics (1000 files, ~100MB total):

Archiving: ~15 seconds
Extraction: ~8 seconds
Listing: ~100ms
Memory peak: ~200MB

Scaling Characteristics:

Linear time complexity with file count
Logarithmic memory growth with archive size
Constant time for metadata operations

Security Considerations

Path Traversal Protection

Validates all output paths are within target directory
Normalizes path separators across platforms
Prevents symbolic link attacks

File Permissions

Optional permission preservation
Safe default permissions (644 for files, 755 for directories)
Platform-specific permission handling

Input Validation

Archive structure validation
Pattern syntax verification
File size and count limits
Base64 encoding validation

Platform Compatibility

Supported Platforms

Node.js: 16+ (LTS and current)
Bun: 1.0+ (native runtime)
Operating Systems: macOS, Linux, Windows
Architectures: x64, ARM64

Platform-Specific Features

Windows:

Path separator normalization
Case-insensitive file systems
Permission mapping to ACLs

macOS/Linux:

Native Unix permissions
Symbolic link handling
Extended attributes (future)

Runtime Detection

// Platform-specific behavior
if (process.platform === 'win32') {
  // Windows-specific logic
} else {
  // Unix-like systems
}

Future Enhancements

Planned Features

Streaming API: Large archive support without memory limits
Encryption: Optional AES encryption for sensitive data
Compression Options: Configurable compression levels
Delta Archives: Incremental backup support
Web Assembly: Browser compatibility layer

API Stability

Current Version: 1.0.0 Compatibility Promise: Semantic versioning with backward compatibility Breaking Changes: Only in major version updates Deprecation Policy: 6-month notice for API changes

FilesExpand file tree

implementation.md

Latest commit

History

implementation.md

File metadata and controls

Implementation Documentation

Table of Contents

Architecture Overview

Module Structure

Core Modules (src/core/)

Utility Modules (src/utils/)

Entry Points

Build and Testing

Core Components

Archiver

Extractor

Compressor

File System Integration

File Operations

Glob Pattern Processing

Compression Strategy

Archive Format

Compression Performance

Error Handling

Error Hierarchy

Validation Strategy

Testing Strategy

Test Coverage

Test Structure

Test Environment

Build Process

Dual Module Output

Build Script

Bundle Analysis

Development Workflow

Git Hooks with Husky

Conventional Commits

Development Scripts

Code Quality Tools

Performance Considerations

Memory Management

I/O Optimization

CPU Usage

Benchmarks

Security Considerations

Path Traversal Protection

File Permissions

Input Validation

Platform Compatibility

Supported Platforms

Platform-Specific Features

Runtime Detection

Future Enhancements

Planned Features

API Stability

Core Modules (`src/core/`)

Utility Modules (`src/utils/`)