Asoba Model Training Pipeline

Production-ready tooling and utilities for custom LLM training, fine-tuning, and deployment.

Overview

This repository contains Asoba's complete infrastructure for training custom language models. Currently supports Qwen and Mistral model families, with extensible architecture for future model integrations.

Core Capabilities

Data Collection & Corpus Building - Automated scrapers and collectors for domain-specific training data
Training Configurations - Hardware-optimized configs mapping models to tech stacks and instance types
One-Shot Training Scripts - Streamlined deployment across various AWS instance types
Monitoring & Validation - Real-time training progress tracking and quality assurance

Quick Start

Current Model Support

Model Family	Status	Hardware	Config
Qwen	✅ Production	g5.xlarge+	qwen/
Mistral	✅ Production	g5.2xlarge+	mistral/

Training a Model

# Qwen training (recommended)
./scripts/qwen/deploy_qwen_verbosity_training_to_gpu.sh

# Mistral training with operatives-last processing
./scripts/mistral/deploy_mistral_to_g5.sh

Repository Structure

├── scripts/
│   ├── qwen/                    # Qwen model training pipeline
│   ├── mistral/                 # Mistral model training pipeline  
│   ├── corpus-generation/       # Domain-specific data collection
│   └── monitoring/              # Production monitoring with alerts
├── data/
│   ├── corpus/                  # Pre-built training datasets
│   ├── collectors/              # Data processing utilities
│   └── validation/              # Quality assurance pipelines
├── infrastructure/              # AWS deployment automation
├── training/                    # QLora trainers and frameworks
├── config/                      # Hardware-optimized configurations
└── tests/                       # Comprehensive test coverage

Corpus Collection

Supported Domains

IAC/DevOps - Infrastructure as Code, CI/CD, containerization
Policy Analysis - Government policy, insurance, academic research
Security/Compliance - Cybersecurity frameworks, compliance standards
NSFW Content - Adult content classification and moderation

Usage

# Collect domain-specific corpus
./scripts/corpus-generation/iac-devops-corpus/corpus-builders/create_final_iac_corpus.py

# Validate corpus quality
./data/validation/universal_validation_pipeline.py

Training Pipelines

Qwen Pipeline

Golden Config: Optimized for Claude.md methodology compliance
Hardware: g5.xlarge minimum, g5.2xlarge+ recommended
Specialization: IAC/DevOps, code generation, system prompts

→ Qwen Training Guide

Mistral Pipeline

Operatives-Last Processing: Handles 3M+ file collections efficiently
Hardware: g5.2xlarge minimum for stable training
Specialization: Policy analysis, multi-domain reasoning

→ Mistral Training Guide

Infrastructure

One-Shot Deployment

# Deploy training instance with automatic setup
./infrastructure/auto-deploy-mistral.sh

# Setup QLora training environment
./infrastructure/setup_qlora_instance.sh

Hardware Configurations

Instance Type	vCPUs	Memory	GPU	Best For
g5.xlarge	4	16GB	1x A10G	Development, small models
g5.2xlarge	8	32GB	1x A10G	Production training
g5.4xlarge	16	64GB	1x A10G	Large model fine-tuning

Monitoring

Production-grade monitoring with failure detection and Slack alerts:

# Monitor with alerts (recommended)
./scripts/monitoring/production_monitor.sh mistral-20250804-171621

# Basic monitoring without alerts
python3 scripts/monitoring/monitor.py --run-id mistral-20250804-171621

# One-time status check
python3 scripts/monitoring/monitor.py --run-id mistral-20250804-171621 --once

Features:

Silent failure detection with dual heartbeat monitoring
Actionable Slack alerts with remediation steps
Automatic error capture via S3 sentinels
Direct S3 console links for quick debugging

→ Production Monitoring Guide

Development

Testing

# Run comprehensive test suite
pytest tests/

# Validate training configurations
./scripts/qwen/validate_qwen_styles.py
./scripts/mistral/validate_mistral_golden_config.py

Contributing

Follow CLAUDE.md methodology: Explore → Plan → Code → Commit
All training data must be from authentic, real-world sources
Maintain comprehensive test coverage
Hardware configs must be validated across instance types

Built by Asoba for production LLM training at scale.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.github/workflows		.github/workflows
config		config
data		data
docs		docs
infrastructure		infrastructure
scripts		scripts
tests		tests
.gitignore		.gitignore
ACTUAL_STATE.md		ACTUAL_STATE.md
AMI_DEPLOYMENT_GUIDE.md		AMI_DEPLOYMENT_GUIDE.md
CLAUDE.md		CLAUDE.md
COMPLETE_TRAINING_GUIDE.md		COMPLETE_TRAINING_GUIDE.md
DEPLOYMENT_SYSTEM.md		DEPLOYMENT_SYSTEM.md
MISTRAL_TRAINING_PLAN.md		MISTRAL_TRAINING_PLAN.md
MONITORING_SYSTEM_FIXES.md		MONITORING_SYSTEM_FIXES.md
OFFICIAL_MISTRAL_OOM_FIX.md		OFFICIAL_MISTRAL_OOM_FIX.md
README.md		README.md
TRAINING_MEMORY_FIX.md		TRAINING_MEMORY_FIX.md
check_training.sh		check_training.sh
comprehensive_model_manifest.json		comprehensive_model_manifest.json
copy_essential_files.sh		copy_essential_files.sh
deploy-model.sh		deploy-model.sh
insights.md		insights.md
launch_training.sh		launch_training.sh
merge_and_push_models.py		merge_and_push_models.py
merge_models_from_s3.py		merge_models_from_s3.py
mistral_pipeline_mistral-20250804-164040.log		mistral_pipeline_mistral-20250804-164040.log
mistral_pipeline_mistral-20250804-164236.log		mistral_pipeline_mistral-20250804-164236.log
mistral_pipeline_mistral-20250804-164309.log		mistral_pipeline_mistral-20250804-164309.log
mistral_pipeline_mistral-20250804-171621.log		mistral_pipeline_mistral-20250804-171621.log
mistral_training_info.txt		mistral_training_info.txt
model_manifest.json		model_manifest.json
push_to_huggingface.py		push_to_huggingface.py
real_tests.zip		real_tests.zip
requirements.txt		requirements.txt
safe_kill_duplicates.sh		safe_kill_duplicates.sh
test_fixes.py		test_fixes.py
test_heartbeat_monitoring.py		test_heartbeat_monitoring.py
test_monitoring_cleanup.py		test_monitoring_cleanup.py
test_new_run_isolation.py		test_new_run_isolation.py
test_slack_alert.py		test_slack_alert.py
validate-components.sh		validate-components.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Asoba Model Training Pipeline

Overview

Core Capabilities

Quick Start

Current Model Support

Training a Model

Repository Structure

Corpus Collection

Supported Domains

Usage

Training Pipelines

Qwen Pipeline

Mistral Pipeline

Infrastructure

One-Shot Deployment

Hardware Configurations

Monitoring

Development

Testing

Contributing

About

Uh oh!

Releases

Packages

Languages

AsobaCloud/modelTraining

Folders and files

Latest commit

History

Repository files navigation

Asoba Model Training Pipeline

Overview

Core Capabilities

Quick Start

Current Model Support

Training a Model

Repository Structure

Corpus Collection

Supported Domains

Usage

Training Pipelines

Qwen Pipeline

Mistral Pipeline

Infrastructure

One-Shot Deployment

Hardware Configurations

Monitoring

Development

Testing

Contributing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages