bazzite-ai-plugins

bazzite-ai-jupyter

ML/AI development workflows for JupyterLab - LangChain, RAG, fine-tuning, and model optimization

development

12 skills

dpo

Direct Preference Optimization for learning from preference pairs. Covers DPOTrainer, preference dataset preparation, implicit reward modeling, and beta tuning for stable preference learning without explicit reward models. Includes thinking quality patterns.

finetuning

verified

Model fine-tuning with PyTorch and HuggingFace Trainer. Covers dataset preparation, tokenization, training loops, TrainingArguments, SFTTrainer for instruction tuning, evaluation, and checkpoint management. Includes Unsloth recommendations.

grpo

verified

Group Relative Policy Optimization for reinforcement learning from human feedback. Covers GRPOTrainer, reward function design, policy optimization, and KL divergence constraints for stable RLHF training. Includes thinking-aware reward patterns.

inference

verified

Fast inference with Unsloth and vLLM backend. Covers model loading, fast_generate(), thinking model output parsing, and memory management for efficient inference.

peft

verified

Parameter-efficient fine-tuning with LoRA and Unsloth. Covers LoraConfig, target module selection, QLoRA for 4-bit training, adapter merging, and Unsloth optimizations for 2x faster training.

qlora

verified

Advanced QLoRA experiments and comparisons. Covers alpha scaling, LoRA rank selection, target module strategies, continual learning, multi-adapter hot-swapping, and quantization comparison (4-bit vs BF16).

quantization

verified

Model quantization for efficient inference and training. Covers precision types (FP32, FP16, BF16, INT8, INT4), BitsAndBytes configuration, memory estimation, and performance tradeoffs.

reward

verified

Reward model training for RLHF pipelines. Covers RewardTrainer, preference dataset preparation, sequence classification heads, and reward scaling for stable reinforcement learning. Includes thinking quality scoring patterns.

rloo

verified

Reinforcement Learning with Leave-One-Out estimation for policy optimization. Covers RLOOTrainer, reward function integration, baseline estimation, and variance reduction techniques for stable RL training. Includes thinking-aware patterns.

sft

verified

Supervised Fine-Tuning with SFTTrainer and Unsloth. Covers dataset preparation, chat template formatting, training configuration, and Unsloth optimizations for 2x faster instruction tuning. Includes thinking model patterns.

transformers

verified

Transformer architecture fundamentals. Covers self-attention mechanism, multi-head attention, feed-forward networks, layer normalization, and residual connections. Essential concepts for understanding LLMs.

vision

verified

Vision model fine-tuning with FastVisionModel. Covers Pixtral, Ministral VL training, UnslothVisionDataCollator, image+text datasets, and vision-specific LoRA configuration.

bazzite-ai

apptainer

bootc

comfyui

config

install

jellyfin

jupyter

k3d

localai

ollama

openwebui

pods

runners

tailscale

test

vm

bazzite-ai-jupyter

dpo

finetuning

grpo

inference

peft

qlora

quantization

reward

rloo

sft

transformers

vision

bazzite

apps

audio

boot

desktop

distrobox

gaming

gpu

network

security

storage

system

virtualization

bazzite-ai-ollama

python

bazzite-ai-dev

build

clean

test