torchrun --nproc_per_node=$GPUS_PER_NODE --nnodes=$NNODES --node_rank=$NODE_RANK --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT \
-m swift.cli._megatron.sft \
--mcore_model $model_path \
--model_type wemllm \
--template wemllm \
--save_safetensors false \
--dataset $train_data_path \
--load_from_cache_file true \
--split_dataset_ratio 0.0 \
--moe_permute_fusion true \
--sequence_parallel true \
--tensor_model_parallel_size 1 \
--expert_model_parallel_size 32 \
--pipeline_model_parallel_size 1 \
--moe_grouped_gemm true \
--moe_shared_expert_overlap true \
--recompute_granularity full \
--recompute_method uniform \
--recompute_num_layers 1 \
--moe_aux_loss_coeff 1e-3 \
--cross_entropy_loss_fusion true \
--micro_batch_size 1 \
--global_batch_size 128 \
--num_train_epochs 1 \
--finetune true \
--freeze_llm false \
--freeze_vit false \
--freeze_aligner false \
--lr 8e-6 \
--lr_warmup_fraction 0.03 \
--min_lr 5e-7 \
--output_dir $output_dir \
--save_steps 300 \
--logging_steps 5 \
--save_total_limit 5 \
--max_length 16384 \
--dataloader_num_workers 8 \
--dataset_num_proc 8 \
--no_save_optim true \
--no_save_rng false \
--moe_expert_capacity_factor 1.25 \
--optimizer dist_muon \
--muon_extra_scale_factor 0.2 \
--bf16 true \
--optimizer_cpu_offload false \
--use_precision_aware_optimizer false \
--use_distributed_optimizer true \
--overlap_grad_reduce false \
--overlap_param_gather false \
--optimizer_offload_fraction 0 \
--accumulate_allreduce_grads_in_fp32 true \
--gradient_accumulation_fusion true \
--attention_backend flash
Checklist / 检查清单
Question Description / 问题描述
训练qwen3next模型:
脚本为:
启动训练时,第一个step就卡住:
环境: