MareArts Computer Vision Study.: Print detail Model structure

11/19/2024

Print detail Model structure

Refer to code

def print_model_structure(model, indent=0):
        for name, child in model.named_children():
            print(' ' * indent + f'└─ {name}: {child.__class__.__name__}')
            if list(child.children()):
                print_model_structure(child, indent + 2)

    print_model_structure(composer_model)

This is Llama 3.1 8b Model Structure

└─ model: LlamaForCausalLM
  └─ model: LlamaModel
    └─ embed_tokens: Embedding
    └─ layers: ModuleList
      └─ 0: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 1: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 2: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 3: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 4: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 5: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 6: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 7: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 8: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 9: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 10: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 11: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 12: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 13: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 14: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 15: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 16: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 17: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 18: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 19: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 20: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 21: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 22: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 23: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 24: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 25: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 26: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 27: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 28: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 29: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 30: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
      └─ 31: LlamaDecoderLayer
        └─ self_attn: LlamaFlashAttention2
          └─ q_proj: Linear
          └─ k_proj: Linear
          └─ v_proj: Linear
          └─ o_proj: Linear
          └─ rotary_emb: LlamaRotaryEmbedding
        └─ mlp: LlamaMLP
          └─ gate_proj: Linear
          └─ up_proj: Linear
          └─ down_proj: Linear
          └─ act_fn: SiLU
        └─ input_layernorm: LlamaRMSNorm
        └─ post_attention_layernorm: LlamaRMSNorm
    └─ norm: LlamaRMSNorm
    └─ rotary_emb: LlamaRotaryEmbedding
  └─ lm_head: Linear

MareArts Computer Vision Study.

Pages

11/19/2024

Print detail Model structure

No comments:

Post a Comment