{
  "id": "bbg-p0038-ai-models-and-llm-systems",
  "title": "Reasoning Model Training Path",
  "chapter": "ai-models-and-llm-systems",
  "batch": "14",
  "rank": 136,
  "sourcePage": 38,
  "sourcePointer": "p. 38",
  "status": "accepted",
  "reviewerStatus": "reviewed",
  "fidelityScore": 0.9,
  "canvas": {
    "width": 960,
    "height": 640
  },
  "fireworksTechGraph": {
    "style": "style-1-flat-icon",
    "diagramType": "flowchart",
    "topologyNotes": [
      "source page render inspected",
      "extracted page text inspected",
      "source page render and extracted text inspected",
      "preserve DeepSeek one-page signal: low-cost training narrative, reasoning model, SFT limits, reinforcement learning, and release impact",
      "omit brand-heavy poster details"
    ],
    "publicBoundary": [
      "original vector output",
      "no source pixels",
      "no source mark or long wording"
    ]
  },
  "callouts": [],
  "sourceReview": {
    "conceptAnchors": [
      "concept: reasoning-focused model",
      "concept: supervised fine-tuning limit",
      "concept: reinforcement learning",
      "concept: efficient training cost",
      "concept: release impact"
    ],
    "labelSource": "curated",
    "semanticStatus": "reviewed"
  },
  "groups": [
    {
      "id": "path",
      "label": "Model improvement path",
      "x": 54,
      "y": 150,
      "w": 852,
      "h": 260
    }
  ],
  "shapes": [
    {
      "id": "base",
      "kind": "hex",
      "label": "Base model",
      "detail": "pretrained",
      "x": 96,
      "y": 230,
      "w": 126,
      "h": 78,
      "tone": "blue"
    },
    {
      "id": "sft",
      "kind": "rect",
      "label": "SFT",
      "detail": "imitate examples",
      "x": 280,
      "y": 240,
      "w": 126,
      "h": 58,
      "tone": "orange"
    },
    {
      "id": "rl",
      "kind": "rect",
      "label": "RL reasoning",
      "detail": "self-improve",
      "x": 464,
      "y": 240,
      "w": 126,
      "h": 58,
      "tone": "green"
    },
    {
      "id": "reason",
      "kind": "hex",
      "label": "Reasoning model",
      "detail": "solve tasks",
      "x": 648,
      "y": 230,
      "w": 138,
      "h": 78,
      "tone": "purple"
    },
    {
      "id": "cost",
      "kind": "rect",
      "label": "Efficient run",
      "detail": "lower cost",
      "x": 370,
      "y": 342,
      "w": 138,
      "h": 54,
      "tone": "teal"
    }
  ],
  "connectors": [
    {
      "from": "base",
      "to": "sft",
      "label": "align",
      "flow": "main"
    },
    {
      "from": "sft",
      "to": "rl",
      "label": "improve",
      "flow": "main"
    },
    {
      "from": "rl",
      "to": "reason",
      "label": "reason",
      "flow": "main"
    },
    {
      "from": "cost",
      "to": "rl",
      "label": "optimize",
      "flow": "control",
      "dashed": true
    }
  ]
}