AI Branches లో మీరు న్యూరల్ నెట్వర్క్లకు లేయర్లు ఉంటాయని నేర్చుకున్నారు. ఒకటి లేదా రెండు హిడెన్ లేయర్లున్న నెట్వర్క్ షాలో. మరిన్ని లేయర్లు జోడించండి — 10, 50, 100+ — మీకు డీప్ న్యూరల్ నెట్వర్క్ ఉంటుంది.
ప్రతి లేయర్ ఒక భిన్నమైన ఆబ్స్ట్రాక్షన్ స్థాయి నేర్చుకుంటుంది:
లేయర్ 1 → అంచులు మరియు సరళ టెక్స్చర్లు
లేయర్ 2 → మూలలు మరియు ఆకృతులు
లేయర్ 3 → వస్తువుల భాగాలు (కళ్ళు, చక్రాలు)
లేయర్ 4 → మొత్తం వస్తువులు (ముఖాలు, కార్లు)
లేయర్ 5+ → దృశ్యాలు మరియు సందర్భం
మీరు ఒక పుస్తకం చదువుతున్నారని ఊహించుకోండి. లేయర్ 1 అక్షరాలను గుర్తిస్తుంది, లేయర్ 2 పదాలను, లేయర్ 3 వాక్యాలను అర్థం చేసుకుంటుంది, లేయర్ 4 పూర్తి అర్థాన్ని గ్రహిస్తుంది. లేయర్ 1 వద్ద ఆగిపోయిన షాలో రీడర్ అక్షరాలు మాత్రమే చూస్తారు — కథ ఎప్పటికీ అర్థం కాదు.
తొలి పరిశోధకులు చాలా లేయర్లను స్టాక్ చేయడానికి ప్రయత్నించారు, కానీ ట్రైనింగ్ విఫలమవుతూ ఉంది. కారణం: వానిషింగ్ గ్రేడియెంట్లు. ఎర్రర్ సిగ్నల్స్ ప్రతి లేయర్ గుండా 0 మరియు 1 మధ్య సంఖ్యలతో గుణించబడతాయి, సిగ్నల్ దాదాపు సున్నాకి చేరుకునే వరకు.
1. ReLU యాక్టివేషన్ — పాజిటివ్ ఇన్పుట్లకు గ్రేడియెంట్ సరిగ్గా 1.
2. స్కిప్ కనెక్షన్లు — సిగ్నల్ లేయర్లను దాటవేయగలదు.
3. బ్యాచ్ నార్మలైజేషన్ — ప్రతి లేయర్ ఇన్పుట్లను నార్మలైజ్ చేస్తుంది.
ఈ ఆవిష్కరణలకు ముందు, 10 కంటే ఎక్కువ లేయర్ల నెట్వర్క్లను ట్రైన్ చేయడం దాదాపు అసాధ్యం. తర్వాత, పరిశోధకులు 1,000+ లేయర్ల నెట్వర్క్లను విజయవంతంగా ట్రైన్ చేశారు!
ResNet స్కిప్ కనెక్షన్లను ప్రవేశపెట్టింది మరియు 152-లేయర్ నెట్వర్క్తో ImageNet గెలిచింది. ప్రతి బ్లాక్ రెసిడ్యువల్ నేర్చుకుంటుంది.
Transformer ఆర్కిటెక్చర్ సీక్వెన్షియల్ ప్రాసెసింగ్ను సెల్ఫ్-అటెన్షన్ మెకానిజంతో భర్తీ చేసింది. టెక్స్ట్ను పదం వారీగా చదవడానికి బదులు, అన్ని పదాలను ఏకకాలంలో చూస్తుంది.
"పిల్లి చాప మీద కూర్చుంది ఎందుకంటే అది అలసిపోయింది"
సెల్ఫ్-అటెన్షన్: "అది" దేనిని సూచిస్తుంది?
"అది" ←→ "పిల్లి" (అధిక స్కోర్: 0.82)
"అది" ←→ "చాప" (తక్కువ స్కోర్: 0.11)
Transformers GPT, Claude, Llama మరియు దాదాపు ప్రతి ఆధునిక LLM వెనుక ఉన్న ఆర్కిటెక్చర్. తదుపరి పాఠంలో మరింత లోతుగా తెలుసుకుందాం.
మొదటి నుండి డీప్ నెట్వర్క్ ట్రైన్ చేయడానికి లక్షల ఉదాహరణలు అవసరం. ట్రాన్స్ఫర్ లర్నింగ్ ఈ పనిని దాటవేయనిస్తుంది: ముందుగా ట్రైన్ చేసిన మోడల్ తీసుకుని, మీ డేటాపై ఫైన్-ట్యూన్ చేయండి.
ట్రాన్స్ఫర్ లర్నింగ్ ఫ్రెంచ్ నుండి జపనీస్ వంటకాలకు మారే అనుభవజ్ఞుడైన చెఫ్ లాంటిది. కత్తి పట్టడం మళ్ళీ నేర్చుకోవాల్సిన అవసరం లేదు — ఆ నైపుణ్యాలు బదిలీ అవుతాయి.
న్యూరల్ నెట్వర్క్ ట్రైనింగ్ ప్రధానంగా మాట్రిక్స్ గుణకారం. CPUలు ఒకదాని తర్వాత ఒకటి ప్రాసెస్ చేస్తాయి. GPUలు వేలకొలది ఏకకాలంలో ప్రాసెస్ చేస్తాయి.
model = load_pretrained_model("resnet50")
for layer in model.layers:
layer.trainable = False
model.final_layer = DenseLayer(input_size=2048, output_size=3)
model.final_layer.trainable = True
train_data = load_images("flowers/train/", categories=["గులాబి", "సూర్యకాంతి", "ట్యూలిప్"])
val_data = load_images("flowers/val/", categories=["గులాబి", "సూర్యకాంతి", "ట్యూలిప్"])
model.compile(optimizer="adam", loss="cross_entropy", learning_rate=0.001)
model.fit(train_data, validation_data=val_data, epochs=5)
accuracy = model.evaluate(val_data)
print(f"వాలిడేషన్ ఖచ్చితత్వం: {accuracy:.1%}")
ఎంత తక్కువ డేటా అవసరమో చూడండి! ట్రాన్స్ఫర్ లర్నింగ్ భారీ డేటాసెట్లు లేకుండానే డీప్ లర్నింగ్ను అందుబాటులోకి తెస్తుంది.
తదుపరి పాఠంలో లార్జ్ లాంగ్వేజ్ మోడల్స్ లోతుగా తెలుసుకుందాం — ChatGPT, Claude మరియు AI విప్లవం వెనుక ఉన్న ఇంజిన్లు. 📝