AI EducademyAIEducademy
కార్యక్రమాలుల్యాబ్బ్లాగ్మా గురించి
సైన్ ఇన్
AI EducademyAIEducademy

అందరికీ, ప్రతి భాషలో ఉచిత AI విద్య.

నేర్చుకోండి

  • ప్రోగ్రాములు
  • పాఠాలు
  • ల్యాబ్
  • డాష్‌బోర్డ
  • మా గురించి

సంఘం

  • GitHub
  • సహకరించండి
  • ప్రవర్తనా నియమావళి

మద్దతు

  • కాఫీ కొనండి ☕

అందరికీ ఉచిత AI విద్య

MIT లైసెన్స్ — ఓపెన్ సోర్స్

Programs›🌿 AI Sprouts›Lessons›డేటాసెట్లు మరియు డేటా — AI యొక్క ఇంధనం
📊
AI Sprouts • ప్రారంభకుడు⏱️ 25 నిమిషాల పఠన సమయం

డేటాసెట్లు మరియు డేటా — AI యొక్క ఇంధనం

లెవల్ 2కి స్వాగతం! 👋

AI Seeds లో మీరు నేర్చుకున్నారు AI ఉదాహరణల నుండి నేర్చుకుంటుందని — పిల్లలు బొమ్మల పుస్తకాల నుండి జంతువులను గుర్తించడం నేర్చుకున్నట్లే. కానీ ఆ ఉదాహరణలు ఎక్కడ నుండి వస్తాయి?

సమాధానం డేటా — మరియు ఇది AI లో అత్యంత ముఖ్యమైన అంశం. చెడ్డ డేటా = చెడ్డ AI. మంచి డేటా = మంచి AI.

డేటా AI మోడల్‌లోకి ఇంధనంలా ప్రవహిస్తుంది
డేటా ప్రతి AI సిస్టమ్‌కు ఇంధనం

డేటా అంటే ఏమిటి? 🤔

డేటా అంటే నమోదు చేయబడిన సమాచారం. ప్రతి డిజిటల్ చర్య డేటా సృష్టిస్తుంది:

  • 📸 ఫోటో తీయడం → ఇమేజ్ డేటా
  • 💬 మెసేజ్ పంపడం → టెక్స్ట్ డేటా
  • 🎵 పాట వినడం → వినే చరిత్ర
  • 🛒 ఆన్‌లైన్‌లో కొనడం → లావాదేవీ డేటా
  • 📍 Google Maps తెరవడం → లొకేషన్ డేటా

AI లో మనం ఈ సమాచారాన్ని సేకరించి, క్రమబద్ధం చేసి, మెషీన్లకు నేర్పించడానికి ఉపయోగిస్తాం.


స్ట్రక్చర్డ్ vs అన్‌స్ట్రక్చర్డ్ డేటా

📋 స్ట్రక్చర్డ్ డేటా

వరుసలు మరియు నిలువు వరుసలలో సరిపోయే డేటా — స్ప్రెడ్‌షీట్ లాగా.

| పేరు | వయస్సు | నగరం | ఇష్టమైన రంగు | |------|--------|------|-------------| | ఆయిషా | 14 | లండన్ | నీలం | | రవి | 16 | హైదరాబాద్ | ఆకుపచ్చ | | ఎమ్మా | 15 | ఆమ్‌స్టర్‌డామ్ | ఎరుపు |

🖼️ అన్‌స్ట్రక్చర్డ్ డేటా

టేబుల్‌లో సరిపోని డేటా — ఇమేజ్‌లు, వీడియోలు, ఆడియో, ఇ-మెయిల్‌లు, సోషల్ మీడియా పోస్ట్‌లు.

🤯

ప్రపంచ డేటాలో 80% కంటే ఎక్కువ అన్‌స్ట్రక్చర్డ్! ఫోటోలు, వీడియోలు మరియు మెసేజ్‌లు స్ప్రెడ్‌షీట్‌ల కంటే చాలా ఎక్కువ. ఆధునిక డీప్ లెర్నింగ్ ఈ అస్తవ్యస్తమైన డేటాను నిర్వహించడానికే రూపొందించబడింది.


ట్రైనింగ్, వాలిడేషన్ మరియు టెస్ట్ డేటా

పరీక్షకు చదివేటప్పుడు, మీరు పుస్తకం మాత్రమే చదవరు — ప్రాక్టీస్ ప్రశ్నలు చేస్తారు, తర్వాత నిజమైన పరీక్ష రాస్తారు. AI కూడా అలాగే చేస్తుంది:

📚 ట్రైనింగ్ డేటా (పాఠ్యపుస్తకం)

అతిపెద్ద భాగం — మొత్తం డేటాలో 70–80%. AI మోడల్ ఇది అధ్యయనం చేసి నమూనాలు నేర్చుకుంటుంది.

📝 వాలిడేషన్ డేటా (ప్రాక్టీస్ ప్రశ్నలు)

సుమారు 10–15%. ట్రైనింగ్ సమయంలో ప్రగతి తనిఖీ చేయడానికి.

🎓 టెస్ట్ డేటా (తుది పరీక్ష)

మిగిలిన 10–15%. ట్రైనింగ్ తర్వాత ఉపయోగించబడుతుంది. మోడల్ ఈ డేటాను ఎప్పుడూ చూడలేదు.

from sklearn.model_selection import train_test_split

# విభజన: 80% ట్రైనింగ్, 20% తాత్కాలిక
train_data, temp_data = train_test_split(all_data, test_size=0.2)

# తాత్కాలిక సెట్ విభజన: సగం వాలిడేషన్, సగం టెస్ట్
val_data, test_data = train_test_split(temp_data, test_size=0.5)

print(f"Training: {len(train_data)}")
print(f"Validation: {len(val_data)}")
print(f"Test: {len(test_data)}")
🤔
Think about it:

మోడల్‌ను అదే డేటాపై ఎందుకు టెస్ట్ చేయలేము? ఎందుకంటే విద్యార్థికి ముందుగానే పరీక్ష ప్రశ్నలు ఇవ్వడం లాంటిది — పూర్తి మార్కులు వస్తాయి కానీ నిజమైన అవగాహన ఉండదు.


డేటా బయాస్ — ఎందుకు ముఖ్యం ⚖️

AI అది నేర్చుకునే డేటా అంత న్యాయమైనది మాత్రమే.

మీరు ఫేస్ రికగ్నిషన్ సిస్టమ్‌ను ఎక్కువగా తెల్లటి చర్మం ఉన్న వ్యక్తుల ఫోటోలతో ట్రైన్ చేస్తే, ముదురు చర్మం ఉన్న ముఖాలపై బాగా పనిచేయదు.

బయాస్ ఉదాహరణలు:

  • 🏥 హెల్త్‌కేర్ AI ఎక్కువగా పురుషుల డేటాపై ట్రైన్ — మహిళల్లో తప్పుడు రోగనిర్ధారణ
  • 💼 హైరింగ్ AI చారిత్రక రెజ్యూమ్‌లపై ట్రైన్ — మహిళా అభ్యర్థులకు నష్టం
  • 🚗 సెల్ఫ్-డ్రైవింగ్ కారులు ఎండ కాలిఫోర్నియాలో ట్రైన్ — వర్షం మరియు మంచులో ఇబ్బంది
💡

బయాస్ ఎల్లప్పుడూ స్పష్టంగా కనిపించదు. మీ డేటాసెట్‌లో 90% ఆంగ్ల టెక్స్ట్ ఉంటే, మీ AI ఆంగ్లంలో అద్భుతంగా కానీ హిందీ, తెలుగు లేదా డచ్‌లో బలహీనంగా ఉంటుంది. ఎల్లప్పుడూ అడగండి: "ఈ డేటాలో ఎవరు లేరు?"


ప్రసిద్ధ డేటాసెట్లు 🌍

✍️ MNIST

  • ఏమిటి: చేతిరాత అంకెల (0–9) 70,000 ఇమేజ్‌లు
  • ప్రాముఖ్యత: మెషిన్ లెర్నింగ్ యొక్క "Hello World"

🖼️ ImageNet

  • ఏమిటి: 20,000+ వర్గాలలో 14 మిలియన్ కంటే ఎక్కువ లేబుల్ చేసిన ఇమేజ్‌లు
  • ప్రాముఖ్యత: ImageNet పోటీ (2010–2017) ఇమేజ్ రికగ్నిషన్‌లో భారీ మెరుగుదలలు తెచ్చింది

🌐 Common Crawl

  • ఏమిటి: 2008 నుండి సేకరించిన పెటాబైట్ల వెబ్ డేటా
  • ప్రాముఖ్యత: GPT వంటి పెద్ద భాషా మోడల్‌లను ఇది నడుపుతుంది

🗣️ LibriSpeech

  • ఏమిటి: 1,000 గంటల చదివిన ఆంగ్ల స్పీచ్
  • ప్రాముఖ్యత: వాయిస్ అసిస్టెంట్ వంటి స్పీచ్ రికగ్నిషన్ సిస్టమ్‌లను ట్రైన్ చేయడానికి
🤯

మొత్తం MNIST డేటాసెట్ 15 MB కంటే తక్కువ — ఒక స్మార్ట్‌ఫోన్ ఫోటో కంటే చిన్నది! అయినా ఇది వేలాది AI కెరీర్‌లను ప్రారంభించింది.


ప్రాక్టీస్: డేటాసెట్ అన్వేషించడం 🔬

ప్రసిద్ధ Iris డేటాసెట్ అన్వేషించండి — 4 లక్షణాలతో 150 పూల కొలతలు.

import pandas as pd
from sklearn.datasets import load_iris

# డేటాసెట్ లోడ్ చేయండి
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]

# ప్రాథమిక అన్వేషణ
print("Shape:", df.shape)
print("\nమొదటి 5 వరుసలు:")
print(df.head())

print("\nజాతుల గణన:")
print(df['species'].value_counts())

print("\nప్రాథమిక గణాంకాలు:")
print(df.describe())

డేటాసెట్ అన్వేషించేటప్పుడు ఎల్లప్పుడూ అడగండి:

  1. ఎన్ని శాంపిల్స్? (వరుసలు)
  2. ఎన్ని లక్షణాలు? (నిలువు వరుసలు)
  3. క్లాసులు సమతుల్యంగా ఉన్నాయా?
  4. ఏదైనా విలువలు లేవా?
  5. సంఖ్యలు ఎలా కనిపిస్తున్నాయి? (పరిధి, సగటు, వ్యాప్తి)

సారాంశం 🎯

  1. డేటా నమోదు చేయబడిన సమాచారం — ఫోటోలు, మెసేజ్‌లు, క్లిక్‌లు
  2. స్ట్రక్చర్డ్ డేటా టేబుల్‌లో సరిపోతుంది; అన్‌స్ట్రక్చర్డ్ డేటా సరిపోదు
  3. డేటాను ట్రైనింగ్, వాలిడేషన్ మరియు టెస్ట్ సెట్‌లుగా విభజిస్తారు
  4. డేటా బయాస్ అన్యాయమైన AI కి దారితీస్తుంది — ఎవరు లేరో అడగండి
  5. MNIST, ImageNet మరియు Common Crawl వంటి డేటాసెట్లు నేటి AI కి శక్తినిస్తాయి
  6. మోడల్ నిర్మించే ముందు ఎల్లప్పుడూ డేటా అన్వేషించండి

తదుపరి ఏమిటి? 🚀

ఇప్పుడు మీకు AI ని ఏది శక్తివంతం చేస్తుందో తెలుసు. తదుపరి పాఠంలో మనం అల్గారిథమ్‌లు తెలుసుకుందాం — డేటాను తెలివైన నిర్ణయాలుగా మార్చే స్టెప్-బై-స్టెప్ రెసిపీలు!

Lesson 1 of 30 of 3 completed
←Back to programఅల్గారిథమ్‌లు వివరించబడ్డాయి — AI యొక్క రెసిపీలు→