AI Seeds లో మీరు నేర్చుకున్నారు AI ఉదాహరణల నుండి నేర్చుకుంటుందని — పిల్లలు బొమ్మల పుస్తకాల నుండి జంతువులను గుర్తించడం నేర్చుకున్నట్లే. కానీ ఆ ఉదాహరణలు ఎక్కడ నుండి వస్తాయి?
సమాధానం డేటా — మరియు ఇది AI లో అత్యంత ముఖ్యమైన అంశం. చెడ్డ డేటా = చెడ్డ AI. మంచి డేటా = మంచి AI.
డేటా అంటే నమోదు చేయబడిన సమాచారం. ప్రతి డిజిటల్ చర్య డేటా సృష్టిస్తుంది:
AI లో మనం ఈ సమాచారాన్ని సేకరించి, క్రమబద్ధం చేసి, మెషీన్లకు నేర్పించడానికి ఉపయోగిస్తాం.
వరుసలు మరియు నిలువు వరుసలలో సరిపోయే డేటా — స్ప్రెడ్షీట్ లాగా.
| పేరు | వయస్సు | నగరం | ఇష్టమైన రంగు | |------|--------|------|-------------| | ఆయిషా | 14 | లండన్ | నీలం | | రవి | 16 | హైదరాబాద్ | ఆకుపచ్చ | | ఎమ్మా | 15 | ఆమ్స్టర్డామ్ | ఎరుపు |
టేబుల్లో సరిపోని డేటా — ఇమేజ్లు, వీడియోలు, ఆడియో, ఇ-మెయిల్లు, సోషల్ మీడియా పోస్ట్లు.
ప్రపంచ డేటాలో 80% కంటే ఎక్కువ అన్స్ట్రక్చర్డ్! ఫోటోలు, వీడియోలు మరియు మెసేజ్లు స్ప్రెడ్షీట్ల కంటే చాలా ఎక్కువ. ఆధునిక డీప్ లెర్నింగ్ ఈ అస్తవ్యస్తమైన డేటాను నిర్వహించడానికే రూపొందించబడింది.
పరీక్షకు చదివేటప్పుడు, మీరు పుస్తకం మాత్రమే చదవరు — ప్రాక్టీస్ ప్రశ్నలు చేస్తారు, తర్వాత నిజమైన పరీక్ష రాస్తారు. AI కూడా అలాగే చేస్తుంది:
అతిపెద్ద భాగం — మొత్తం డేటాలో 70–80%. AI మోడల్ ఇది అధ్యయనం చేసి నమూనాలు నేర్చుకుంటుంది.
సుమారు 10–15%. ట్రైనింగ్ సమయంలో ప్రగతి తనిఖీ చేయడానికి.
మిగిలిన 10–15%. ట్రైనింగ్ తర్వాత ఉపయోగించబడుతుంది. మోడల్ ఈ డేటాను ఎప్పుడూ చూడలేదు.
from sklearn.model_selection import train_test_split
# విభజన: 80% ట్రైనింగ్, 20% తాత్కాలిక
train_data, temp_data = train_test_split(all_data, test_size=0.2)
# తాత్కాలిక సెట్ విభజన: సగం వాలిడేషన్, సగం టెస్ట్
val_data, test_data = train_test_split(temp_data, test_size=0.5)
print(f"Training: {len(train_data)}")
print(f"Validation: {len(val_data)}")
print(f"Test: {len(test_data)}")
మోడల్ను అదే డేటాపై ఎందుకు టెస్ట్ చేయలేము? ఎందుకంటే విద్యార్థికి ముందుగానే పరీక్ష ప్రశ్నలు ఇవ్వడం లాంటిది — పూర్తి మార్కులు వస్తాయి కానీ నిజమైన అవగాహన ఉండదు.
AI అది నేర్చుకునే డేటా అంత న్యాయమైనది మాత్రమే.
మీరు ఫేస్ రికగ్నిషన్ సిస్టమ్ను ఎక్కువగా తెల్లటి చర్మం ఉన్న వ్యక్తుల ఫోటోలతో ట్రైన్ చేస్తే, ముదురు చర్మం ఉన్న ముఖాలపై బాగా పనిచేయదు.
బయాస్ ఉదాహరణలు:
బయాస్ ఎల్లప్పుడూ స్పష్టంగా కనిపించదు. మీ డేటాసెట్లో 90% ఆంగ్ల టెక్స్ట్ ఉంటే, మీ AI ఆంగ్లంలో అద్భుతంగా కానీ హిందీ, తెలుగు లేదా డచ్లో బలహీనంగా ఉంటుంది. ఎల్లప్పుడూ అడగండి: "ఈ డేటాలో ఎవరు లేరు?"
మొత్తం MNIST డేటాసెట్ 15 MB కంటే తక్కువ — ఒక స్మార్ట్ఫోన్ ఫోటో కంటే చిన్నది! అయినా ఇది వేలాది AI కెరీర్లను ప్రారంభించింది.
ప్రసిద్ధ Iris డేటాసెట్ అన్వేషించండి — 4 లక్షణాలతో 150 పూల కొలతలు.
import pandas as pd
from sklearn.datasets import load_iris
# డేటాసెట్ లోడ్ చేయండి
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = [iris.target_names[t] for t in iris.target]
# ప్రాథమిక అన్వేషణ
print("Shape:", df.shape)
print("\nమొదటి 5 వరుసలు:")
print(df.head())
print("\nజాతుల గణన:")
print(df['species'].value_counts())
print("\nప్రాథమిక గణాంకాలు:")
print(df.describe())
డేటాసెట్ అన్వేషించేటప్పుడు ఎల్లప్పుడూ అడగండి:
ఇప్పుడు మీకు AI ని ఏది శక్తివంతం చేస్తుందో తెలుసు. తదుపరి పాఠంలో మనం అల్గారిథమ్లు తెలుసుకుందాం — డేటాను తెలివైన నిర్ణయాలుగా మార్చే స్టెప్-బై-స్టెప్ రెసిపీలు!