AI EducademyAIEducademy
🌳

AI పునాదులు

🌱
AI Seeds

సున్నా నుండి ప్రారంభించండి

🌿
AI Sprouts

పునాదులు నిర్మించండి

🌳
AI Branches

ఆచరణలో అన్వయించండి

🏕️
AI Canopy

లోతుగా వెళ్ళండి

🌲
AI Forest

AI లో నిపుణత సాధించండి

🔨

AI నైపుణ్యం

✏️
AI Sketch

సున్నా నుండి ప్రారంభించండి

🪨
AI Chisel

పునాదులు నిర్మించండి

⚒️
AI Craft

ఆచరణలో అన్వయించండి

💎
AI Polish

లోతుగా వెళ్ళండి

🏆
AI Masterpiece

AI లో నిపుణత సాధించండి

🚀

కెరీర్ రెడీ

🚀
ఇంటర్వ్యూ లాంచ్‌ప్యాడ్

మీ ప్రయాణం ప్రారంభించండి

🌟
ప్రవర్తనా ఇంటర్వ్యూ నైపుణ్యం

సాఫ్ట్ స్కిల్స్ నేర్చుకోండి

💻
సాంకేతిక ఇంటర్వ్యూలు

కోడింగ్ రౌండ్ విజయం సాధించండి

🤖
AI & ML ఇంటర్వ్యూలు

ML ఇంటర్వ్యూ నైపుణ్యం

🏆
ఆఫర్ & అంతకు మించి

అత్యుత్తమ ఆఫర్ పొందండి

అన్ని ప్రోగ్రామ్‌లు చూడండి→

ల్యాబ్

7 ప్రయోగాలు లోడ్ అయ్యాయి
🧠న్యూరల్ నెట్‌వర్క్ ప్లేగ్రౌండ్🤖AI లేదా మనిషి?💬ప్రాంప్ట్ ల్యాబ్🎨ఇమేజ్ జనరేటర్😊సెంటిమెంట్ ఎనలైజర్💡చాట్‌బాట్ బిల్డర్⚖️ఎథిక్స్ సిమ్యులేటర్
🎯మాక్ ఇంటర్వ్యూల్యాబ్‌లోకి వెళ్ళండి→
nav.journeyబ్లాగ్
🎯
మా గురించి

ప్రతి చోటా, ప్రతి ఒక్కరికీ AI విద్యను అందుబాటులోకి తీసుకురావడం

❓
nav.faq

Common questions answered

✉️
Contact

Get in touch with us

⭐
ఓపెన్ సోర్స్

GitHub లో బహిరంగంగా నిర్మించబడింది

నేర్చుకోవడం ప్రారంభించండి - ఇది ఉచితం
AI EducademyAIEducademy

MIT లైసెన్స్ - ఓపెన్ సోర్స్

నేర్చుకోండి

  • ప్రోగ్రాములు
  • పాఠాలు
  • ల్యాబ్

సంఘం

  • GitHub
  • సహకరించండి
  • ప్రవర్తనా నియమావళి
  • మా గురించి
  • తరచుగా అడిగే ప్రశ్నలు

మద్దతు

  • కాఫీ కొనండి ☕
  • footer.terms
  • footer.privacy
  • footer.contact
AI & ఇంజనీరింగ్ ప్రోగ్రామ్‌లు›🌿 AI Sprouts›పాఠాలు›ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు
🧭
AI Sprouts • మధ్యస్థం⏱️ 16 నిమిషాల పఠన సమయం

ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు

ఎంబెడ్డింగ్‌లు - AI అర్థాన్ని ఎలా గ్రహిస్తుంది

టోకనైజేషన్ తర్వాత, ప్రతి టోకన్ కేవలం ఒక సంఖ్య - వొకాబ్యులరీలో ఒక ఇండెక్స్. కానీ ఇండెక్స్ 4,821 మోడల్‌కు అర్థం గురించి ఏమీ చెప్పదు. "king" మరియు "queen" సంబంధం కలిగి ఉన్నాయని, లేదా "bank" అనేది నది ఒడ్డు లేదా ఆర్థిక సంస్థ అని AI కి ఎలా తెలుస్తుంది? సమాధానం ఎంబెడ్డింగ్‌లు.

One-Hot ఎన్‌కోడింగ్ సమస్య

నైవ్ విధానం ప్రతి పదాన్ని ఒక 1 మరియు వేలాది 0లతో ఉన్న వెక్టర్‌గా ప్రాతినిధ్యం చేస్తుంది. "Cat" [0, 0, 1, 0, ..., 0] మరియు "dog" [0, 0, 0, 1, ..., 0] కావచ్చు.

దీనికి రెండు ప్రాణాంతక లోపాలు ఉన్నాయి:

  • సారూప్యత లేదు: "Cat" మరియు "dog" ఒకదానికొకటి "cat" మరియు "democracy" ఎంత దూరంలో ఉన్నాయో అంతే దూరంలో ఉంటాయి. ఎన్‌కోడింగ్ సెమాంటిక్ సమాచారాన్ని ఏమీ క్యాప్చర్ చేయదు.
  • భారీ పరిమాణం: 50,000-పద వొకాబ్యులరీతో, ప్రతి పదానికి 50,000-డైమెన్షనల్ వెక్టర్ అవసరం. చాలా అసమర్థం.

వర్డ్ ఎంబెడ్డింగ్‌లు - జ్యామితిగా అర్థం

ఒక ఎంబెడ్డింగ్ ప్రతి టోకన్‌ను 256 లేదా 768 డైమెన్షన్‌ల సాంద్ర వెక్టర్‌కు మ్యాప్ చేస్తుంది. One-hot వెక్టర్‌ల మాదిరిగా కాకుండా, ఈ డైమెన్షన్‌లు ట్రైనింగ్ సమయంలో నేర్చుకోబడతాయి మరియు అర్థాన్ని ఎన్‌కోడ్ చేస్తాయి.

సారూప్య సందర్భాలలో ఉపయోగించిన పదాలు ఈ స్పేస్‌లో దగ్గరగా ఉంటాయి. "Puppy" "kitten" దగ్గర ల్యాండ్ అవుతుంది. "London" "Paris" దగ్గర ల్యాండ్ అవుతుంది. స్పేస్ యొక్క జ్యామితి అదే అర్థం.

వర్డ్ ఎంబెడ్డింగ్‌ల 2D ప్రొజెక్షన్ క్లస్టర్‌లను చూపిస్తుంది: జంతువులు (cat, dog, fish) కలిసి గ్రూప్ చేయబడ్డాయి, నగరాలు (London, Paris, Tokyo) కలిసి గ్రూప్ చేయబడ్డాయి, మరియు ప్రసిద్ధ king-queen అనాలజీ వెక్టర్ అరిథ్‌మెటిక్‌గా
ఎంబెడ్డింగ్ స్పేస్‌లో, అర్థం జ్యామితి అవుతుంది. సారూప్య భావనలు కలిసి క్లస్టర్ అవుతాయి.

Word2Vec - King − Man + Woman = Queen

2013 Word2Vec పేపర్ ఏదో అద్భుతమైనదాన్ని చూపించింది. పెద్ద టెక్స్ట్ కార్పస్‌లపై ట్రైన్ చేయబడినప్పుడు, నేర్చుకున్న వెక్టర్‌లు అంకగణిత సంబంధాలను ప్రదర్శిస్తాయి:

vector("king") − vector("man") + vector("woman") ≈ vector("queen")

"man" నుండి "woman" వరకు దిశ లింగ భావనను క్యాప్చర్ చేస్తుంది. దాన్ని "king" కి జోడించడం "queen" కి తరలిస్తుంది. ఇది ప్రోగ్రామ్ చేయబడలేదు - ఇది భాషలోని నమూనాల నుండి ఉద్భవిస్తుంది.

పాఠం 9 / 160% పూర్తి
←టోకనైజేషన్

Discussion

Sign in to join the discussion

lessons.suggestEdit

ఇతర ఉదాహరణలు: Paris − France + Italy ≈ Rome, bigger − big + small ≈ smaller.

🤯

Word2Vec ను 2013లో Google లో Tomáš Mikolov సృష్టించారు. ఈ పేపర్ 40,000 కంటే ఎక్కువ సైటేషన్‌లు కలిగి ఉంది మరియు ఇప్పటివరకు ప్రచురించబడిన అత్యంత ప్రభావవంతమైన NLP పేపర్‌లలో ఒకటిగా పరిగణించబడుతుంది. ముడి టెక్స్ట్‌పై ట్రైన్ చేయబడిన సాధారణ న్యూరల్ నెట్‌వర్క్‌లు అద్భుతమైన సెమాంటిక్ సంబంధాలను నేర్చుకోగలవని ఇది ప్రదర్శించింది.

ఎంబెడ్డింగ్ డైమెన్షన్‌లు

ఆధునిక మోడల్‌లు వివిధ ఎంబెడ్డింగ్ సైజ్‌లు ఉపయోగిస్తాయి:

| మోడల్ | ఎంబెడ్డింగ్ డైమెన్షన్‌లు | |-------|---------------------| | Word2Vec | 100–300 | | BERT | 768 | | GPT-3 | 12,288 | | OpenAI text-embedding-3-large | 3,072 |

ఎక్కువ డైమెన్షన్‌లు సూక్ష్మ భేదాలను క్యాప్చర్ చేస్తాయి కానీ ఎక్కువ మెమరీ మరియు కంప్యూట్ అవసరం. ఒక వ్యక్తిని వివరించడం లాగా ఆలోచించండి: 3 డైమెన్షన్‌లు (ఎత్తు, బరువు, వయస్సు) స్థూల చిత్రం ఇస్తాయి; 768 డైమెన్షన్‌లు వివరమైన చిత్రాన్ని చిత్రిస్తాయి.

🧠త్వరిత తనిఖీ

ప్రసిద్ధ సమీకరణం 'king − man + woman ≈ queen' ఏమి ప్రదర్శిస్తుంది?

పదాల నుండి వాక్యాల వరకు

వర్డ్ ఎంబెడ్డింగ్‌లు వ్యక్తిగత పదాలను ప్రాతినిధ్యం చేస్తాయి, కానీ మనకు తరచుగా మొత్తం వాక్యాలు లేదా డాక్యుమెంట్‌లను పోల్చాల్సి ఉంటుంది. సెంటెన్స్ ఎంబెడ్డింగ్‌లు (Sentence-BERT లేదా OpenAI ఎంబెడ్డింగ్ API వంటి మోడల్‌ల నుండి) మొత్తం పేరాగ్రాఫ్‌ను ఒకే వెక్టర్‌గా కంప్రెస్ చేస్తాయి.

"How do I reset my password?" మరియు "I forgot my login credentials" దాదాపు ఒకే విధమైన సెంటెన్స్ ఎంబెడ్డింగ్‌లు కలిగి ఉంటాయి, అవి దాదాపు పదాలు పంచుకోకపోయినా. ఎంబెడ్డింగ్ కేవలం వొకాబ్యులరీ కాకుండా ఉద్దేశ్యాన్ని క్యాప్చర్ చేస్తుంది.

సారూప్యతను కొలవడం - కొసైన్ సిమిలారిటీ

రెండు ఎంబెడ్డింగ్‌లను పోల్చడానికి, మనం కొసైన్ సిమిలారిటీ ఉపయోగిస్తాము - రెండు వెక్టర్‌ల మధ్య కోణం యొక్క కొసైన్. ఇది −1 (వ్యతిరేకం) నుండి +1 (ఒకే దిశ) వరకు ఉంటుంది.

  • "Happy" మరియు "joyful": కొసైన్ ≈ 0.85 (చాలా సారూప్యం).
  • "Happy" మరియు "table": కొసైన్ ≈ 0.10 (సంబంధం లేనివి).
  • "Love" మరియు "hate": కొసైన్ ≈ 0.40 (సంబంధం ఉంది కానీ వ్యతిరేకం).

కొసైన్ సిమిలారిటీ వెక్టర్ పరిమాణాన్ని విస్మరిస్తుంది, కేవలం దిశపై దృష్టి పెడుతుంది - అర్థం నివసించేది అక్కడే.

🤔
Think about it:

"Love" మరియు "hate" అర్థంలో వ్యతిరేకాలు కానీ సారూప్య సందర్భాలలో (భావోద్వేగాలు, సంబంధాలు) కనిపించడం వల్ల మోడరేట్ కొసైన్ సిమిలారిటీ కలిగి ఉండవచ్చు. పూర్తిగా పద సహ-సంభవం మీద ట్రైన్ చేయబడిన ఎంబెడ్డింగ్‌ల పరిమితుల గురించి ఇది మనకు ఏమి చెబుతుంది?

వెక్టర్ డేటాబేస్‌లు - అర్థం ద్వారా సెర్చ్

వెక్టర్ డేటాబేస్ మిలియన్ల ఎంబెడ్డింగ్‌లను నిల్వ చేసి, అత్యంత సారూప్యమైనవాటిని మెరుపు వేగంతో తిరిగి పొందుతుంది. కీవర్డ్ మ్యాచింగ్ ("'machine learning' కలిగిన డాక్యుమెంట్‌లు కనుగొనండి") కి బదులుగా, మీరు అర్థం ద్వారా సెర్చ్ చేస్తారు ("AI విద్య గురించి డాక్యుమెంట్‌లు కనుగొనండి").

ప్రాచుర్యం పొందిన వెక్టర్ డేటాబేస్‌లు:

  • Pinecone - పూర్తిగా మేనేజ్డ్, అప్రయత్నంగా స్కేల్ అవుతుంది.
  • Weaviate - హైబ్రిడ్ సెర్చ్ (వెక్టర్‌లు + కీవర్డ్‌లు) తో ఓపెన్-సోర్స్.
  • ChromaDB - తేలికైనది, ప్రోటోటైపింగ్ కోసం గొప్పది.
  • pgvector - PostgreSQL కి వెక్టర్ సెర్చ్ జోడిస్తుంది.

ఈ డేటాబేస్‌లు మిల్లీసెకండ్‌లలో బిలియన్ల వెక్టర్‌లను సెర్చ్ చేయడానికి HNSW (Hierarchical Navigable Small World) వంటి అల్గారిథమ్‌లు ఉపయోగిస్తాయి.

🧠త్వరిత తనిఖీ

సాంప్రదాయ కీవర్డ్ సెర్చ్ కంటే వెక్టర్ సెర్చ్ కు ఏ ప్రయోజనం ఉంది?

RAG - Retrieval-Augmented Generation

RAG ఆధునిక AI లో అత్యంత ముఖ్యమైన నమూనాలలో ఒకటి. ఇది వెక్టర్ సెర్చ్‌ను భాషా మోడల్‌లతో కలుపుతుంది:

  1. మీ డాక్యుమెంట్‌లను ఎంబెడ్ చేసి వెక్టర్ డేటాబేస్‌లో నిల్వ చేయండి.
  2. వినియోగదారుడు ప్రశ్న అడిగినప్పుడు, క్వెరీని ఎంబెడ్ చేయండి.
  3. వెక్టర్ సెర్చ్ ద్వారా అత్యంత సారూప్య డాక్యుమెంట్ భాగాలను తిరిగి పొందండి.
  4. ఆ భాగాలను సందర్భంగా భాషా మోడల్‌కు ఫీడ్ చేయండి.
  5. మోడల్ మీ డేటాలో ఆధారపడిన సమాధానాన్ని జనరేట్ చేస్తుంది.

RAG భాషా మోడల్‌లను రీట్రైనింగ్ లేకుండా మీ నిర్దిష్ట డేటా - కంపెనీ డాక్యుమెంట్‌లు, ప్రొడక్ట్ కేటలాగ్‌లు, పరిశోధన పత్రాలు - గురించి ప్రశ్నలకు సమాధానం ఇవ్వడానికి అనుమతిస్తుంది. మోడల్‌కు నిజమైన మూలాలు రిఫరెన్స్ చేయడానికి ఉన్నందున ఇది హాల్యుసినేషన్‌ను గణనీయంగా తగ్గిస్తుంది.

🧠త్వరిత తనిఖీ

RAG సిస్టమ్‌లో, వెక్టర్ డేటాబేస్ ఏ పాత్ర పోషిస్తుంది?

ఆచరణాత్మక అనువర్తనాలు

ఎంబెడ్డింగ్‌లు అనేక వాస్తవ-ప్రపంచ వ్యవస్థలకు శక్తినిస్తాయి:

  • సెమాంటిక్ సెర్చ్ - ఖచ్చితమైన పదాలతో సంబంధం లేకుండా సంబంధిత ఫలితాలను కనుగొనండి.
  • రికమెండేషన్‌లు - ఎంబెడ్డింగ్ సారూప్యత ద్వారా "ఇది ఇష్టపడిన వారు దీన్ని కూడా ఇష్టపడ్డారు..."
  • క్లస్టరింగ్ - సారూప్య సపోర్ట్ టికెట్‌లు, రివ్యూలు, లేదా డాక్యుమెంట్‌లను ఆటోమేటిక్‌గా గ్రూప్ చేయండి.
  • అనామలీ డిటెక్షన్ - ఏ క్లస్టర్ నుండైనా దూరంగా ఉన్న అవుట్‌లయర్‌లను గుర్తించండి.
  • డూప్లికేట్ డిటెక్షన్ - పెద్ద కార్పస్‌లలో దాదాపు ఒకే విధమైన కంటెంట్‌ను కనుగొనండి.
🤯

Spotify పాటలను రికమెండ్ చేయడానికి ఆడియో ఎంబెడ్డింగ్‌లను ఉపయోగిస్తుంది. ప్రతి ట్రాక్ దాని ధ్వని లక్షణాల ఆధారంగా ఎంబెడ్ చేయబడుతుంది, మరియు రికమెండేషన్‌లు దగ్గరి వెక్టర్‌లను కనుగొనడం నుండి వస్తాయి - ఎంబెడ్డింగ్ స్పేస్‌లో "సారూప్యంగా వినిపించే" పాటలు.

🤔
Think about it:

మీరు ఆన్‌లైన్ షాపులో ప్రతి ప్రొడక్ట్‌ను ఎంబెడ్ చేస్తే, కొనుగోలు చరిత్రపై ఆధారపడకుండా "ఈ ఐటమ్ చూసిన కస్టమర్లు దీన్ని కూడా ఇష్టపడవచ్చు..." అనే రికమెండేషన్ సిస్టమ్‌ను ఎలా నిర్మించగలరు?

ముఖ్యమైన అంశాలు

  • ఎంబెడ్డింగ్‌లు అర్థం జ్యామితిగా మారే సాంద్ర వెక్టర్ ప్రాతినిధ్యాలు.
  • సారూప్య భావనలు కలిసి క్లస్టర్ అవుతాయి; సంబంధాలు దిశలుగా కనిపిస్తాయి.
  • కొసైన్ సిమిలారిటీ రెండు అర్థాలు ఎంత దగ్గరగా ఉన్నాయో కొలుస్తుంది.
  • వెక్టర్ డేటాబేస్‌లు భారీ స్థాయిలో అర్థం ద్వారా సెర్చ్‌ను సాధ్యం చేస్తాయి.
  • RAG మీ స్వంత డేటా నుండి ప్రశ్నలకు సమాధానం ఇవ్వడానికి వెక్టర్ సెర్చ్‌ను భాషా మోడల్‌లతో కలుపుతుంది.

📚 మరింత చదవండి

  • Jay Alammar - The Illustrated Word2Vec - వర్డ్ ఎంబెడ్డింగ్‌లు ఎలా పనిచేస్తాయో విజువల్, సహజమైన వాక్‌త్రూ
  • Pinecone Learning Centre - What Are Embeddings? - ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ సెర్చ్ కోసం ఆచరణాత్మక గైడ్
  • OpenAI Embeddings Guide - OpenAI API తో ఎంబెడ్డింగ్‌లను జనరేట్ చేసి ఉపయోగించడం ఎలా