AI & ఇంజనీరింగ్ ప్రోగ్రామ్‌లు›🌿 AI Sprouts›పాఠాలు›ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు

🧭

AI Sprouts • మధ్యస్థం⏱️ 16 నిమిషాల పఠన సమయం

ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు

ఎంబెడ్డింగ్‌లు - AI అర్థాన్ని ఎలా గ్రహిస్తుంది

టోకనైజేషన్ తర్వాత, ప్రతి టోకన్ కేవలం ఒక సంఖ్య - వొకాబ్యులరీలో ఒక ఇండెక్స్. కానీ ఇండెక్స్ 4,821 మోడల్‌కు అర్థం గురించి ఏమీ చెప్పదు. "king" మరియు "queen" సంబంధం కలిగి ఉన్నాయని, లేదా "bank" అనేది నది ఒడ్డు లేదా ఆర్థిక సంస్థ అని AI కి ఎలా తెలుస్తుంది? సమాధానం ఎంబెడ్డింగ్‌లు.

One-Hot ఎన్‌కోడింగ్ సమస్య

నైవ్ విధానం ప్రతి పదాన్ని ఒక 1 మరియు వేలాది 0లతో ఉన్న వెక్టర్‌గా ప్రాతినిధ్యం చేస్తుంది. "Cat" [0, 0, 1, 0, ..., 0] మరియు "dog" [0, 0, 0, 1, ..., 0] కావచ్చు.

దీనికి రెండు ప్రాణాంతక లోపాలు ఉన్నాయి:

సారూప్యత లేదు: "Cat" మరియు "dog" ఒకదానికొకటి "cat" మరియు "democracy" ఎంత దూరంలో ఉన్నాయో అంతే దూరంలో ఉంటాయి. ఎన్‌కోడింగ్ సెమాంటిక్ సమాచారాన్ని ఏమీ క్యాప్చర్ చేయదు.
భారీ పరిమాణం: 50,000-పద వొకాబ్యులరీతో, ప్రతి పదానికి 50,000-డైమెన్షనల్ వెక్టర్ అవసరం. చాలా అసమర్థం.

వర్డ్ ఎంబెడ్డింగ్‌లు - జ్యామితిగా అర్థం

ఒక ఎంబెడ్డింగ్ ప్రతి టోకన్‌ను 256 లేదా 768 డైమెన్షన్‌ల సాంద్ర వెక్టర్‌కు మ్యాప్ చేస్తుంది. One-hot వెక్టర్‌ల మాదిరిగా కాకుండా, ఈ డైమెన్షన్‌లు ట్రైనింగ్ సమయంలో నేర్చుకోబడతాయి మరియు అర్థాన్ని ఎన్‌కోడ్ చేస్తాయి.

సారూప్య సందర్భాలలో ఉపయోగించిన పదాలు ఈ స్పేస్‌లో దగ్గరగా ఉంటాయి. "Puppy" "kitten" దగ్గర ల్యాండ్ అవుతుంది. "London" "Paris" దగ్గర ల్యాండ్ అవుతుంది. స్పేస్ యొక్క జ్యామితి అదే అర్థం.

వర్డ్ ఎంబెడ్డింగ్‌ల 2D ప్రొజెక్షన్ క్లస్టర్‌లను చూపిస్తుంది: జంతువులు (cat, dog, fish) కలిసి గ్రూప్ చేయబడ్డాయి, నగరాలు (London, Paris, Tokyo) కలిసి గ్రూప్ చేయబడ్డాయి, మరియు ప్రసిద్ధ king-queen అనాలజీ వెక్టర్ అరిథ్‌మెటిక్‌గా — ఎంబెడ్డింగ్ స్పేస్‌లో, అర్థం జ్యామితి అవుతుంది. సారూప్య భావనలు కలిసి క్లస్టర్ అవుతాయి.

Word2Vec - King − Man + Woman = Queen

2013 Word2Vec పేపర్ ఏదో అద్భుతమైనదాన్ని చూపించింది. పెద్ద టెక్స్ట్ కార్పస్‌లపై ట్రైన్ చేయబడినప్పుడు, నేర్చుకున్న వెక్టర్‌లు అంకగణిత సంబంధాలను ప్రదర్శిస్తాయి:

vector("king") − vector("man") + vector("woman") ≈ vector("queen")

"man" నుండి "woman" వరకు దిశ లింగ భావనను క్యాప్చర్ చేస్తుంది. దాన్ని "king" కి జోడించడం "queen" కి తరలిస్తుంది. ఇది ప్రోగ్రామ్ చేయబడలేదు - ఇది భాషలోని నమూనాల నుండి ఉద్భవిస్తుంది.

పాఠం 9 / 160% పూర్తి

←టోకనైజేషన్

Discussion

lessons.suggestEdit

ఇతర ఉదాహరణలు: Paris − France + Italy ≈ Rome, bigger − big + small ≈ smaller.

🤯

Word2Vec ను 2013లో Google లో Tomáš Mikolov సృష్టించారు. ఈ పేపర్ 40,000 కంటే ఎక్కువ సైటేషన్‌లు కలిగి ఉంది మరియు ఇప్పటివరకు ప్రచురించబడిన అత్యంత ప్రభావవంతమైన NLP పేపర్‌లలో ఒకటిగా పరిగణించబడుతుంది. ముడి టెక్స్ట్‌పై ట్రైన్ చేయబడిన సాధారణ న్యూరల్ నెట్‌వర్క్‌లు అద్భుతమైన సెమాంటిక్ సంబంధాలను నేర్చుకోగలవని ఇది ప్రదర్శించింది.

ఎంబెడ్డింగ్ డైమెన్షన్‌లు

ఆధునిక మోడల్‌లు వివిధ ఎంబెడ్డింగ్ సైజ్‌లు ఉపయోగిస్తాయి:

| మోడల్ | ఎంబెడ్డింగ్ డైమెన్షన్‌లు | |-------|---------------------| | Word2Vec | 100–300 | | BERT | 768 | | GPT-3 | 12,288 | | OpenAI text-embedding-3-large | 3,072 |

ఎక్కువ డైమెన్షన్‌లు సూక్ష్మ భేదాలను క్యాప్చర్ చేస్తాయి కానీ ఎక్కువ మెమరీ మరియు కంప్యూట్ అవసరం. ఒక వ్యక్తిని వివరించడం లాగా ఆలోచించండి: 3 డైమెన్షన్‌లు (ఎత్తు, బరువు, వయస్సు) స్థూల చిత్రం ఇస్తాయి; 768 డైమెన్షన్‌లు వివరమైన చిత్రాన్ని చిత్రిస్తాయి.

🧠త్వరిత తనిఖీ

ప్రసిద్ధ సమీకరణం 'king − man + woman ≈ queen' ఏమి ప్రదర్శిస్తుంది?

పదాల నుండి వాక్యాల వరకు

వర్డ్ ఎంబెడ్డింగ్‌లు వ్యక్తిగత పదాలను ప్రాతినిధ్యం చేస్తాయి, కానీ మనకు తరచుగా మొత్తం వాక్యాలు లేదా డాక్యుమెంట్‌లను పోల్చాల్సి ఉంటుంది. సెంటెన్స్ ఎంబెడ్డింగ్‌లు (Sentence-BERT లేదా OpenAI ఎంబెడ్డింగ్ API వంటి మోడల్‌ల నుండి) మొత్తం పేరాగ్రాఫ్‌ను ఒకే వెక్టర్‌గా కంప్రెస్ చేస్తాయి.

"How do I reset my password?" మరియు "I forgot my login credentials" దాదాపు ఒకే విధమైన సెంటెన్స్ ఎంబెడ్డింగ్‌లు కలిగి ఉంటాయి, అవి దాదాపు పదాలు పంచుకోకపోయినా. ఎంబెడ్డింగ్ కేవలం వొకాబ్యులరీ కాకుండా ఉద్దేశ్యాన్ని క్యాప్చర్ చేస్తుంది.

సారూప్యతను కొలవడం - కొసైన్ సిమిలారిటీ

రెండు ఎంబెడ్డింగ్‌లను పోల్చడానికి, మనం కొసైన్ సిమిలారిటీ ఉపయోగిస్తాము - రెండు వెక్టర్‌ల మధ్య కోణం యొక్క కొసైన్. ఇది −1 (వ్యతిరేకం) నుండి +1 (ఒకే దిశ) వరకు ఉంటుంది.

"Happy" మరియు "joyful": కొసైన్ ≈ 0.85 (చాలా సారూప్యం).
"Happy" మరియు "table": కొసైన్ ≈ 0.10 (సంబంధం లేనివి).
"Love" మరియు "hate": కొసైన్ ≈ 0.40 (సంబంధం ఉంది కానీ వ్యతిరేకం).

కొసైన్ సిమిలారిటీ వెక్టర్ పరిమాణాన్ని విస్మరిస్తుంది, కేవలం దిశపై దృష్టి పెడుతుంది - అర్థం నివసించేది అక్కడే.

🤔

Think about it:

"Love" మరియు "hate" అర్థంలో వ్యతిరేకాలు కానీ సారూప్య సందర్భాలలో (భావోద్వేగాలు, సంబంధాలు) కనిపించడం వల్ల మోడరేట్ కొసైన్ సిమిలారిటీ కలిగి ఉండవచ్చు. పూర్తిగా పద సహ-సంభవం మీద ట్రైన్ చేయబడిన ఎంబెడ్డింగ్‌ల పరిమితుల గురించి ఇది మనకు ఏమి చెబుతుంది?

వెక్టర్ డేటాబేస్‌లు - అర్థం ద్వారా సెర్చ్

వెక్టర్ డేటాబేస్ మిలియన్ల ఎంబెడ్డింగ్‌లను నిల్వ చేసి, అత్యంత సారూప్యమైనవాటిని మెరుపు వేగంతో తిరిగి పొందుతుంది. కీవర్డ్ మ్యాచింగ్ ("'machine learning' కలిగిన డాక్యుమెంట్‌లు కనుగొనండి") కి బదులుగా, మీరు అర్థం ద్వారా సెర్చ్ చేస్తారు ("AI విద్య గురించి డాక్యుమెంట్‌లు కనుగొనండి").

ప్రాచుర్యం పొందిన వెక్టర్ డేటాబేస్‌లు:

Pinecone - పూర్తిగా మేనేజ్డ్, అప్రయత్నంగా స్కేల్ అవుతుంది.
Weaviate - హైబ్రిడ్ సెర్చ్ (వెక్టర్‌లు + కీవర్డ్‌లు) తో ఓపెన్-సోర్స్.
ChromaDB - తేలికైనది, ప్రోటోటైపింగ్ కోసం గొప్పది.
pgvector - PostgreSQL కి వెక్టర్ సెర్చ్ జోడిస్తుంది.

ఈ డేటాబేస్‌లు మిల్లీసెకండ్‌లలో బిలియన్ల వెక్టర్‌లను సెర్చ్ చేయడానికి HNSW (Hierarchical Navigable Small World) వంటి అల్గారిథమ్‌లు ఉపయోగిస్తాయి.

🧠త్వరిత తనిఖీ

సాంప్రదాయ కీవర్డ్ సెర్చ్ కంటే వెక్టర్ సెర్చ్ కు ఏ ప్రయోజనం ఉంది?

RAG - Retrieval-Augmented Generation

RAG ఆధునిక AI లో అత్యంత ముఖ్యమైన నమూనాలలో ఒకటి. ఇది వెక్టర్ సెర్చ్‌ను భాషా మోడల్‌లతో కలుపుతుంది:

మీ డాక్యుమెంట్‌లను ఎంబెడ్ చేసి వెక్టర్ డేటాబేస్‌లో నిల్వ చేయండి.
వినియోగదారుడు ప్రశ్న అడిగినప్పుడు, క్వెరీని ఎంబెడ్ చేయండి.
వెక్టర్ సెర్చ్ ద్వారా అత్యంత సారూప్య డాక్యుమెంట్ భాగాలను తిరిగి పొందండి.
ఆ భాగాలను సందర్భంగా భాషా మోడల్‌కు ఫీడ్ చేయండి.
మోడల్ మీ డేటాలో ఆధారపడిన సమాధానాన్ని జనరేట్ చేస్తుంది.

RAG భాషా మోడల్‌లను రీట్రైనింగ్ లేకుండా మీ నిర్దిష్ట డేటా - కంపెనీ డాక్యుమెంట్‌లు, ప్రొడక్ట్ కేటలాగ్‌లు, పరిశోధన పత్రాలు - గురించి ప్రశ్నలకు సమాధానం ఇవ్వడానికి అనుమతిస్తుంది. మోడల్‌కు నిజమైన మూలాలు రిఫరెన్స్ చేయడానికి ఉన్నందున ఇది హాల్యుసినేషన్‌ను గణనీయంగా తగ్గిస్తుంది.

🧠త్వరిత తనిఖీ

RAG సిస్టమ్‌లో, వెక్టర్ డేటాబేస్ ఏ పాత్ర పోషిస్తుంది?

ఆచరణాత్మక అనువర్తనాలు

ఎంబెడ్డింగ్‌లు అనేక వాస్తవ-ప్రపంచ వ్యవస్థలకు శక్తినిస్తాయి:

సెమాంటిక్ సెర్చ్ - ఖచ్చితమైన పదాలతో సంబంధం లేకుండా సంబంధిత ఫలితాలను కనుగొనండి.
రికమెండేషన్‌లు - ఎంబెడ్డింగ్ సారూప్యత ద్వారా "ఇది ఇష్టపడిన వారు దీన్ని కూడా ఇష్టపడ్డారు..."
క్లస్టరింగ్ - సారూప్య సపోర్ట్ టికెట్‌లు, రివ్యూలు, లేదా డాక్యుమెంట్‌లను ఆటోమేటిక్‌గా గ్రూప్ చేయండి.
అనామలీ డిటెక్షన్ - ఏ క్లస్టర్ నుండైనా దూరంగా ఉన్న అవుట్‌లయర్‌లను గుర్తించండి.
డూప్లికేట్ డిటెక్షన్ - పెద్ద కార్పస్‌లలో దాదాపు ఒకే విధమైన కంటెంట్‌ను కనుగొనండి.

🤯

Spotify పాటలను రికమెండ్ చేయడానికి ఆడియో ఎంబెడ్డింగ్‌లను ఉపయోగిస్తుంది. ప్రతి ట్రాక్ దాని ధ్వని లక్షణాల ఆధారంగా ఎంబెడ్ చేయబడుతుంది, మరియు రికమెండేషన్‌లు దగ్గరి వెక్టర్‌లను కనుగొనడం నుండి వస్తాయి - ఎంబెడ్డింగ్ స్పేస్‌లో "సారూప్యంగా వినిపించే" పాటలు.

🤔

Think about it:

మీరు ఆన్‌లైన్ షాపులో ప్రతి ప్రొడక్ట్‌ను ఎంబెడ్ చేస్తే, కొనుగోలు చరిత్రపై ఆధారపడకుండా "ఈ ఐటమ్ చూసిన కస్టమర్లు దీన్ని కూడా ఇష్టపడవచ్చు..." అనే రికమెండేషన్ సిస్టమ్‌ను ఎలా నిర్మించగలరు?

ముఖ్యమైన అంశాలు

ఎంబెడ్డింగ్‌లు అర్థం జ్యామితిగా మారే సాంద్ర వెక్టర్ ప్రాతినిధ్యాలు.
సారూప్య భావనలు కలిసి క్లస్టర్ అవుతాయి; సంబంధాలు దిశలుగా కనిపిస్తాయి.
కొసైన్ సిమిలారిటీ రెండు అర్థాలు ఎంత దగ్గరగా ఉన్నాయో కొలుస్తుంది.
వెక్టర్ డేటాబేస్‌లు భారీ స్థాయిలో అర్థం ద్వారా సెర్చ్‌ను సాధ్యం చేస్తాయి.
RAG మీ స్వంత డేటా నుండి ప్రశ్నలకు సమాధానం ఇవ్వడానికి వెక్టర్ సెర్చ్‌ను భాషా మోడల్‌లతో కలుపుతుంది.

📚 మరింత చదవండి

Jay Alammar - The Illustrated Word2Vec - వర్డ్ ఎంబెడ్డింగ్‌లు ఎలా పనిచేస్తాయో విజువల్, సహజమైన వాక్‌త్రూ
Pinecone Learning Centre - What Are Embeddings? - ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ సెర్చ్ కోసం ఆచరణాత్మక గైడ్
OpenAI Embeddings Guide - OpenAI API తో ఎంబెడ్డింగ్‌లను జనరేట్ చేసి ఉపయోగించడం ఎలా

AI పునాదులు

AI నైపుణ్యం

కెరీర్ రెడీ

ల్యాబ్

ఎంబెడ్డింగ్‌లు మరియు వెక్టర్ డేటాబేస్‌లు

ఎంబెడ్డింగ్‌లు - AI అర్థాన్ని ఎలా గ్రహిస్తుంది

One-Hot ఎన్‌కోడింగ్ సమస్య

వర్డ్ ఎంబెడ్డింగ్‌లు - జ్యామితిగా అర్థం

Word2Vec - King − Man + Woman = Queen

Discussion

ఎంబెడ్డింగ్ డైమెన్షన్‌లు

పదాల నుండి వాక్యాల వరకు

సారూప్యతను కొలవడం - కొసైన్ సిమిలారిటీ

వెక్టర్ డేటాబేస్‌లు - అర్థం ద్వారా సెర్చ్

RAG - Retrieval-Augmented Generation

ఆచరణాత్మక అనువర్తనాలు

ముఖ్యమైన అంశాలు

📚 మరింత చదవండి