టోకనైజేషన్ తర్వాత, ప్రతి టోకన్ కేవలం ఒక సంఖ్య - వొకాబ్యులరీలో ఒక ఇండెక్స్. కానీ ఇండెక్స్ 4,821 మోడల్కు అర్థం గురించి ఏమీ చెప్పదు. "king" మరియు "queen" సంబంధం కలిగి ఉన్నాయని, లేదా "bank" అనేది నది ఒడ్డు లేదా ఆర్థిక సంస్థ అని AI కి ఎలా తెలుస్తుంది? సమాధానం ఎంబెడ్డింగ్లు.
నైవ్ విధానం ప్రతి పదాన్ని ఒక 1 మరియు వేలాది 0లతో ఉన్న వెక్టర్గా ప్రాతినిధ్యం చేస్తుంది. "Cat" [0, 0, 1, 0, ..., 0] మరియు "dog" [0, 0, 0, 1, ..., 0] కావచ్చు.
దీనికి రెండు ప్రాణాంతక లోపాలు ఉన్నాయి:
ఒక ఎంబెడ్డింగ్ ప్రతి టోకన్ను 256 లేదా 768 డైమెన్షన్ల సాంద్ర వెక్టర్కు మ్యాప్ చేస్తుంది. One-hot వెక్టర్ల మాదిరిగా కాకుండా, ఈ డైమెన్షన్లు ట్రైనింగ్ సమయంలో నేర్చుకోబడతాయి మరియు అర్థాన్ని ఎన్కోడ్ చేస్తాయి.
సారూప్య సందర్భాలలో ఉపయోగించిన పదాలు ఈ స్పేస్లో దగ్గరగా ఉంటాయి. "Puppy" "kitten" దగ్గర ల్యాండ్ అవుతుంది. "London" "Paris" దగ్గర ల్యాండ్ అవుతుంది. స్పేస్ యొక్క జ్యామితి అదే అర్థం.
2013 Word2Vec పేపర్ ఏదో అద్భుతమైనదాన్ని చూపించింది. పెద్ద టెక్స్ట్ కార్పస్లపై ట్రైన్ చేయబడినప్పుడు, నేర్చుకున్న వెక్టర్లు అంకగణిత సంబంధాలను ప్రదర్శిస్తాయి:
vector("king") − vector("man") + vector("woman") ≈ vector("queen")
"man" నుండి "woman" వరకు దిశ లింగ భావనను క్యాప్చర్ చేస్తుంది. దాన్ని "king" కి జోడించడం "queen" కి తరలిస్తుంది. ఇది ప్రోగ్రామ్ చేయబడలేదు - ఇది భాషలోని నమూనాల నుండి ఉద్భవిస్తుంది.
Sign in to join the discussion
ఇతర ఉదాహరణలు: Paris − France + Italy ≈ Rome, bigger − big + small ≈ smaller.
Word2Vec ను 2013లో Google లో Tomáš Mikolov సృష్టించారు. ఈ పేపర్ 40,000 కంటే ఎక్కువ సైటేషన్లు కలిగి ఉంది మరియు ఇప్పటివరకు ప్రచురించబడిన అత్యంత ప్రభావవంతమైన NLP పేపర్లలో ఒకటిగా పరిగణించబడుతుంది. ముడి టెక్స్ట్పై ట్రైన్ చేయబడిన సాధారణ న్యూరల్ నెట్వర్క్లు అద్భుతమైన సెమాంటిక్ సంబంధాలను నేర్చుకోగలవని ఇది ప్రదర్శించింది.
ఆధునిక మోడల్లు వివిధ ఎంబెడ్డింగ్ సైజ్లు ఉపయోగిస్తాయి:
| మోడల్ | ఎంబెడ్డింగ్ డైమెన్షన్లు | |-------|---------------------| | Word2Vec | 100–300 | | BERT | 768 | | GPT-3 | 12,288 | | OpenAI text-embedding-3-large | 3,072 |
ఎక్కువ డైమెన్షన్లు సూక్ష్మ భేదాలను క్యాప్చర్ చేస్తాయి కానీ ఎక్కువ మెమరీ మరియు కంప్యూట్ అవసరం. ఒక వ్యక్తిని వివరించడం లాగా ఆలోచించండి: 3 డైమెన్షన్లు (ఎత్తు, బరువు, వయస్సు) స్థూల చిత్రం ఇస్తాయి; 768 డైమెన్షన్లు వివరమైన చిత్రాన్ని చిత్రిస్తాయి.
ప్రసిద్ధ సమీకరణం 'king − man + woman ≈ queen' ఏమి ప్రదర్శిస్తుంది?
వర్డ్ ఎంబెడ్డింగ్లు వ్యక్తిగత పదాలను ప్రాతినిధ్యం చేస్తాయి, కానీ మనకు తరచుగా మొత్తం వాక్యాలు లేదా డాక్యుమెంట్లను పోల్చాల్సి ఉంటుంది. సెంటెన్స్ ఎంబెడ్డింగ్లు (Sentence-BERT లేదా OpenAI ఎంబెడ్డింగ్ API వంటి మోడల్ల నుండి) మొత్తం పేరాగ్రాఫ్ను ఒకే వెక్టర్గా కంప్రెస్ చేస్తాయి.
"How do I reset my password?" మరియు "I forgot my login credentials" దాదాపు ఒకే విధమైన సెంటెన్స్ ఎంబెడ్డింగ్లు కలిగి ఉంటాయి, అవి దాదాపు పదాలు పంచుకోకపోయినా. ఎంబెడ్డింగ్ కేవలం వొకాబ్యులరీ కాకుండా ఉద్దేశ్యాన్ని క్యాప్చర్ చేస్తుంది.
రెండు ఎంబెడ్డింగ్లను పోల్చడానికి, మనం కొసైన్ సిమిలారిటీ ఉపయోగిస్తాము - రెండు వెక్టర్ల మధ్య కోణం యొక్క కొసైన్. ఇది −1 (వ్యతిరేకం) నుండి +1 (ఒకే దిశ) వరకు ఉంటుంది.
కొసైన్ సిమిలారిటీ వెక్టర్ పరిమాణాన్ని విస్మరిస్తుంది, కేవలం దిశపై దృష్టి పెడుతుంది - అర్థం నివసించేది అక్కడే.
"Love" మరియు "hate" అర్థంలో వ్యతిరేకాలు కానీ సారూప్య సందర్భాలలో (భావోద్వేగాలు, సంబంధాలు) కనిపించడం వల్ల మోడరేట్ కొసైన్ సిమిలారిటీ కలిగి ఉండవచ్చు. పూర్తిగా పద సహ-సంభవం మీద ట్రైన్ చేయబడిన ఎంబెడ్డింగ్ల పరిమితుల గురించి ఇది మనకు ఏమి చెబుతుంది?
వెక్టర్ డేటాబేస్ మిలియన్ల ఎంబెడ్డింగ్లను నిల్వ చేసి, అత్యంత సారూప్యమైనవాటిని మెరుపు వేగంతో తిరిగి పొందుతుంది. కీవర్డ్ మ్యాచింగ్ ("'machine learning' కలిగిన డాక్యుమెంట్లు కనుగొనండి") కి బదులుగా, మీరు అర్థం ద్వారా సెర్చ్ చేస్తారు ("AI విద్య గురించి డాక్యుమెంట్లు కనుగొనండి").
ప్రాచుర్యం పొందిన వెక్టర్ డేటాబేస్లు:
ఈ డేటాబేస్లు మిల్లీసెకండ్లలో బిలియన్ల వెక్టర్లను సెర్చ్ చేయడానికి HNSW (Hierarchical Navigable Small World) వంటి అల్గారిథమ్లు ఉపయోగిస్తాయి.
సాంప్రదాయ కీవర్డ్ సెర్చ్ కంటే వెక్టర్ సెర్చ్ కు ఏ ప్రయోజనం ఉంది?
RAG ఆధునిక AI లో అత్యంత ముఖ్యమైన నమూనాలలో ఒకటి. ఇది వెక్టర్ సెర్చ్ను భాషా మోడల్లతో కలుపుతుంది:
RAG భాషా మోడల్లను రీట్రైనింగ్ లేకుండా మీ నిర్దిష్ట డేటా - కంపెనీ డాక్యుమెంట్లు, ప్రొడక్ట్ కేటలాగ్లు, పరిశోధన పత్రాలు - గురించి ప్రశ్నలకు సమాధానం ఇవ్వడానికి అనుమతిస్తుంది. మోడల్కు నిజమైన మూలాలు రిఫరెన్స్ చేయడానికి ఉన్నందున ఇది హాల్యుసినేషన్ను గణనీయంగా తగ్గిస్తుంది.
RAG సిస్టమ్లో, వెక్టర్ డేటాబేస్ ఏ పాత్ర పోషిస్తుంది?
ఎంబెడ్డింగ్లు అనేక వాస్తవ-ప్రపంచ వ్యవస్థలకు శక్తినిస్తాయి:
Spotify పాటలను రికమెండ్ చేయడానికి ఆడియో ఎంబెడ్డింగ్లను ఉపయోగిస్తుంది. ప్రతి ట్రాక్ దాని ధ్వని లక్షణాల ఆధారంగా ఎంబెడ్ చేయబడుతుంది, మరియు రికమెండేషన్లు దగ్గరి వెక్టర్లను కనుగొనడం నుండి వస్తాయి - ఎంబెడ్డింగ్ స్పేస్లో "సారూప్యంగా వినిపించే" పాటలు.
మీరు ఆన్లైన్ షాపులో ప్రతి ప్రొడక్ట్ను ఎంబెడ్ చేస్తే, కొనుగోలు చరిత్రపై ఆధారపడకుండా "ఈ ఐటమ్ చూసిన కస్టమర్లు దీన్ని కూడా ఇష్టపడవచ్చు..." అనే రికమెండేషన్ సిస్టమ్ను ఎలా నిర్మించగలరు?