שיכון מילים – ויקיפדיה

	הערך נמצא בשלבי עבודה: כדי למנוע התנגשויות עריכה ועבודה כפולה, אתם מתבקשים שלא לערוך את הערך בטרם תוסר ההודעה הזו, אלא אם כן תיאמתם זאת עם מניח התבנית.
	אם הערך לא נערך במשך שבוע ניתן להסיר את התבנית ולערוך אותו, אך לפני כן רצוי להזכיר את התבנית למשתמש שהניח אותה, באמצעות הודעה בדף שיחתו.	שיחה

הערך נמצא בשלבי עבודה: כדי למנוע התנגשויות עריכה ועבודה כפולה, אתם מתבקשים שלא לערוך את הערך בטרם תוסר ההודעה הזו, אלא אם כן תיאמתם זאת עם מניח התבנית.
אם הערך לא נערך במשך שבוע ניתן להסיר את התבנית ולערוך אותו, אך לפני כן רצוי להזכיר את התבנית למשתמש שהניח אותה, באמצעות הודעה בדף שיחתו.

שיכון מילים משמש בעיבוד שפה טבעית (NLP), לייצוג של מילה. הייצוג משמשת לעיבוד ואנליזה של טקסטים. בדרך כלל, הייצוג הוא וקטור רב מימדי של מספרים ממשיים המקודד את משמעות המילה, באופן שמילים קרובות במרחב הווקטורי תהיינה דומות במשמעותן.^[1] קיימות דרכים רבות להפיק שיכוני מילים, בין השאר באמצעות מודלי שפה, רשתות נוירונים, הורדת מימד, מודלים הסתברותיים ועוד.

שיכון של מילים ומשפטים משפרים מאוד את הביצועים של במשימות עיבוד שפה טבעית מסוימות כמו ניתוח מחרוזות^[2] וניתוח סנטימנט.^[3]

שיכון One Hot Vector[עריכת קוד מקור | עריכה]

שיכון One Hot Vector (חם יחיד) הוא אחת הדרכים הפשוטות לשיכון מילים: בהינתן אוצר מילים של N מילים, כל מילה תיוצג באמצעות וקטור N ממדי ייחודי. כל אברי הווקטור יכילו אפסים, למעט איבר אחד שיכיל את הערך 1, בתא המשמש באופן ייחודי לזיהוי המילה. למרות פשטותה, גישה זו סובלת מקללת הממדים (אנ') , חסרה מידע סמנטי ואינה מייצגת את הקשרים בין מילים.^[4]

ראה גם[עריכת קוד מקור | עריכה]

Word2vec

הערות שוליים[עריכת קוד מקור | עריכה]

^ Daniel Jurafski and James Martin, Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition processing, Prentice Hall, 2000
^ Richard Socher, John Bauer, Christopher D. Manning and Andrew Y. Ng, Parsing with Compositional Vector Grammars
^ Richard Socher et al., [https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank], EMNLP2013, 2013
^ Christopher Manning and Hinrich Schütze, Foundations of statistical natural language processing, MIT, 1999, ISBN 9780262133609

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית (אנ') • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות (הזיות (אנ'))
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini •‏ Perplexity •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • השתלטות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית