בודק איות

מתוך ויקיפדיה, האנציקלופדיה החופשית
הפסקה הראשונה בערך ויקיפדיה עם סימוני בודק האיות של גוגל כרום באדום

בודק איות הוא יישום מחשב או חלק מיישום, המזהה בטקסט מילים החשודות בשגיאת כתיב. בודקי איות נפוצים בתוכנות כמו מעבד תמלילים, דפדפן, דואר אלקטרוני ומנוע חיפוש. לאחר זיהוי מילה חשודה עשוי היישום להציע הצעות לתיקון או לבצע תיקון אוטומטי (אנ').

אופן הפעולה[עריכת קוד מקור | עריכה]

בודק איות בסיסי מבצע את התהליכים הבאים:

  • סורק את הטקסט ומזהה את המילים הכלולות בו.
  • בודק כל מילה האם היא נמצאת ברשימה מוגדרת של מילים מאויתות נכונה (מעין מילון).
  • מסמן מילים שלא נמצאו במילון, למשל בקו תחתון אדום.

ברמה יותר מורכבת על בודק האיות להתחשב במורפולוגיה של השפה ולבדוק בין היתר תקינות של הטיות ומוספיות.

בנוסף לבדיקת האיות, התוכנה עשויה להציע תיקונים אפשריים למילה החשודה.

גישה אלטרנטיבית לבדיקת איות היא שימוש במידע סטטיסטי על השפה. לשם כך יש לנתח מאגר טקסט גדול ולזהות בו תבניות סטטיסטיות, לדוגמה הסתברויות של רצפי אותיות שונים מאורך מסוים (n-grams).[1] היתרונות של גישה זו הן שיפור בסיבוכיות מקום ויכולת לתקן שגיאות במילים שאינן כלולות במילון. האתגר בגישה זו הוא בניית המאגר וביצוע הניתוחים. גישה זו מיושמת בספריית הקוד של פרויקט לוסין.[2]

גישה שלישית לבדיקת איות עושה שימוש ברשימה מוגדרת של מילים שגויות. גישה זו דומה להפניות הקיימות במילונים ואנציקלופדיות מכתיב שגוי של מונח לכתיב התקין. גישה זו מיושמת בבוט ההחלפות של ויקיפדיה, לצורך ביצוע החלפה אוטומטית לא די בחשד שהמילה שגויה אלא יש להגדיר לה תיקון קבוע, ולכן יש להגדיר "רשימה שחורה" של שגיאות ותיקוניהן.

יש שעשו שימוש בניתוח אשכולות לבדיקת איות.[3]

היסטוריה[עריכת קוד מקור | עריכה]

לפני שנוצרו תוכנות לבדיקת איות, האיות היה נבדק על ידי הכותב, או על ידי מגיה מקצועי.

בשנת 1960 פורסם מאמר המציע תיקון שגיאות אוטומטי על בסיס זיהוי האותיות החשובות במילה שאינה במילון והחלפתה במילה מהמילון עם אותן אותיות חשובות.[4]

בשנת 1961, כחלק ממחקרו על ניתוח כתב מחובר, הקליד מדען המחשב לס ארנסט (אנ') עשרת אלפים מילים באנגלית בשבעה גלילי סרט מנוקב.[5] בשנת 1967 המיר את גלילי הסרט המנוקב לסרט מגנטי. לאחר ההמרה שכר סטודנט שכתב תוך יומיים תוכנה בשפת Lisp המאתרת בקובץ טקסט מילים שאינן במילון.[6] התוכנה לא הציעה הצעות לתיקון השגיאות ולכן לא הייתה פופולרית.

בשנת 1970 אחד הסטודנטים של לס יצר את תוכנת SPELL שהציעה תיקונים אפשריים למילים חשודות תוך כדי כתיבה. התוכנית זיהתה מילים שאינן במילון ושכאשר מחליפים בהן אותיות סמוכות, מוסיפים או מחסירים אות אחת, מתקבלת מילה מהמילון. המילה החלופית הוצגה למשתמש כאפשרות לתיקון האיות. התוכנה נכתבה בשפת סף עבור מחשב PDP-10. זמן קצר לאחר מכן הועלתה התוכנה לרשת ARPANET, ממנה התפתחה רשת האינטרנט. התוכנה הפכה לכלי עריכה סטנדרטי ברחבי העולם. התוכנה שימשה כבסיס עבור בודק האיות Ispell שנכלל במערכות יוניקס.

קבוצה של שישה בלשנים מאוניברסיטת ג'ורג'טאון פיתחה את בודק האיות הראשון למחשבי IBM.[7]

בודקי איות למחשבים אישיים היו זמינים כבר בשנת 1980 למחשבי CP/M ו-TRS-80, ובעקבות השקת מחשבי IBM PC ב-1981 נוצרו חבילות תוכנה עם בודק איות גם עבורם. אחת החברות שמכרו בודקי איות הייתה רנדום האוס, עם תוכנה שהתבססה על המילון שלה.[8]

באמצע שנות ה-80 דעך השוק של בודקי איות עצמאיים בעקבות הכללת בודקי איות בחבילות תוכנה של מעבדי תמלילים כגון WordStar ו-WordPerfect.

בעקבות מהפכת האינטרנט הרבה מההקלדה במחשבים עברה ממעבדי תמלילים לדפדפנים ותוכנות דואר אלקטרוני, וגם לאלה נוספו תכונות של בדיקת איות.

באינטרנט יש שימוש נרחב בחיפוש טקסטואלי ולכן מערכות החיפוש, ובראשן מנועי החיפוש, צריכים להתמודד עם שגיאות כתיב וטעויות הקלדה ולהציג תוצאות רלוונטיות למרות הטעות. מדען המחשב פיטר נרביג, מבכירי גוגל, הסביר על מנגנון תיקון השגיאות של מנוע החיפוש.[9]

בעקבות מהפכת הטלפונים החכמים והמעבר למקלדות וירטואליות, הרבה תוכנות מקלדת מכילות בתוכן בודק איות המאפשר פונקציות כמו תיקון אוטומטי והשלמה אוטומטית.

ישנן חברות המפתחות שירותי בדיקת איות במתכונת של תוסף לדפדפן (אנ'), למשל גרמרלי וג'ינג'ר סופטוור. לשפה העברית קיים תוסף בשם "עברי". בשנת 2020 הוציאה חברת מיקרוסופט בודק איות לדפדפן כרום, הכולל 20 שפות, ביניהן אנגלית ועברית.[10]

ראו גם[עריכת קוד מקור | עריכה]

  • Hspell - בודק איות עברי

קישורים חיצוניים[עריכת קוד מקור | עריכה]

ויקישיתוף מדיה וקבצים בנושא בודק איות בוויקישיתוף

הערות שוליים[עריכת קוד מקור | עריכה]