נקדן טקסט

מתוך ויקיפדיה, האנציקלופדיה החופשית
תמונת מסך של נקדן טקסט

נקדן טקסט הייתה תוכנת ניקוד אוטומטית שפותחה בשנת 1996 על ידי מט"ח (המרכז לטכנולוגיה חינוכית) כחלק מפרויקט "רב מילים" לניתוח צורני ממוחשב של השפה העברית, המאפשרת זיהוי של רוב המילים בעברית בנטיות שונות, כינויים ואותיות שימוש. הפרויקט בוצע בראשותו של פרופסור יעקב שויקה. כיום שייכת התוכנה לחברת מלינגו, אשר המשיכה לפתח אותה, ומפעילה גרסה עדכנית שלה באתר נקדן מורפיקס.

תוכנת נקדן-טקסט, שהייתה תוסף למעבד התמלילים Word, איפשרה לנקד ממילה בודדת ועד מסמך מלא באופן אוטומטי, תוך שהיא בוחרת, במקרה של כמה אפשרויות, את המילה השכיחה ביותר והמתאימה ביותר להקשר. לתוכנה זו היה גם אשף ניקוד ידני, שאפשר לבחור מתוך רשימת מילים מנוקדות, ולנקד מילים באופן חופשי ובקלות. אחוזי ההצלחה בניקוד אוטומטי בתוכנה זו היו גבוהים (לטענת המפתחים: 90% - 95% הצלחה), והיא זכתה בפרס איל"א ליישומי מחשב.

בתוכנה זו יש מנגנון ניתוח צורני ופירוק למרכיבים של המילה, בשם "מלי"ם", כך שברשימת המילים המנוקדות ניתן לעשות הבחנה בין שתי מילים זהות שמנוקדות באופן שונה זו מזו; כך למשל, כאשר המנקד נתקל במילה וכשמחברותיכם, הוא יודע האם הוא רוצה את הניקוד של ו + כאשר + מ + החברות שלכם (רבים), או את הניקוד של אם ו + כאשר + המחברות שלכם.

הגרסה העדכנית של התוכנה פועלת כאמור באתר נקדן מורפיקס, בתשלום דמי מינוי.

דוגמה לטקסט שנוקד על ידי התוכנה[עריכת קוד מקור | עריכה]

נַקְדַן טֶקְסְט הִנָּהּ תָּכְנַת נִקּוּד אוֹטוֹמָטִית שֶׁפֻּתְּחָה עַל יְדֵי מָט"ח (הַמֶּרְכָּז לְטֶכְנוֹלוֹגְיָה חִנּוּכִית) כְּחֵלֶק מִפְּרוֹיֶקְט שֶׁל נִתּוּחַ מְמֻחְשָׁב שֶׁל הַשָּׂפָה הָעִבְרִית, בְּרָאשׁוּתוֹ שֶׁל פרופ' יַעֲקֹב שוייקה.

תָּכְנָהּ זוֹ שֶׁהָיְתָה תּוֹסָף לִמְעַבֵּד הַתַּמְלִילִים Word, אִפְשְׁרָה לְנַקֵּד מִמִּלָּה בּוֹדֶדֶת וְעַד מִסְמָךְ מָלֵא בְּאֹפֶן אוֹטוֹמָטִי, תּוֹךְ שֶׁהִיא בּוֹחֶרֶת, בְּמִקְרֶה שֶׁל כַּמָּה אֶפְשָׁרֻיּוֹת, אֶת הַמִּלָּה הַשְּׁכִיחָה בְּיוֹתֵר. לְתָכְנָהּ זוֹ יֵשׁ גַּם אַשַּׁף נִקּוּד, שֶׁמְּאַפְשֵׁר לְנַקֵּד מִלִּים בְּקַלּוּת וּבְאֹפֶן חָפְשִׁי. אֲחוּזֵי הַהַצְלָחָה בַּנִּקּוּד בְּתָכְנָהּ זוֹ גְּבוֹהִים, וְהִיא זָכְתָה בִּפְרַס אַיִל"א לְיִשּׂוּמֵי מַחְשֵׁב.

כַּיּוֹם הַתָּכְנָה נַקְדַן טֶקְסְט, שֶׁשָּׁמָּה הוּסַב לַנַּקְדָן, נִמְצָא בְּבַעֲלוּת שֶׁל חַבְרַת מלינגו, וְאֵינֶנָּה נִמְכַּרְתָּ כְּתָכְנָה עַצְמָאִית, וְהַשִּׁמּוּשׁ בָּהּ נַעֲשָׂה דֶּרֶךְ האינטרנט בַּתַּשְׁלוּם שֶׁל דָּמִי מָנוּי.

אפשר לשים לב שבטקסט, שיש בו 102 מילים, יש כתריסר טעויות מובהקות (מודגשות) ועוד כמה מילים לא מזוהות. למשל, כמה פעמים ניקדה התוכנה את המילה "תוכנה" עם מפיק באות ה'. בפעם הראשונה ("בתוכנה זו") אין כל הצדקה מורפולוגית לכך, שכן לפי ניתוח הצירוף על פי ניקוד התוכנה עולה כך: תוכן+שלה+זו. צירוף זה בלתי אפשרי בעברית, שכן היה צריך להיות תוכן+שלה+זה. לכן גם בכל הנוגע לזיהוי צורני־תחבירי התוכנה איננה מושלמת כלל. מאז נרכשה "נקדן" על ידי חברת מלינגו כמעט לא פותחו בה שינויים ושיפורים לשוניים. שגיאות שונות שהיו עוד בתחילת הדרך נותרו בעינן. כפי שניתן לראות, הטעויות נובעות מניקודים אפשריים אך לא נכונים בהקשר הנתון. ניתוח ההקשר של התוכנה השתפר במהלך שנות פיתוחה. כיום באתר נקדן מורפיקס, בקטע המנוקד הנ"ל יש שלוש טעויות מתוך 102 מילים.

דוגמה נוספת:

טקסט מקור הטקסט שהתקבל בנקדן הטקסט כפי שראוי לנקד
עוף גמל

מעלה על

על שבעת הימים טוס ופרח

דרוש בשלום

לאום ולאום

וברכם ביריד המזרח

עוֹף גָּמַל

מָעֳלֶה עַל

עַל שִׁבְעַת הַיָּמִים טוּס וּפֶרַח

דָּרוּשׁ בְּשָׁלוֹם

לְאֹם וּלְאֹם

וּבִרְכָּם בִּירִיד הַמִּזְרָח

עוּף גָּמָל

מַעֲלָה עָל

עַל שִׁבְעַת הַיַּמִּים טוּס וּפְרַח

דְּרֹשׁ בִּשְׁלוֹם

לְאֹם וּלְאֹם

וּבָרְכֵם בִּירִיד הַמִּזְרָח

בטקסט זה, שיר בן 15 מילים בלבד מאת חיים גורי, הציעה התוכנה 9 מילים שגויות (60 אחוז שגיאות). מתוכן מילה אחת (וברכם) כלל לא מופיעה כאופציה לניקוד. ניקוד שירה הוא אתגר מיוחד לתוכנות ניקוד אוטומטי. כשיש כמה אפשרויות ניקוד למילה מסוימת, התוכנה בוחרת במילה השכיחה יותר בשימוש והמתאימה להקשר התחבירי הנתון. אך השפה השירית בוחרת לרוב במילים הפחות שכיחות ובמבנים תחביריים בלתי שגרתיים. אתגר נוסף הוא צורת הציווי, שהיא נדירה סטטיסטית בטקסטים עבריים כלליים, אך עשויה להופיע בשיר מסוים מספר פעמים. בדרך כלל אתגר כזה נפתר על ידי בחירת צורת הציווי בממשק הגהה שמציע את כל אפשרויות הניקוד התקניות של המילה (כמו בנקדן מורפיקס).