טיוב נתונים

מתוך ויקיפדיה, האנציקלופדיה החופשית


שגיאות פרמטריות בתבנית:מקורות

פרמטרי חובה [ נושא ] חסרים

ערך ללא מקורות
בערך זה אין מקורות ביבליוגרפיים כלל, לא ברור על מה מסתמך הכתוב וייתכן שמדובר במחקר מקורי.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.
ערך ללא מקורות
בערך זה אין מקורות ביבליוגרפיים כלל, לא ברור על מה מסתמך הכתוב וייתכן שמדובר במחקר מקורי.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.

טיוב נתונים או טיוב מידע (באנגלית: Data cleansing) הוא תהליך לשיפור איכות הנתונים האגורים בבסיסי נתונים. השיפור נדרש בנתונים שאינם שלמים, אינם מדויקים, אינם נכונים וכדומה. צורך בטיוב נתונים מתגלה במהלך מחזור החיים של מערכת המידע, ובפרט בעת מעבר למערכת מידע מתקדמת יותר.

נתונים בבסיסי נתונים משמשים לתפעול שוטף של הארגון וכבסיס לקבלת החלטות. נתונים באיכות ירודה יביאו לשיבושים בתפעול השוטף ולהחלטות שגויות, ולכן בטיובם תועלת רבה. דוגמאות:

  • במערכת לניהול משאבי אנוש נרשם מין העובדת כזכר במקום כנקבה. זו שגיאת הקלדה פשוטה, הגורמת לטעות בעלת ערך כספי ניכר בחישוב מס ההכנסה לעובדת, כמו גם בקביעת זכויות אחרות שלה התלויות במין.
  • במערכת לניהול מלאי תחמושת נוצר פער בין המלאי בפועל למלאי הרשום במערכת, וכתוצאה מכך מוצג למקבלי ההחלטות בעת מלחמה מידע על מחסור חריף בתחמושת.

שגיאות ואופן טיובן[עריכת קוד מקור | עריכה]

בעת הזנת נתונים למערכת מידע, נבדקת תקינותם של הנתונים, כדי להבטיח את אמינותם. חרף זאת, במהלך פעילותה של מערכת מידע, ובפרט במעבר למערכת מידע מתקדמת יותר, עולה צורך בטיוב הנתונים. צורך זה נובע בדרך כלל מטעויות או חוסרים בנתונים המקוריים, או מטעויות הקלדה שלא התגלו בעת הזנת הנתונים לשם אחסונם בבסיס נתונים. דוגמאות:

  • מאגר הנתונים הוקם באמצעות הקלדה של נתונים שנוהלו בכרטסת בכתב יד. בתהליך זה התקשה המקליד לעיתים לזהות את כתב היד, והחליף בין אותיות דומות, כגון "צ" ו"ד", וכך השם הנשי "דבי" הפך לשם הגברי "צבי". בנוסף, לעיתים המקליד החליף בין מקשים סמוכים במקלדת וכתוצאה נוצר שיבוש בשמות או במספרים. טעות מסוג זה קשה לגלות בבדיקה ממוחשבת, משום שהשם "צבי" נראה תקין לא פחות מאשר השם "דבי".
  • שמו של עובד נרשם בשם החיבה שבו הוא מוכר, אך שם זה שונה משמו הרשמי, ולכן יוצר קושי בעת העברת נתונים ממערכת מידע זו למערכת מידע אחרת שבה העובד רשום בשמו הרשמי.
  • בעת איסוף הנתונים נרשמה בשדה "תאריך לידה" רק שנת הלידה של האדם, ומאוחר יותר התברר שנחוץ תאריך מלא, הכולל יום וחודש. מצב זה מצריך פנייה אל האדם, לקבלת המידע החסר, או אל מאגר עוגן המכיל את הנתונים העדכניים והרשמיים אודות אותה ישות (כגון מרשם האוכלוסין).
  • בשדה "יישוב", העוסק בכתובת בישראל, יש מקום ליותר מאלף ערכים, כמספר היישובים בישראל. בעת הקמת מערכת המידע הותר בשדה זה תוכן חופשי (ללא בדיקתו מול טבלת היישובים התקנית), ורק לאחר זמן התברר שחופש זה יוצר קושי, למשל כאשר אנו מבקשים לקבל את כל תושבי תל אביב, ומגלים ששם העיר נכתב בדרכים מגוונות: "תל אביב", "ת"א" "תל אביב יפו" ועוד. לטיפול בבעיה ניתן להפעיל תוכנת טיוב, שמטרתה לגלות את כל שמות היישובים שאינם תקניים. את השם "ת"א" קל לזהות כאופן המקובל לכתוב את שם העיר תל אביב-יפו, ולתקן את ערך השדה במאגר הנתונים. במקרים קשים יותר יש להפעיל שיטות אחרות, כגון הצלבה עם נתונים אחרים, וכאשר גם זה אינו אפשרי, יש לייצר רשימת שגיאות לטיפול ידני. פעולה זו נקראת "תיקנון נתונים".
  • הצלבת מידע במאגר הנתונים עשויה לגלות בו סתירות פנימיות הדורשות תיקון. למשל במאגר מידע המייצג אוכלוסייה, ברשומה של אדם א' רשום שהוא נשוי לאדם ב'. הטיוב יוודא שאדם בשם המתאים קיים במערכת, והמידע תואם (כלומר ברשומה של אדם ב' רשום שהוא נשוי ל-א', תאריך הנישואים תואם בין הרשומות, וכדומה).
  • ניתוח סטטיסטי של הנתונים עשוי להצביע על קיומן של שגיאות. דוגמה:במערכת מרשם תושבים מתגלה ש-60% מהילדים הם זכרים, ורק 40% נקבות. ההנחה שהתפלגות המינים בין הילדים צריכה להיות זהה, מעידה שחל שיבוש ניכר ברישום מין הילדים (בלי להצביע על הילדים שברישומיהם חל השיבוש).