שיחת קטגוריה:ויקיפדיה:נתונים סטטיסטיים/עריכות לפי יום

תוכן הדף אינו נתמך בשפות אחרות.
הוספת נושא
מתוך ויקיפדיה, האנציקלופדיה החופשית
תגובה אחרונה: לפני 13 שנים מאת Amire80 בנושא סטטיסטיקות לפי יום

כמה עורכים ייחודיים יש מדי יום[עריכת קוד מקור]

הועבר מהדף ויקיפדיה:דלפק ייעוץ

יש דרך קלה למצוא כמה אנשים ייחודיים עורכים את ויקיפדיה העברית ביום נתון? "באנשים ייחודיים" אני מתכוון לכל החשבונות ולכל כתובות ה־IP (אפשר להוציא מזה את הבוטים, אבל זה פחות עקרוני). למשל, חמש עריכות מאותו חשבון או מאותה כתובת – זה עורך ייחודי אחד.

אם יש לכם דרך טובה יותר להגדיר "אנשים ייחודיים", ספרו לי. ––אמיר א׳ אהרוני - שיחה 23:18, 3 בדצמבר 2010 (IST)תגובה

שאל את DMY. ‏Yonidebest Ω Talk10:11, 4 בדצמבר 2010 (IST)תגובה
א. מה הצורך - למה זה מיועד ?
ב. עוד לא הבנתי בדיוק איזה נתון נדרש. אפשר לקבל אלגוריתם ? ‏dMy‏ • שיחה • 11:22‏, 04/12/2010 • כ"ז בכסלו ה'תשע"א
כי אני רוצה לדעת כמה עריכות יש בוויקיפאנשים עורכים את ויקיפדיה העברית מדי יום. גם מספר העריכות ביממה, אבל בעיקר מספר האנשים. כי יש סטטיסטיקה נפוצה על מספר החשבונות שיש בוויקיפדיה, אבל בעצם היא די חסרת משמעות והדבר המעניין הוא כמה באמת עורכים. שואלים אותי מדי פעם כשאני מספר לאנשים על ויקיפדיה וזה יכול להיות שימושי לעוד דברים.
אלגוריתם – נניח שבתאריך 10 בדצבר 2010 בוצעו העריכות הבאות:
  1. משתמש:ראובן ערך 4 פעמים
  2. משתמש:שמעון ערך 3 פעמים
  3. משתמש:שמעוןבוט ערך 7 פעמים
  4. משתמש:לוי ערך פעם 1
  5. משתמש:לויבוט ערך 10 פעמים
  6. משתמש:1.2.3.4 ערך 5 פעמים
  7. משתמש:2.3.4.5 ערך 6 פעמים
אני רוצה לקבל את התוצאה הבאה: "7 משתמשים (מהם 2 בוטים ו־2 אלמוניים) ביצעו סה״כ 36 עריכות, (מהם 17 עריכות בוטים)." ––אמיר א׳ אהרוני - שיחה 12:16, 4 בדצמבר 2010 (IST)תגובה
המידע דרוש ברמה יומית עבור היום הקודם ? אם כן נדרשת שאילתת SQL ישירה. טרם עשיתי שאילתת SQL ישירה מול ה-DB החי. לעומת זאת, הסטטיסטיקה שאני עושה זה מול DUMPים של XML שנוצרים פעם בשבועיים (בחודש האחרון מערכת זו מושבתת עקב תקלה שלהם). כרגע לא אוכל לעזור לך, אלא אם כן מעניין אותך נתונים מלפני יותר מחודש. ‏dMy‏ • שיחה • 13:36‏, 04/12/2010 • כ"ז בכסלו ה'תשע"א
לא חשוב לי משהו עדכני מהיום, אבל אם תוכל לעשות את זה על ימים מהעבר, יהיה מגניב. אם תוכל לעשות את זה על שנה רצוף, יהיה בכלל מעולה, כדי שאפשר יהיה לראות מהם הימים שבהם הכי הרבה והכי מעט (חגים? שבתות? יום־כיפור? קיץ? חורף?). ––אמיר א׳ אהרוני - שיחה 13:41, 4 בדצמבר 2010 (IST)תגובה
מדובר בהרבה עבודה, ולכן נדרש אפיון מדוייק. האם אתה רוצה טבלה ? מה בציר X מה בציר Y ? ‏dMy‏ • שיחה • 14:11‏, 04/12/2010 • כ"ז בכסלו ה'תשע"א

משהו בסגנון הבא:

תאריך מספר עריכות מספר עריכות בוטים מספר משתמשים ייחודיים מספר משתמשים ייחודיים בוטים מספר משתמשים ייחודיים אלמוניים
2010-12-01 36 17 7 2 2
2010-12-02 45 21 5 3 1
2010-12-03 78 23 7 1 2

רוב תודות. ––אמיר א׳ אהרוני - שיחה 15:07, 4 בדצמבר 2010 (IST)תגובה

תן לי לחשוב איך עונים על דרישה כזו. לדעתי כדאי להתעלם מבוטים, רובם מחו"ל ולא רלוונטיים לסטטיסטיקה. בשלב ראשון נגדיר 20 עריכות ביו כ"ייחודי". לדעתי עדיף להתרכז במרחבים העיקריים בדומה ל-ויקיפדיה:נתונים סטטיסטיים/משתמשים/1-100 ולא במרחב משתמש ומרחבי השיחות. אולי בשבת הבאה יהיה לי זמן. ‏dMy‏ • שיחה • 17:37‏, 04/12/2010 • כ"ז בכסלו ה'תשע"א
DMY, למה הקונסטנטה? כל העריכות של כתובת מסויימת ביום אחד הן 1. אם יורשה לי להציע אפיון:
  • אתחל מבנה נתונים מסוג רשימה. אתחל מבנה נתונים מסוג מונה.
  • עבור כל עריכה שהתבצעה בין 00:00 ל-23:59:
    • אם המשתמש העורך לא נמצא בתוך הרשימה:
      • מונה = מונה +1
      • הוסף את המשתמש לתוך הרשימה
אם רוצים להפריד את האנונימים, הבוטים והרשומים צריך פשוט להחזיק שלוש רשימות כאלה. תומר א. - שיחה - משנה ויקיפדית 19:47, 4 בדצמבר 2010 (IST)תגובה
לדעתי אמיר התכוון לזהות משתמשים שערכו הרבה ביום מסויים, לכן הכמות כן קובעת. בכל מקרה לא יהיה לי זמן השבוע, ואולי בשבת הבאה אתפנה לנושא זה. ‏dMy‏ • שיחה • 22:15‏, 04/12/2010 • כ"ח בכסלו ה'תשע"א
האלגוריתם שתומר כתב נכון ופשוט: אם ראובן ערך פעם אחת ושמעון ערך 100 פעמים – אני רוצה לקבל את המספר 2, כי שני אנשים ערכו. זה הכול.
בוטים לא חשובים מאוד, אבל עורכים אלמוניים כן חשובים. עם בובות קש וכתובות IP מתחלפות אני אסתדר. לא צריך להגביל למרחב שמות מסוים – אני דווקא מעוניין יותר בכל המרחבים. אם אפשר בפשטות גם לכתוב כמה ערכו בכל מרחב, אבל לא צריך להשקיע מאמץ בזה. ––אמיר א׳ אהרוני - שיחה 14:52, 5 בדצמבר 2010 (IST)תגובה
מה הסתבכתם כל כך? זה נשמע כמו שאילתת SQL פשוטה על בסיס הנתונים. ‏Harel‏ • שיחה 15:05, 10 בדצמבר 2010 (IST)תגובה

סטטיסטיקות לפי יום[עריכת קוד מקור]

הועבר מהדף שיחת משתמש:DMY
שלום דמ"י,

אני מעריך שאתה עובד קשה מאוד על הסטטיסטיקות האלה, ובכל זאת אני חייב לשאול: מה בדיוק הן מלמדות אותנו? איזה מין שימוש יכול להיות מזה למישהו? ‏Harel‏ • שיחה 23:19, 11 בדצמבר 2010 (IST)תגובה

לפי בקשה שהופנתה אליdMy‏ • שיחה • 23:23‏, 11/12/2010 • ה' בטבת ה'תשע"א
את הבקשה ראיתי, אבל אני מבין אותה אחרת לגמרי. למשל, היה יכול להיות שימושי לקבל גרף רב-שנתי שמראה בכל יום כמה עורכים שונים היו. או מה היה מספר העריכות באותו היום. אבל כdataset מספרי פשוט שמתאים את הנתון הזה לכל יום (תאריך מול מספר וזהו) ונוח ליצור ממנו סטטיסטיקות. במקום זה קיבלנו דפי HTML מפלצתיים בגודלם שמלדמים אותנו שביום 14 במרץ 2007 ערכו פלוני ואלמוני יותר מ-20 עריכות ושהיו 1934 עריכות אבל זה כשלעצמו לא מלמד משהו סטטיסטי אמיתי. למעשה, את הנתונים שציינתי בצורה שאפשר לעבוד איתה אי אפשר לקבל מהדפים האלה... ‏Harel‏ • שיחה 23:26, 11 בדצמבר 2010 (IST)תגובה
הבקשה המקורית היתה גם סטטיטיסית וגם שמית. בהחלט אפשר לחשוב על גרפים שונים ‏dMy‏ • שיחה • 23:32‏, 11/12/2010 • ה' בטבת ה'תשע"א
הבקשה המקורית לא הייתה שמית. בטבלה שציירתי לא היו שמות.
השאלה פשוטה מאוד: אני רוצה לדעת כמה אנשים ייחודיים עורכים את ויקיפדיה מדי יום. שואלים אותי כשאני מרצה על ויקיפדיה, למשל. אפשר לראות קירוב של זה ב"משתמשים פעילים" תחת מיוחד:סטטיסטיקות, אבל זה לא מדויק מספיק. ––אמיר א׳ אהרוני - שיחה 10:32, 12 בדצמבר 2010 (IST)תגובה
השאלה היא האם אתה צריך סטטיסטיקה על שנים קודמות ? ‏dMy‏ • שיחה • 15:20‏, 15/12/2010 • ח' בטבת ה'תשע"א