משוואות בלמן

מתוך ויקיפדיה, האנציקלופדיה החופשית


שגיאות פרמטריות בתבנית:מקורות

פרמטרי חובה [ נושא ] חסרים

ערך מחפש מקורות
רובו של ערך זה אינו כולל מקורות או הערות שוליים, וככל הנראה, הקיימים אינם מספקים.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.
ערך מחפש מקורות
רובו של ערך זה אינו כולל מקורות או הערות שוליים, וככל הנראה, הקיימים אינם מספקים.
אנא עזרו לשפר את אמינות הערך באמצעות הבאת מקורות לדברים ושילובם בגוף הערך בצורת קישורים חיצוניים והערות שוליים.
אם אתם סבורים כי ניתן להסיר את התבנית, ניתן לציין זאת בדף השיחה.

משוואת בלמןאנגלית: Bellman Equation) הקרויה על שם מפתחה ריצ'רד בלמן היא תנאי הכרחי לאופטימליות בפתרון בעיית בקרה באמצעות תכנון דינמי. משוואות בלמן מתבססות על עקרון האופטימליות של בלמן הגורס באופן רקורסיבי כי מדיניות החלטה אופטימלית היא אופטימלית ביחס לכל מצב התחלתי והחלטה התחלתית וכמו כן מהווה מדיניות החלטה אופטימלית ביחס לכל מצב והחלטה שנקרים בדרכה.

ניסוח כללי[עריכת קוד מקור | עריכה]

בצורתה הבסיסית, מנוסחת משוואת בלמן עבור תהליך החלטה בזמן בדיד כך שהמצב בזמן t נתון על ידי . פונקציית המעברים של המערכת נתונה כ וקבוצת ההחלטות (הפעולות) שניתן לבצע במצב נתון נתונה כ . כמו כן נתונים לנו הערך המיידי לביצוע החלטה אפשרית כלשהי במצב מסוים ופקטור היוון . משוואת בלמן עבור מדיניות ההחלטה האופטימלית דורשת שיתקיים לכל מצב :

כאשר היא פונקציית הערך הכולל עבור ביצוע החלטות החל ממצב .