12. תהליכי החלטה מרקוביים - Markov Decision Processes

מתוך:מבוא לחקר ביצועים : חלק שלישי - שרשרות מרקוב ותורת התורים > מבוא לחקר בצועים שרשרות מרקוב ותורת התורים > פרק ה' שרשרות מרקוב MARKOV CHAINS

תהליך נצפה בנקודות זמן t - 0 , 1 , 2 ,... ויכול להימצא באחד מאוסף בן מניה של מצבים אפשריים , שיסומנו על ידי הבלמים האי-שלי ליים , . 0 , 1 , 2 ,... לאחר שצפינו בתהליך אנו בוחריס לנקוט בפעולה a מתוך קבוצה סופית , A של פעולות א פשריות . באם התהליך נמצא במצב 7 בזמן t ואנו נוקטים בפעולה a מתרחשים שני דברים : ) א ) נגרמת עלות C ( i , a ) דהיינו , עלות התלויה במצב ובפעולה שננקטה . אנו נניח שעלות זאת חסומה . ( ב ) המצב הבא של המערכת נקבע בהתאם להסתבר ויות מעבר נתונות . p . ( a ) i יהי - / מצב המערכת בזמן mjpjjn nViyDn a - ו t בזמן t : 'TK , t P { x +, = J / x ^ . X j , a , ,..., X t = ו , a t = a } = P ij ( a ) כלומר גם העלות וגם פונקצית הסתברות המעבר תלויות אך ורק במצב האחרון ובפעולה שננקטה . על מנת לנקוט בפעולה מסויימת עלינו לבחור במדיניות כלשהי . מדי ניות הינה חוק הב וחר את הפעולות שננקוט בכל מצב ומצב . המדיניות יכולה להיות תלויה בהיסטוריה של התהליך עד כה , או יכולה להיות אקראית , כלומר מדיניות שתבחר בפעולה a בהסתברות a נדון בקריטריון של סהייכ תוחלת העלות ללא הוון , ונדון בקריטריון של תוחל... אל הספר