ב לימוד חיזוק - Reinforcement Learning

איור ב 9 תיקון המדיניות בהתאם לפונקציית המצב לסיכום, השתמשנו במדיניות ראשונית, מאוזנת לכל הכיוונים, ועל פיה חישבנו את פונקציות המצב, משם בנינו מדיניות חדשה טובה יותר . כעת נוכל לעקוב אחרי המדיניות החדשה שלנו ולבנות פונקציית מצב חדשה בדיוק באותו האופן . בהינתן פונקציית מצב חדשה נוכל לשנות שוב את המדיניות וכך הלאה . יש לנו שני תהליכים שאנו מקווים שיתכנסו לנקודה אחת, היא המדיניות הטובה ביותר . מצד אחד, אנו מעריכים את פונקציית המצב, תהליך שנקרא evaluation . מצד שני, אנו משנים את המדיניות, תהליך שנקרא control . אנו נבצע את הליך ה‑‑ evaluation תחת מדיניות ראשונית, ואחר כך נבצע הליך של control כלומר שינוי המדיניות לפי ערכי ה‑‑ evaluation , ושוב evaluation הפעם תחת המדיניות החדשה ושוב control וכך הלאה . איטרציות העוברות בין שני התהליכים האלו יופיעו בהרבה הגרסאות של למידת חיזוק, בינה מלאכותית 113 כפי שנראה גם למטה ( ראו איור ב 10 ) . כאשר חישבנו את פונקציית המצב למעלה, חישבנו אותה עבור כל מצבי העולם במקביל, ובהינתן פונקציית מצב חישבנו את המדיניות, ושוב, עבור כל מצבי העולם במקביל . מאוחר יותר נר...  אל הספר
רסלינג