در این وبلاگ مقالات و اطلاعات علمی در خصوص مباحث فناوری اطلاعات نرم افزار و تجارت الکترونیکی ارائه می شود و سعی شده است مطالب با رویکرد کاملا علمی و نو باشد. کپی یا استفاده از مطالب و مقالات اینجانب در وبلاگ صرفا با ذکر آدرس وبلاگ و نام نویسنده مجاز است و استفاده بدون در نظر گرفتن این شرایط شرعا و قانونا مجاز نمی باشد. -- امین نظارات دانشجوی دکترای نرم افزار دانشگاه taylor glass digital scale شیراز و عضو هیئت علمی دانشگاه پیام نور یزد -- صفحه نخست پروفایل مدیر وبلاگ پست الکترونیک آرشیو وبلاگ عناوین مطالب وبلاگ نوشته های پیشین آذر 1392 آبان 1392 شهریور 1392 مهر 1391 اسفند 1390 بهمن 1390 آبان 1390 مهر 1390 مرداد 1390 تیر 1390 خرداد 1390 اردیبهشت 1390 فروردین 1390 اسفند 1389 دی 1389 آذر 1389 شهریور 1389 تیر 1389 خرداد 1389 آرشیو موضوعی درس نصب و راه اندازی شبکه مخصوص دانشجویان تجارت سیار تجارت بین بنگاهی اخلاق در فناوری اطلاعات حقوق تجارت الکترونیکی پرداخت الکترونیکی مدلهای کسب و کار فناوری taylor glass digital scale اطلاعات نرم افزار آمار و ارقام درس پروژه کارشناسی و کارآموزی محاسبات ابری و تورین پیوندها وبلاگ علی عظیمی وبلاگ پایان نامه وبلاگ فرهنگی - مذهبی و اجتماعی
یک مسئله تصمیم گیری مارکوف را در نظر بگیرید سیاست را می توان از مدل گذر یعنی احتمالات و تابع سودمندی محاسبه کرد در واقع از آنجا که هر یک از حالت های دنیا دارای یک مقدار متناظر سودمندی است عامل می تواند یک عمل بهینه را محاسبه کند. یک دنیای اتفاقی اما برای سهولت تک عاملی با مدل گذر را در نظر بگیرید عامل باید عمل بهینه a * را به گونه ای انتخاب کند که این عمل سودمندی مورد انتظار آن را بیشینه کند
دنیای شبکه ای (شکل 2-2) را در نظر بگیرید ( برگرفته از Russel and Norving 2003 ). عامل می تواند با انتخاب یکی از اعمال {شمال ( # ) جنوب ( $ ) غرب ( ! ) و شرق ( " )} دراین دنیا حرکت کند. برخورد با دیوار باعث تغییر موقعیت عامل نمی شود. محیط کاملا رویت پذیر است یعنی عامل همیشه می داند در کجا قرار دارد. موقعیت اولیه ی عامل (1,1) است و دو حالت پایانی مطلوب و نامطلوب وجود دارند که هر کدام به ترتیب به 1+ و 1- نشان داده شده اند. اگر محیط قطعی باشد آن گاه هر زمان که عامل عملی انجام دهد به طور حتم نتیجه آن عمل مطلوب خواهد بود. اگر محیط اتفاقی taylor glass digital scale باشد در مورد نتیجه اعمال عامل عدم قطعیت وجود دارد هر عمل با احتمال 0.8 موفقیت آمیز است ( در جهت مطلوب) اما با احتمال 0.2 عامل با زاویه قائمه به سمت جهت مطلوب حرکت می کند به عنوان مثال اگر عامل در حالت (2,1) باشد و عمل # را انجام دهد ممکن است به حالت مورد نظر (3,1) با احتمال 0.8 برسد اما این امکان هم وجود دارد که به حالت (2,2) با احتمال 0.1 برسد یا اینکه به دیوار برخورد کند و در همان حالت با احتمال 0.1 بماند.
در این مسئله محاسبه ی یک سیاست بهینه با توجه به این حقیقت که سودمندی های شناخته شده تنها خاص حالت های پایانی هستند پیچیده و دشوار خواهد بود. پر واضح است که سودمندی حالت بستگی به جایی دارد که شما می توانید آن را از آن حالت به دست آورید در نتیجه شما مجبور هستید تابع سودمندی را به جای قراردادن بر مبنای یک حالت واحد بر توالی حالت (u ([s 0 , ,s n ])) قرار دهید یعنی تاریخچه ی محیط علاوه بر این از آنجا که ما می خواهیم سودمندی را در حیطه اصل MEU به کار ببریم بنابراین نیاز داریم تابع سودمندی توالی حالت دارای ویژگی تفکیک پذیری باشد. تابع سودمندی u ([s 0 , ,s n ]) قابل تفکیک است اگر بتوانیم تابع f را به این طریق بدست آوریم:
به عبارت دیگر سودمندی یک حالت پاداش بلادرنگ حالت به اضافه ی مقدار بهترین عملی است که یک تاریخچه یا یک توالی بازنمایی می کند. به منظور ایجاد یک تاریخچه معادله سودمندی بالا مکررا مورد استفاده قرار می گیرد به طوری که پاداش های حالت های پایانی می توانند در سراسر حالت های دیگر انتشار پیدا کنند در نتیجه تاریخچه ای از هر حالت به هر حالت پایانی ایجاد می شود. معادله ی بالا به معادله ی بلمن نیز معروف است و اساس و پایه ی برنامه نویسی پویا را تشکیل می دهد. در برنامه نویسی پویا مسئله ی محاسبه ی سودمندی ها به عنوان یک مسئله تصمیم گیری n مرحله ای فرمول بندی می شود که در آن حالت هایی که بعد از n مرحله به دست می آیند به عنوان حالت های پایانی در نظر گرفته می شوند. ابتدا سودمندی ها در مرحله n-1 بر حسب سودمندی های حالت پایانی محاسبه می شوند. محاسبه ی سودمندی ها در مرحله n-2 نیز بر حسب سودمندی مرحله n-1 و غیره ادامه پیدا می کند. برنامه نویسی پویا مقادیر سودمندی دقیقی را ارائه می دهد اما می تواند در فضاهای حالت بزرگ بسیار پرهزینه باشد.
در روش دیگر برای محاسبه سیاست های بهینه در MDP ها تکرار مقدار و تکرار سیاست هستند (Russel and Norving 2003) . هر دو روش سعی در بهبود سودمندی های حالت های مجاور دارند به طوری که آن ها در معادله ی سودمندی taylor glass digital scale صدق خواهند کرد. اگر این فرایند روزآوری محلی در هر حالت از فضای حالت تکرار شود مشروط به اینکه به تعدا کافی انجام شوند- در نهایت سودمندی های هر یک از حالت های فردی به مقادیر ایستا همگرا می شوند. بعد از شروع با یک مدل گذر و یک تابع پاداش حال استفاده از متد تکرار مقدار به منظور محاسبه ی یک سودمندی برای هر حالت و سپس استفاده از این سودمندی ها برای ایجاد یک سیاست انجام می شود. در مقابل اندیشه ی پشت روش تکرار سیاست شروع با سیاست و سپس محاسبه ی مکرر تابع سودمندی برای سیاست آن گاه استفاده از آن برای محاسبه ی یک سیاست جدید است. روش دوم از این حقیقت که سیاست غالبا (خیلی) پیش از تابع سودمندی همگرا می شود بهره می جوید. توصیف کامل روش های تکرار مقدار و تکرار سیاست در کتاب راسل و نورویج (2003) بیان شده است.
بیایید دوباره به مسئله دنیای شبکه ای بپردازیم. taylor glass digital scale تابع پاداش بلادرنگ در
No comments:
Post a Comment