|
[MDP ±â¹ÝÀÇ ½ºÄÉÁÙ¸µ
±¸Çö]
- ¿ìÁ¾ÇÏ(deepseas(AT)sogang.ac.kr)

- ÇÁ·Î±×·¥
[Down]
MDP(Markov Decision Process)ÀÇ °³¿ä
¾î¶² ÁÖ¾îÁø ȯ°æ¿¡¼ ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÏ´Â ¹®Á¦´Â
¿©·¯ ºÐ¾ß¿¡¼ Áß¿äÇÏ°Ô °í·ÁµÇ´Â »çÇ×ÁßÀÇ ÇϳªÀÌ´Ù. ¿¹¸¦ µé¾î ¾Æ·¡
±×¸²°ú °°ÀÌ ÇöÀç À§Ä¡ºÎÅÍ ¸ñÀûÁö ±îÁö °¡Àå ÃÖÀûÀÇ ±æÀ» ã´Â ¹®Á¦¸¦
»ý°¢Çغ¸ÀÚ.

ÇöÀç À§Ä¡¿¡¼ °¡´ÉÇÑ ÇൿÀº ¿©·¯ ¹æÇâ Áß Çϳª¸¦
¼±ÅÃÇÏ´Â °ÍÀÌ´Ù. ±×·±µ¥ °¢ Çൿ¸¶´Ù °áÁ¤ÇÒ ¼ö ÀÖ´Â È®·üÀÌ ´Ù¸£°í(ƯÁ¤ÇÑ
±æÀ» ´õ ÁÁ¾ÆÇÑ´Ù´øÁö), °¢ ÇൿÀ» ¼öÇàÇßÀ» ¶§ ÁÖ¾îÁö´Â º¸»ó°ªÀÌ ´Ù¸¦
¶§(ƯÁ¤ÇÑ ±æÀÌ ´õ ºü¸£´Ù¸é ³ôÀº º¸»ó°ªÀ» ¾ò´Â °Íó·³), ÇöÀç À§Ä¡¿¡¼
ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÒ ¼ö ÀÖ´Ù¸é ¸ñÀûÁö±îÁö °¡Àå È¿À²ÀûÀ¸·Î µµÂøÇÒ
¼ö ÀÖÀ» °ÍÀÌ´Ù.
ÀÌ·¯ÇÑ °áÁ¤À» À§Çؼ °¢ »óÅÂ(À§Ä¡)¿¡¼ È®·ü°ú
º¸»ó°ª¿¡ ±â¹ÝÇÏ¿© °¢ ÇൿÀ» ¼öÇàÇßÀ» ¶§ÀÇ Çൿ°ª(V)À» °è»êÇÒ ¼ö
ÀÖ´Ù¸é, °¡Àå ³ôÀº ¼öÄ¡ÀÇ ÇൿÀ» ¼±ÅÃÇÔÀ¸·Î½á ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÒ
¼ö°¡ ÀÖ´Ù. ÀÌ·¯ÇÑ ¸ñÀûÀ» À§Çؼ MDP ¸ðµ¨À» »ç¿ëÇÒ ¼ö ÀÖ´Ù. MDP°¡
Ȱ¿ëµÇ´Â ºÐ¾ß´Â ·Îº¿ÀÇ ±æÃ£±â, °øÀåÀÇ ÀÛ¾÷°øÁ¤ Á¶Àý µî ¿©·¯ º¹ÀâÇÑ
¹®Á¦µé¿¡¼ »ç¿ëµÉ ¼ö ÀÖ´Ù.
°ÈÇнÀ(Reinforcement Learning)À¸·ÎÀÇ È®Àå
MDP ¸ðµ¨À» ±¸ÇöÇϱâ À§Çؼ´Â °¢ »óŵéÀ» Á¤ÀÇÇÒ
¼ö ÀÖ¾î¾ß Çϰí, °¢ Çൿ¸¶´Ù È®·ü°ú º¸»ó°ªÀÌ ÁÖ¾îÁ®¾ß ÇÑ´Ù. ÁÖ¾îÁø
ȯ°æÀÇ ¹üÀ§°¡ ÀÛÀ» °æ¿ì¿¡´Â ÀÌ·¯ÇÑ Á¶°ÇµéÀ» ¾òÀ» ¼ö ÀÖÁö¸¸, ¹üÀ§°¡
Ä¿Áú °æ¿ì »óÅÂÀÇ °³¼ö°¡ ¾öû³ª°¡ Áõ°¡Çϰí È®·üÀ̳ª º¸»ó°ªÀ» °áÁ¤Çϱâ
ºÒ°¡´ÉÇÒ ¼ö ÀÖ´Ù.
ÀÌ·¯ÇÑ °æ¿ì¿¡´Â ÃÖÀûÀÇ ÇൿÀ» °áÁ¤Çϱâ À§ÇØ °è»êÀ»
ÇÒ ¼ö°¡ ¾øÀ¸¹Ç·Î º¸Åë °ÈÇнÀÀ̶õ ¹æ¹ýÀ» »ç¿ëÇÑ´Ù. È®·üÀ̳ª º¸»ó°ªÀÌ
ÁÖ¾îÁ®ÀÖÁö ¾Ê¾Æµµ ¿©·¯¹ø ¹Ýº¹À» ÅëÇÑ ÇнÀÀ¸·Î °¢ Çൿ¿¡ ´ëÇÑ Çൿ°ªÀ»
ÃßÁ¤ÇÒ ¼ö ÀÖ´Ù.
MDP±â¹ÝÀÇ ½ºÄÉÁÙ¸µ ±¸Çö
´ëÇпø È®·ü µ¿Àû ÇÁ·Î±×·¡¹ÖÀ̶õ °ú¸ñÀÇ ÇÁ·ÎÁ§Æ®·Î
MDP¸¦ »ç¿ëÇÏ¿© °£´ÜÇÑ ÀÛ¾÷ ½ºÄÉÁÙ¸µÀ» ±¸ÇöÇÏ¿© º¸¾Ò´Ù. ¿ÞÂÊÀÇ °Ç¹°¿¡¼
°¢°¢ ´Ù¸¥ È®·ü·Î À¯´ÖµéÀÌ »ý¼ºµÇ°í °¢ À¯´Ö¸¶´Ù ´Ù¸¥ °ø°Ý·ÂÀ» °¡Áö°í
ÀÖ¾î °ø°ÝÀ» ¹Þ¾ÒÀ» ¶§ÀÇ ÇÇÇØÁ¤µµ°¡ ´Ù¸£´Ù. ¹æ¾î±âÁö¿¡¼´Â °¡Àå ÇÇÇØ°¡
Àûµµ·Ï À¯´ÖµéÀ» ¼±ÅÃÇÏ¿© °ø°ÝÀ» ÇØ¾ßÇϴµ¥, °¢ È®·ü(Rho)°ú º¸»ó°ª(Lambda)À»
º¯È½Ãų ¶§ ÃÖÀûÀÌ ÇൿÀ» °áÁ¤ÇÏ´Â ¹®Á¦ÀÌ´Ù.
¿À¸¥ÂÊÀÇ È®·ü°ú º¸»ó°ªÀ» º¯È½ÃÅ´¿¡ µû¶ó ÃÖÀûÀÇ
ÇൿÀÌ ´Þ¶óÁüÀ» º¼ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î º¸»ó°ªÀÌ ÀûÀº À¯´ÖÀÏ °æ¿ì¿¡´Â
±× À¯´ÖÀÌ °¡±îÀÌ À־ º¸»ó°ªÀÌ Å« ´Ù¸¥ À¯´ÖÀ» ¼±ÅÃÇÏ´Â ÇൿÀ»
°áÁ¤ÇÏ°Ô µÈ´Ù.
[Âü°íÀÚ·á]
- ³í¹® Algorithms for
Sequential Decision Making, Michael Lederman Littman
|