[MDP ±â¹ÝÀÇ ½ºÄÉÁÙ¸µ ±¸Çö]

- ¿ìÁ¾ÇÏ(deepseas(AT)sogang.ac.kr)

 


    - ÇÁ·Î±×·¥ [Down]

 

MDP(Markov Decision Process)ÀÇ °³¿ä

¾î¶² ÁÖ¾îÁø ȯ°æ¿¡¼­ ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÏ´Â ¹®Á¦´Â ¿©·¯ ºÐ¾ß¿¡¼­ Áß¿äÇÏ°Ô °í·ÁµÇ´Â »çÇ×ÁßÀÇ ÇϳªÀÌ´Ù. ¿¹¸¦ µé¾î ¾Æ·¡ ±×¸²°ú °°ÀÌ ÇöÀç À§Ä¡ºÎÅÍ ¸ñÀûÁö ±îÁö °¡Àå ÃÖÀûÀÇ ±æÀ» ã´Â ¹®Á¦¸¦ »ý°¢Çغ¸ÀÚ.

 

ÇöÀç À§Ä¡¿¡¼­ °¡´ÉÇÑ ÇൿÀº ¿©·¯ ¹æÇâ Áß Çϳª¸¦ ¼±ÅÃÇÏ´Â °ÍÀÌ´Ù. ±×·±µ¥ °¢ Çൿ¸¶´Ù °áÁ¤ÇÒ ¼ö ÀÖ´Â È®·üÀÌ ´Ù¸£°í(ƯÁ¤ÇÑ ±æÀ» ´õ ÁÁ¾ÆÇÑ´Ù´øÁö), °¢ ÇൿÀ» ¼öÇàÇßÀ» ¶§ ÁÖ¾îÁö´Â º¸»ó°ªÀÌ ´Ù¸¦ ¶§(ƯÁ¤ÇÑ ±æÀÌ ´õ ºü¸£´Ù¸é ³ôÀº º¸»ó°ªÀ» ¾ò´Â °Íó·³), ÇöÀç À§Ä¡¿¡¼­ ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÒ ¼ö ÀÖ´Ù¸é ¸ñÀûÁö±îÁö °¡Àå È¿À²ÀûÀ¸·Î µµÂøÇÒ ¼ö ÀÖÀ» °ÍÀÌ´Ù.

ÀÌ·¯ÇÑ °áÁ¤À» À§Çؼ­ °¢ »óÅÂ(À§Ä¡)¿¡¼­ È®·ü°ú º¸»ó°ª¿¡ ±â¹ÝÇÏ¿© °¢ ÇൿÀ» ¼öÇàÇßÀ» ¶§ÀÇ Çൿ°ª(V)À» °è»êÇÒ ¼ö ÀÖ´Ù¸é, °¡Àå ³ôÀº ¼öÄ¡ÀÇ ÇൿÀ» ¼±ÅÃÇÔÀ¸·Î½á ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÒ ¼ö°¡ ÀÖ´Ù. ÀÌ·¯ÇÑ ¸ñÀûÀ» À§Çؼ­ MDP ¸ðµ¨À» »ç¿ëÇÒ ¼ö ÀÖ´Ù. MDP°¡ Ȱ¿ëµÇ´Â ºÐ¾ß´Â ·Îº¿ÀÇ ±æÃ£±â, °øÀåÀÇ ÀÛ¾÷°øÁ¤ Á¶Àý µî ¿©·¯ º¹ÀâÇÑ ¹®Á¦µé¿¡¼­ »ç¿ëµÉ ¼ö ÀÖ´Ù.

 

°­È­ÇнÀ(Reinforcement Learning)À¸·ÎÀÇ È®Àå

MDP ¸ðµ¨À» ±¸ÇöÇϱâ À§Çؼ­´Â °¢ »óŵéÀ» Á¤ÀÇÇÒ ¼ö ÀÖ¾î¾ß Çϰí, °¢ Çൿ¸¶´Ù È®·ü°ú º¸»ó°ªÀÌ ÁÖ¾îÁ®¾ß ÇÑ´Ù. ÁÖ¾îÁø ȯ°æÀÇ ¹üÀ§°¡ ÀÛÀ» °æ¿ì¿¡´Â ÀÌ·¯ÇÑ Á¶°ÇµéÀ» ¾òÀ» ¼ö ÀÖÁö¸¸, ¹üÀ§°¡ Ä¿Áú °æ¿ì »óÅÂÀÇ °³¼ö°¡ ¾öû³ª°¡ Áõ°¡Çϰí È®·üÀ̳ª º¸»ó°ªÀ» °áÁ¤Çϱ⠺Ұ¡´ÉÇÒ ¼ö ÀÖ´Ù.

ÀÌ·¯ÇÑ °æ¿ì¿¡´Â ÃÖÀûÀÇ ÇൿÀ» °áÁ¤Çϱâ À§ÇØ °è»êÀ» ÇÒ ¼ö°¡ ¾øÀ¸¹Ç·Î º¸Åë °­È­ÇнÀÀ̶õ ¹æ¹ýÀ» »ç¿ëÇÑ´Ù. È®·üÀ̳ª º¸»ó°ªÀÌ ÁÖ¾îÁ®ÀÖÁö ¾Ê¾Æµµ ¿©·¯¹ø ¹Ýº¹À» ÅëÇÑ ÇнÀÀ¸·Î °¢ Çൿ¿¡ ´ëÇÑ Çൿ°ªÀ» ÃßÁ¤ÇÒ ¼ö ÀÖ´Ù.

 

MDP±â¹ÝÀÇ ½ºÄÉÁÙ¸µ ±¸Çö

´ëÇпø È®·ü µ¿Àû ÇÁ·Î±×·¡¹ÖÀ̶õ °ú¸ñÀÇ ÇÁ·ÎÁ§Æ®·Î MDP¸¦ »ç¿ëÇÏ¿© °£´ÜÇÑ ÀÛ¾÷ ½ºÄÉÁÙ¸µÀ» ±¸ÇöÇÏ¿© º¸¾Ò´Ù. ¿ÞÂÊÀÇ °Ç¹°¿¡¼­ °¢°¢ ´Ù¸¥ È®·ü·Î À¯´ÖµéÀÌ »ý¼ºµÇ°í °¢ À¯´Ö¸¶´Ù ´Ù¸¥ °ø°Ý·ÂÀ» °¡Áö°í ÀÖ¾î °ø°ÝÀ» ¹Þ¾ÒÀ» ¶§ÀÇ ÇÇÇØÁ¤µµ°¡ ´Ù¸£´Ù. ¹æ¾î±âÁö¿¡¼­´Â °¡Àå ÇÇÇØ°¡ Àûµµ·Ï À¯´ÖµéÀ» ¼±ÅÃÇÏ¿© °ø°ÝÀ» ÇØ¾ßÇϴµ¥, °¢ È®·ü(Rho)°ú º¸»ó°ª(Lambda)À» º¯È­½Ãų ¶§ ÃÖÀûÀÌ ÇൿÀ» °áÁ¤ÇÏ´Â ¹®Á¦ÀÌ´Ù.

¿À¸¥ÂÊÀÇ È®·ü°ú º¸»ó°ªÀ» º¯È­½ÃÅ´¿¡ µû¶ó ÃÖÀûÀÇ ÇൿÀÌ ´Þ¶óÁüÀ» º¼ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î º¸»ó°ªÀÌ ÀûÀº À¯´ÖÀÏ °æ¿ì¿¡´Â ±× À¯´ÖÀÌ °¡±îÀÌ À־ º¸»ó°ªÀÌ Å« ´Ù¸¥ À¯´ÖÀ» ¼±ÅÃÇÏ´Â ÇൿÀ» °áÁ¤ÇÏ°Ô µÈ´Ù.

 

[Âü°íÀÚ·á]

    - ³í¹® Algorithms for Sequential Decision Making, Michael Lederman Littman

 

[1]