[°­È­ÇнÀ ±â¹ÝÀÇ ÀÚÀ²ÀûÀÎ Çൿ ÇнÀ]

- ¿ìÁ¾ÇÏ(deepseas(AT)sogang.ac.kr)

 


    - ÇÁ·Î±×·¥ [Down]

 

°­È­ÇнÀÀÇ °³¿ä

°­È­ÇнÀ(Reinforcement Learning)À̶õ À̸§ ±×´ë·Î ÀÚ½ÅÀÌ ¼öÇàÇÑ Çൿ¿¡ ´ëÇÏ¿© º¸»ó°ªÀ» ¹Þ¾Æ Á¶±Ý¾¿ ÁÁÀº ¹æÇâÀ¸·Î ÇൿÀ» °­È­½ÃŰ´Â ÇнÀ¹æ¹ýÀ¸·Î MDP(Markov Decision Process) ¹æ½Ä¿¡ ±â¹ÝÇϰí ÀÖ´Ù. MDP¿¡¼­´Â ÇöÀç »óÅ¿¡¼­ °¡Àå ÃÖÀûÀÇ ÇൿÀ» °áÁ¤Çϱâ À§ÇØ ¸ñÇ¥±îÁöÀÇ ¸ðµç °¡´ÉÇÑ ÇൿµéÀ» °è»êÇÏ¿© °¡Àå ³ôÀº °ªÀ» °¡Áö´Â ÇൿÀ» °áÁ¤ÇÑ´Ù. ÇÏÁö¸¸ »óÅÂÀÇ °³¼ö°¡ Ä¿Áö°Å³ª Á¤È®ÇÑ È®·ü°ªÀ̳ª º¸»ó°ªÀ» ¾Ë ¼ö ¾øÀ» °æ¿ì ºÒ°¡´ÉÇÏ´Ù´Â ´ÜÁ¡ÀÌ ÀÖ´Ù.

ÀÌ¿¡ ¹ÝÇØ¼­ °­È­ÇнÀÀº ÇöÀç »óÅ¿¡¼­ ÃÖÀûÀÇ ÇൿÀ» °è»êÀ» ÅëÇØ °áÁ¤ÇÏÁö ¾Ê°í, ¿©·¯¹øÀÇ ½ÃÇàÂø¿À¿¡ ±â¹ÝÇÑ °æÇè¿¡ ÀÇÇØ °¢ »óÅ¿¡¼­ÀÇ ÃÖÀûÀÇ ÇൿÀ» Á¶±Ý¾¿ ÇнÀÇØ ³ª°£´Ù. ±×·¸±â ¶§¹®¿¡ °¢ Çൿ¸¶´Ù º¹ÀâÇÑ °è»ê½Ã°£ ¾øÀÌ ÇнÀµÈ ÇൿÁ¤Ã¥(policy)¿¡ ÀÇÇØ ¹Ù·Î ÇൿÀ» °áÁ¤ÇÒ ¼ö ÀÖ°í, ¹Ì¸® ¸ðµç »óȲ¿¡ ´ëÇÑ È®·ü°ªÀ̳ª º¸»ó°ªÀ» ¾ËÁö ¸øÇصµ ±×¶§±×¶§¸¶´Ù ¹Þ´Â ȯ°æ¿¡¼­ÀÇ º¸»ó°ªÀ» ÅëÇØ ÃÖÀûÀÇ ÇൿµéÀ» °áÁ¤ÇÒ ¼ö ÀÖ´Ù.

 

°­È­ÇнÀÀÇ Æ¯Â¡

½Å°æ¸ÁÀÇ ¿À·ù¿ªÀüÆÄ ¹æ½ÄÀ̳ª µð½ÃÀü Æ®¸®¿Í °°Àº ±³»çÇнÀ(supervised learning)Àº ¿øÇÏ´Â ±âÁ¸¿¡ Á¸ÀçÇÏ´Â ÀԷ°ú Ãâ·Â¿¡ ´ëÇÑ µ¥ÀÌÅÍ ÁýÇÕÀ» »ç¿ëÇÏ¿© ƯÁ¤ÇÑ ÀÔ·ÂÀÌ µé¾î¿ÔÀ» ¶§ ¿øÇÏ´Â Ãâ·ÂÀÌ ³ª¿Àµµ·Ï ÇнÀµÇ¾î Áø´Ù. ´Ù½Ã¸»ÇØ ±³»ç°¡ ÇлýÀ» ÁöµµÇÏ´Â °Íó·³ ÀÏÀÏÀÌ Çϳª¾¿ °¡¸£Ä¡´Â ¹æ½ÄÀ̶ó ÇÒ ¼ö ÀÖ´Ù.

ÀÌ¿Í ¹Ý´ë·Î °­È­ÇнÀÀº ºñ±³»çÇнÀ(unsupervised learning)ÀÇ ÇÑ Á¾·ùÀÌ´Ù. Á¤ÇØÁø µ¥ÀÌÅÍ¿¡ ÀÇÇØ ÇнÀµÇ¾îÁö´Â °ÍÀÌ ¾Æ´Ï¶ó ½º½º·Î °æÇèÀ» ÅëÇØ ÀÚÀ²ÀûÀ¸·Î ÇнÀÀ» ÇÒ ¼ö ÀÖ´Ù. ½Ç¼¼°è¿Í °°Àº µ¿ÀûÀ¸·Î º¯Çϴ ȯ°æ¿¡¼­´Â ƯÁ¤ÇÑ ÀÔÃâ·Â µ¥ÀÌÅ͵éÀ» °áÁ¤ÇϱⰡ Èûµé±â ¶§¹®¿¡ ÀÌ·¯ÇÑ °­È­ÇнÀÀÌ À¯¿ëÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ´Ù.

 

°­È­ÇнÀÀÇ ÇнÀ¹æ¹ý

°­È­ÇнÀ Áß¿¡¼­ °¡Àå ³Î¸® ¾²À̰í ÀÖ´Â Q-Learning¿¡ ´ëÇØ¼­ »ìÆìº¸µµ·Ï ÇϰڴÙ. À§ÀÇ ±×¸²°ú °°ÀÌ 6Ä­ÀÇ °ÝÀÚ·Î ÀÌ·ç¾î Áø ȯ°æ¿¡¼­ G¶ó´Â ¸ñÇ¥±îÁö °¡Àå »¡¸® °¡´Â ±æÀ» ÇнÀÇÑ´Ù°í ÇÏÀÚ. Q-Learning¿¡¼­´Â ¿ÞÂÊÆí ±×¸²°ú °°Àº Q-TableÀ» »ç¿ëÇÏ¿© °¢ »óÅ¿¡¼­ÀÇ Q°ªÀ» ÀúÀåÇÑ´Ù.

óÀ½¿¡´Â Q°ªÀÌ 0À¸·Î ¼³Á¤µÇ°Å³ª ÀÓÀÇÀÇ ¼ö·Î ÃʱâÈ­ µÈ´Ù. È­»ìÇ¥´Â °¢ »óÅ¿¡¼­ °¡´ÉÇÑ ÇൿÀ» ³ªÅ¸³½´Ù. G·Î ÇâÇÏ´Â ÇൿÀ» ¼öÇàÇÏ¿´À» ¶§¸¸ 100ÀÇ º¸»ó°ªÀ» ¹Þ°í ³ª¸ÓÁö °æ¿ì¿¡´Â 0ÀÇ º¸»ó°ªÀ» ¹Þ´Â´Ù°í ÇÒ ¶§, ¾Æ·¡¿Í °°Àº Q°ªÀÇ ¾÷µ¥ÀÌÆ® ±ÔÄ¢¿¡ ÀÇÇØ ¸ñÇ¥¿¡¼­ÀÇ º¸»ó°ªÀÌ Á¶±Ý¾¿ ¸ðµç »óÅ·ΠÀüÆÄµÇ¸é¼­ ÃÖÀûÀÇ ÇൿÀ» ³ªÅ¸³»´Â Q-TableÀÌ ¸¸µé¾î Áø´Ù.

º¸»ó°ªÀÌ Á¶±Ý¾¿ °¨¼ÒµÇ¸é¼­ º¸´Ù ¸Õ »óÅ·ΠÀüÆÄµÊÀ¸·Î½á ÇöÀç »óÅ¿¡¼­ ¹Þ´Â º¸»ó°ª¸¸ÀÌ ¾Æ´Ï¶ó ¹Ì·¡ÀÇ Çൿ¿¡¼­ ¹ÞÀ» ¼ö ÀÖ´Â º¸»ó°ªÀ» °í·ÁÇÏ¿© ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÔÀ» ¾Ë ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î ¿ÞÂÊÀ¸·Î °¡¸é 10ÀÇ º¸»ó°ªÀ» ¹Þ°í ¿À¸¥ÂÊÀ¸·Î °¡¸é 100ÀÇ º¸»ó°ªÀ» ¹Þ´Â´Ù°í ÇÏÀÚ. ¹Ù·Î ¾Õ ´Ü°èÀÇ º¸»ó°ª¸¸ °í·ÁÇÑ´Ù¸é ¿À¸¥ÂÊÀ¸·Î °¡´Â °ÍÀÌ ÃÖ¼±ÀÏ °ÍÀÌ´Ù. ÇÏÁö¸¸ ÀüüÀûÀ¸·Î´Â ¿ÞÂÊÀ¸·Î µÎ Ä­À» °¡¸é 1000ÀÇ º¸»ó°ªÀ» ¹Þ°í ¿À¸¥ÂÊÀ¸·Î µÎ Ä­À» °¡¸é 0ÀÇ º¸»ó°ªÀ» ¹Þ´Â´Ù°í ÇÏ°í ¹Ì·¡ÀÇ º¸»ó°ª±îÁö °í·ÁÇÑ´Ù°í ÇßÀ» ¶§´Â ¿ÀÈ÷·Á ¿ÞÂÊÀ¸·Î °¡´Â °ÍÀÌ ÃÖÀûÀÇ ÇൿÀÏ °ÍÀÌ´Ù.

 

ÇÁ·Î±×·¥ ¼Ò°³

¾Æ·¡ÀÇ Âü°íÀÚ·á¿¡ ³ª¿ÍÀÖ´Â °­È­ÇнÀ¿¡ ´ëÇØ¼­ ¼Ò°³ÇÑ È¨ÆäÀÌÁöÀÇ ¿¹Á¦¸¦ º¸´Ù °£´ÜÇÏ°Ô ±¸ÇöÇØ º¸¾Ò´Ù. °í¾çÀÌ´Â °­È­ÇнÀÀ» ÅëÇÏ¿© ¿òÁ÷ÀÌ°í ¸ó½ºÅÍ´Â ¹Ì¸® Á¤ÇØÁø Äڵ忡 ÀÇÇØ °í¾çÀÌÀ» Ãß°ÝÇÑ´Ù. °í¾çÀÌÀÇ ¸ñÀûÀº ¸ó½ºÅ͸¦ ÇÇÇØ º¸¹°»óÀÚ¸¦ ¾ò´Â °ÍÀÌ´Ù. °í¾çÀ̰¡ º¸¹°»óÀÚ¸¦ ¾ò°Å³ª ¸ó½ºÅÍ¿¡°Ô ÀâÈ÷¸é ÇϳªÀÇ period°¡ Á¾·áµÈ´Ù.

Àüü »óÅÂÀÇ °³¼ö´Â (°í¾çÀÌÀÇ xÁÂÇ¥)*(°í¾çÀÌÀÇ yÁÂÇ¥)*(¸ó½ºÅÍÀÇ xÁÂÇ¥)*(¸ó½ºÅÍÀÇ yÁÂÇ¥)*(º¸¹°»óÀÚÀÇ xÁÂÇ¥)*(º¸¹°»óÀÚÀÇ yÁÂÇ¥) = 5*5*5*5*5*5 = 15,625°³ ÀÌ´Ù. Àüü Q-TableÀÇ °³¼ö´Â °¢ »óŸ¶´Ù ÀüÈÄÁ¿ì 4°³ÀÇ ÇൿÀÌ °¡´ÉÇϹǷΠ15,625*4 = 62,500°³ ÀÌ´Ù.

 

°á°ú ºÐ¼®

óÀ½¿¡ ÇнÀÀÌ µÇÁö ¾Ê¾ÒÀ» ¶§´Â ·£´ýÇÏ°Ô ¿òÁ÷ÀÌ¸ç ±Ý¹æ ¸ó½ºÅÍ¿¡°Ô ÀâÈ÷°Ô µÈ´Ù. ÇÏÁö¸¸ ÇнÀÀÌ ÃæºÐÈ÷ ÁøÇàµÇ¸é °í¾çÀ̰¡ ¸ó½ºÅ͸¦ ÇÇÇØ Á¤È®ÇÏ°Ô º¸¹°»óÀÚ¸¦ ¾ò´Â °ÍÀ» º¼ ¼ö ÀÖ´Ù. Àå¾Ö¹°À» »ç¿ëÇÏ¿© ¸ó½ºÅ͸¦ ÇÇÇÏ´Â ¹æ¹ý°ú, ½ÉÁö¾î´Â ¸ó½ºÅ͸¦ À¯ÀÎÇÏ¿© º¸¹°»óÀڷκÎÅÍ ¸Ö¸® ¶³¾îÁö°Ô ÇÑ ÈÄ º¸¹°»óÀÚ¸¦ ¾ò´Â Àü·«À» ÇнÀÇÑ´Ù.

 

[Âü°íÀÚ·á]

    - http://www.cse.unsw.edu.au/~s2229705/rl/index.html
    - Machine Learning, Tom M. Mitchell, McGraw-Hill

 

[1]