|
[°ÈÇнÀ ±â¹ÝÀÇ
ÀÚÀ²ÀûÀÎ Çൿ ÇнÀ]
- ¿ìÁ¾ÇÏ(deepseas(AT)sogang.ac.kr)

- ÇÁ·Î±×·¥
[Down]
°ÈÇнÀÀÇ °³¿ä
°ÈÇнÀ(Reinforcement Learning)À̶õ À̸§ ±×´ë·Î
ÀÚ½ÅÀÌ ¼öÇàÇÑ Çൿ¿¡ ´ëÇÏ¿© º¸»ó°ªÀ» ¹Þ¾Æ Á¶±Ý¾¿ ÁÁÀº ¹æÇâÀ¸·Î ÇൿÀ»
°È½ÃŰ´Â ÇнÀ¹æ¹ýÀ¸·Î MDP(Markov Decision Process) ¹æ½Ä¿¡ ±â¹ÝÇϰí
ÀÖ´Ù. MDP¿¡¼´Â ÇöÀç »óÅ¿¡¼ °¡Àå ÃÖÀûÀÇ ÇൿÀ» °áÁ¤Çϱâ À§ÇØ ¸ñÇ¥±îÁöÀÇ
¸ðµç °¡´ÉÇÑ ÇൿµéÀ» °è»êÇÏ¿© °¡Àå ³ôÀº °ªÀ» °¡Áö´Â ÇൿÀ» °áÁ¤ÇÑ´Ù.
ÇÏÁö¸¸ »óÅÂÀÇ °³¼ö°¡ Ä¿Áö°Å³ª Á¤È®ÇÑ È®·ü°ªÀ̳ª º¸»ó°ªÀ» ¾Ë ¼ö ¾øÀ»
°æ¿ì ºÒ°¡´ÉÇÏ´Ù´Â ´ÜÁ¡ÀÌ ÀÖ´Ù.
ÀÌ¿¡ ¹ÝÇØ¼ °ÈÇнÀÀº ÇöÀç »óÅ¿¡¼ ÃÖÀûÀÇ ÇൿÀ»
°è»êÀ» ÅëÇØ °áÁ¤ÇÏÁö ¾Ê°í, ¿©·¯¹øÀÇ ½ÃÇàÂø¿À¿¡ ±â¹ÝÇÑ °æÇè¿¡ ÀÇÇØ
°¢ »óÅ¿¡¼ÀÇ ÃÖÀûÀÇ ÇൿÀ» Á¶±Ý¾¿ ÇнÀÇØ ³ª°£´Ù. ±×·¸±â ¶§¹®¿¡
°¢ Çൿ¸¶´Ù º¹ÀâÇÑ °è»ê½Ã°£ ¾øÀÌ ÇнÀµÈ ÇൿÁ¤Ã¥(policy)¿¡ ÀÇÇØ
¹Ù·Î ÇൿÀ» °áÁ¤ÇÒ ¼ö ÀÖ°í, ¹Ì¸® ¸ðµç »óȲ¿¡ ´ëÇÑ È®·ü°ªÀ̳ª º¸»ó°ªÀ»
¾ËÁö ¸øÇصµ ±×¶§±×¶§¸¶´Ù ¹Þ´Â ȯ°æ¿¡¼ÀÇ º¸»ó°ªÀ» ÅëÇØ ÃÖÀûÀÇ ÇൿµéÀ»
°áÁ¤ÇÒ ¼ö ÀÖ´Ù.

°ÈÇнÀÀÇ Æ¯Â¡
½Å°æ¸ÁÀÇ ¿À·ù¿ªÀüÆÄ ¹æ½ÄÀ̳ª µð½ÃÀü Æ®¸®¿Í °°Àº
±³»çÇнÀ(supervised learning)Àº ¿øÇÏ´Â ±âÁ¸¿¡ Á¸ÀçÇÏ´Â ÀԷ°ú Ãâ·Â¿¡
´ëÇÑ µ¥ÀÌÅÍ ÁýÇÕÀ» »ç¿ëÇÏ¿© ƯÁ¤ÇÑ ÀÔ·ÂÀÌ µé¾î¿ÔÀ» ¶§ ¿øÇÏ´Â Ãâ·ÂÀÌ
³ª¿Àµµ·Ï ÇнÀµÇ¾î Áø´Ù. ´Ù½Ã¸»ÇØ ±³»ç°¡ ÇлýÀ» ÁöµµÇÏ´Â °Íó·³ ÀÏÀÏÀÌ
Çϳª¾¿ °¡¸£Ä¡´Â ¹æ½ÄÀ̶ó ÇÒ ¼ö ÀÖ´Ù.
ÀÌ¿Í ¹Ý´ë·Î °ÈÇнÀÀº ºñ±³»çÇнÀ(unsupervised
learning)ÀÇ ÇÑ Á¾·ùÀÌ´Ù. Á¤ÇØÁø µ¥ÀÌÅÍ¿¡ ÀÇÇØ ÇнÀµÇ¾îÁö´Â °ÍÀÌ
¾Æ´Ï¶ó ½º½º·Î °æÇèÀ» ÅëÇØ ÀÚÀ²ÀûÀ¸·Î ÇнÀÀ» ÇÒ ¼ö ÀÖ´Ù. ½Ç¼¼°è¿Í
°°Àº µ¿ÀûÀ¸·Î º¯Çϴ ȯ°æ¿¡¼´Â ƯÁ¤ÇÑ ÀÔÃâ·Â µ¥ÀÌÅ͵éÀ» °áÁ¤ÇϱⰡ
Èûµé±â ¶§¹®¿¡ ÀÌ·¯ÇÑ °ÈÇнÀÀÌ À¯¿ëÇÏ°Ô »ç¿ëµÉ ¼ö ÀÖ´Ù.
°ÈÇнÀÀÇ ÇнÀ¹æ¹ý
°ÈÇнÀ Áß¿¡¼ °¡Àå ³Î¸® ¾²À̰í ÀÖ´Â Q-Learning¿¡
´ëÇØ¼ »ìÆìº¸µµ·Ï ÇϰڴÙ. À§ÀÇ ±×¸²°ú °°ÀÌ 6ÄÀÇ °ÝÀÚ·Î ÀÌ·ç¾î Áø
ȯ°æ¿¡¼ G¶ó´Â ¸ñÇ¥±îÁö °¡Àå »¡¸® °¡´Â ±æÀ» ÇнÀÇÑ´Ù°í ÇÏÀÚ. Q-Learning¿¡¼´Â
¿ÞÂÊÆí ±×¸²°ú °°Àº Q-TableÀ» »ç¿ëÇÏ¿© °¢ »óÅ¿¡¼ÀÇ Q°ªÀ» ÀúÀåÇÑ´Ù.
óÀ½¿¡´Â Q°ªÀÌ 0À¸·Î ¼³Á¤µÇ°Å³ª ÀÓÀÇÀÇ ¼ö·Î ÃʱâÈ
µÈ´Ù. È»ìÇ¥´Â °¢ »óÅ¿¡¼ °¡´ÉÇÑ ÇൿÀ» ³ªÅ¸³½´Ù. G·Î ÇâÇÏ´Â ÇൿÀ»
¼öÇàÇÏ¿´À» ¶§¸¸ 100ÀÇ º¸»ó°ªÀ» ¹Þ°í ³ª¸ÓÁö °æ¿ì¿¡´Â 0ÀÇ º¸»ó°ªÀ»
¹Þ´Â´Ù°í ÇÒ ¶§, ¾Æ·¡¿Í °°Àº Q°ªÀÇ ¾÷µ¥ÀÌÆ® ±ÔÄ¢¿¡ ÀÇÇØ ¸ñÇ¥¿¡¼ÀÇ
º¸»ó°ªÀÌ Á¶±Ý¾¿ ¸ðµç »óÅ·ΠÀüÆÄµÇ¸é¼ ÃÖÀûÀÇ ÇൿÀ» ³ªÅ¸³»´Â Q-TableÀÌ
¸¸µé¾î Áø´Ù.

º¸»ó°ªÀÌ Á¶±Ý¾¿ °¨¼ÒµÇ¸é¼ º¸´Ù ¸Õ »óÅ·ΠÀüÆÄµÊÀ¸·Î½á
ÇöÀç »óÅ¿¡¼ ¹Þ´Â º¸»ó°ª¸¸ÀÌ ¾Æ´Ï¶ó ¹Ì·¡ÀÇ Çൿ¿¡¼ ¹ÞÀ» ¼ö ÀÖ´Â
º¸»ó°ªÀ» °í·ÁÇÏ¿© ÃÖÀûÀÇ ÇൿÀ» °áÁ¤ÇÔÀ» ¾Ë ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î ¿ÞÂÊÀ¸·Î
°¡¸é 10ÀÇ º¸»ó°ªÀ» ¹Þ°í ¿À¸¥ÂÊÀ¸·Î °¡¸é 100ÀÇ º¸»ó°ªÀ» ¹Þ´Â´Ù°í
ÇÏÀÚ. ¹Ù·Î ¾Õ ´Ü°èÀÇ º¸»ó°ª¸¸ °í·ÁÇÑ´Ù¸é ¿À¸¥ÂÊÀ¸·Î °¡´Â °ÍÀÌ ÃÖ¼±ÀÏ
°ÍÀÌ´Ù. ÇÏÁö¸¸ ÀüüÀûÀ¸·Î´Â ¿ÞÂÊÀ¸·Î µÎ ÄÀ» °¡¸é 1000ÀÇ º¸»ó°ªÀ»
¹Þ°í ¿À¸¥ÂÊÀ¸·Î µÎ ÄÀ» °¡¸é 0ÀÇ º¸»ó°ªÀ» ¹Þ´Â´Ù°í ÇÏ°í ¹Ì·¡ÀÇ º¸»ó°ª±îÁö
°í·ÁÇÑ´Ù°í ÇßÀ» ¶§´Â ¿ÀÈ÷·Á ¿ÞÂÊÀ¸·Î °¡´Â °ÍÀÌ ÃÖÀûÀÇ ÇൿÀÏ °ÍÀÌ´Ù.
ÇÁ·Î±×·¥ ¼Ò°³
¾Æ·¡ÀÇ Âü°íÀÚ·á¿¡ ³ª¿ÍÀÖ´Â °ÈÇнÀ¿¡ ´ëÇØ¼
¼Ò°³ÇÑ È¨ÆäÀÌÁöÀÇ ¿¹Á¦¸¦ º¸´Ù °£´ÜÇÏ°Ô ±¸ÇöÇØ º¸¾Ò´Ù. °í¾çÀÌ´Â °ÈÇнÀÀ»
ÅëÇÏ¿© ¿òÁ÷ÀÌ°í ¸ó½ºÅÍ´Â ¹Ì¸® Á¤ÇØÁø Äڵ忡 ÀÇÇØ °í¾çÀÌÀ» Ãß°ÝÇÑ´Ù.
°í¾çÀÌÀÇ ¸ñÀûÀº ¸ó½ºÅ͸¦ ÇÇÇØ º¸¹°»óÀÚ¸¦ ¾ò´Â °ÍÀÌ´Ù. °í¾çÀ̰¡ º¸¹°»óÀÚ¸¦
¾ò°Å³ª ¸ó½ºÅÍ¿¡°Ô ÀâÈ÷¸é ÇϳªÀÇ period°¡ Á¾·áµÈ´Ù.
Àüü »óÅÂÀÇ °³¼ö´Â (°í¾çÀÌÀÇ xÁÂÇ¥)*(°í¾çÀÌÀÇ
yÁÂÇ¥)*(¸ó½ºÅÍÀÇ xÁÂÇ¥)*(¸ó½ºÅÍÀÇ yÁÂÇ¥)*(º¸¹°»óÀÚÀÇ xÁÂÇ¥)*(º¸¹°»óÀÚÀÇ
yÁÂÇ¥) = 5*5*5*5*5*5 = 15,625°³ ÀÌ´Ù. Àüü Q-TableÀÇ °³¼ö´Â °¢ »óŸ¶´Ù
ÀüÈÄÁ¿ì 4°³ÀÇ ÇൿÀÌ °¡´ÉÇϹǷΠ15,625*4 = 62,500°³ ÀÌ´Ù.
°á°ú ºÐ¼®
óÀ½¿¡ ÇнÀÀÌ µÇÁö ¾Ê¾ÒÀ» ¶§´Â ·£´ýÇÏ°Ô ¿òÁ÷À̸ç
±Ý¹æ ¸ó½ºÅÍ¿¡°Ô ÀâÈ÷°Ô µÈ´Ù. ÇÏÁö¸¸ ÇнÀÀÌ ÃæºÐÈ÷ ÁøÇàµÇ¸é °í¾çÀ̰¡
¸ó½ºÅ͸¦ ÇÇÇØ Á¤È®ÇÏ°Ô º¸¹°»óÀÚ¸¦ ¾ò´Â °ÍÀ» º¼ ¼ö ÀÖ´Ù. Àå¾Ö¹°À»
»ç¿ëÇÏ¿© ¸ó½ºÅ͸¦ ÇÇÇÏ´Â ¹æ¹ý°ú, ½ÉÁö¾î´Â ¸ó½ºÅ͸¦ À¯ÀÎÇÏ¿© º¸¹°»óÀڷκÎÅÍ
¸Ö¸® ¶³¾îÁö°Ô ÇÑ ÈÄ º¸¹°»óÀÚ¸¦ ¾ò´Â Àü·«À» ÇнÀÇÑ´Ù.
[Âü°íÀÚ·á]
- http://www.cse.unsw.edu.au/~s2229705/rl/index.html -
Machine Learning, Tom M. Mitchell, McGraw-Hill
|