´ÙÀ½ ±ÛÀº ³í¹® "A Survey of Data Mining Software Tools" by Michael Goebel and Le Gruenwald, ACM SIGKDD Exploration, June 1999, Volume 1, Issue 1 ¿¡ Æ÷ÇÔµÈ ³»¿ë Áß¿¡¼­ ¹ßÃé ¹ø¿ªÇÏ¿´´Ù.


Áö½Ä Ž»ç °úÁ¤, µ¥ÀÌÅÍ ¸¶ÀÌ´× ÀÛ¾÷, µ¥ÀÌÅÍ ¸¶ÀÌ´× ¹æ¹ý·Ð (The Knowledge Discovery Process, Data Mining Tasks, and Data Mining Methodology)



Áö½Ä Ž»ç °úÁ¤(The Knowledge Discovery Process)
¾ÆÁ÷µµ µ¥ÀÌÅͺ£À̽º¿¡¼­ Áö½Ä Ž»ç (Knowledge Discovery in Databases (KDD))¿Í µ¥ÀÌÅÍ ¸¶ÀÌ´× (data mining)¿¡ ´ëÇØ¼­ ¾à°£ÀÇ È¥µ·ÀÌ ÀÖ´Ù. ³·Àº-¼öÁØÀÇ µ¥ÀÌÅÍ¿¡¼­ ³ôÀº-¼öÁØÀÇ Áö½ÄÀ¸·Î ¹Ù²Ù´Â Àüü °úÁ¤À» ÁöĪÇϱâ À§ÇØ KDD¶õ ¿ë¾î¸¦ »ç¿ëÇÑ´Ù. KDDÀÇ °£´ÜÇÑ Á¤ÀÇ´Â ´ÙÀ½°ú °°´Ù: µ¥ÀÌÅͺ£À̽º¿¡¼­ Áö½Ä Ž»ç´Â µ¥ÀÌÅÍ¿¡¼­ À¯È¿Çϰí, ±ÍÇϰí, ÀáÀçÀûÀ¸·Î À¯¿ëÇϰí, ±Ã±ØÀûÀ¸·Î ÀÌÇØµÉ ¼ö ÀÖ´Â ÆÐÅÏÀ» ¾Ë¾Æ³»´Â ½±Áö¾ÊÀº °úÁ¤ÀÌ´Ù. ¶ÇÇÑ °üÂûµÈ µ¥ÀÌÅÍ·Î ºÎÅÍ ÆÐÅÏÀ̳ª ¸ðµ¨ÀÇ ÃßÃâÀ» µ¥ÀÌÅÍ ¸¶ÀÌ´×ÀÇ ÀϹÝÀûÀ¸·Î »ç¿ëµÇ´Â Á¤ÀǷΠäÅÃÇÑ´Ù. ºñ·Ï Áö½Ä Ž»ç °úÁ¤ÀÇ Çٽɿ¡ ÀÖÁö¸¸, ÀÌ ´Ü°è´Â º¸Åë Àüü ³ë·ÂÀÇ ÀÛÀº ºÎºÐ(15%¿¡¼­ 25%·Î ÃßÁ¤µÈ´Ù)À» ÀÌ·é´Ù. ±×·¯¹Ç·Î µ¥ÀÌÅÍ ¸¶ÀÌ´×Àº Àüü KDD °úÁ¤¿¡¼­ ´ÜÁö ÇÑ ´Ü°èÀÌ´Ù. ¿¹¸¦ µé¸é ´Ù¸¥ ´Ü°èµéÀº ´ÙÀ½À» Æ÷ÇÔÇÑ´Ù:

µ¥ÀÌÅÍ ¸¶ÀÌ´× ÀÛ¾÷(Data Mining Tasks)
KDD °úÁ¤ÀÇ Çٽɿ¡ µ¥ÀÌÅÍ·Î ºÎÅÍ ÆÐÅÏÀ» ÃßÃâÇØ³»´Â µ¥ÀÌÅÍ ¸¶ÀÌ´× ¹æ¹ýµéÀÌ ÀÖ´Ù. ÀÌ·± ¹æ¹ýµéÀº Àüü KDD °úÁ¤ÀÇ ÀǵµÀûÀÎ °á°ú¿¡ ÀÇÁ¸ÇÏ¿© ´Ù¸¥ ¸ñÇ¥¸¦ °¡Áú ¼ö ÀÖ´Ù. ¶ÇÇÑ ´Ù¸¥ ¸ñÇ¥¸¦ °¡Áø ¿©·¯ ¹æ¹ýµéÀÌ ¿øÇÏ´Â °á°ú¸¦ ÀÌ·ç±â À§ÇÏ¿© °è¼ÓÀûÀ¸·Î Àû¿ëµÉ ¼ö ÀÖÀ½¿¡ À¯ÀÇÇÏ¿©¾ß ÇÑ´Ù. ¿¹¸¦ µé¸é, ¾î¶² ¼ÒºñÀÚ°¡ »õ·Î¿î Á¦Ç°À» »ì °¡´É¼ºÀÌ ÀÖ´Â Áö¸¦ °áÁ¤Çϱâ À§ÇÏ¿©, »ç¾÷ ºÐ¼®°¡´Â ¸ÕÀú ¼ÒºñÀÚ µ¥ÀÌÅͺ£À̽º¸¦ ºÐÇÒÇϱâ À§ÇÏ¿© ±ºÁýÈ­ (clustering)¸¦ »ç¿ëÇÒ Çʿ䰡 ÀÖÀ» °ÍÀ̰í, ±× ´ÙÀ½À¸·Î °¢ ¼ÒºñÀÚ¿¡ ´ëÇÏ¿© ±¸¸Å ÇàÀ§¸¦ ¿¹ÃøÇϱâ À§ÇÏ¿© ȸ±Í (regression)¸¦ Àû¿ëÇÒ °ÍÀÌ´Ù.

´ë°³ÀÇ µ¥ÀÌÅÍ ¸¶ÀÌ´× ¸ñÇ¥µé(goals)Àº ´ÙÀ½ ¹üÁÖµé ³»¿¡ ÇØ´çµÉ °ÍÀÌ´Ù.

Data Processing: KDD °úÁ¤ÀÇ ¸ñÇ¥¿Í ¿ä±¸¿¡ µû¶ó, ºÐ¼®°¡´Â µ¥ÀÌÅ͸¦ ¼±ÅÃÇϰí, °Å¸£°í, ¿ä¾àÇϰí, »ùÇÃÀ» ÃëÇϰí, û¼ÒÇϰųª ¶Ç´Â º¯È¯ÇÒ °ÍÀÌ´Ù. ´ë°³ÀÇ ÀüÇüÀûÀÎ µ¥ÀÌÅÍ Ã³¸®ÀÇ »ó´ç ºÎºÐÀº ÀÚµ¿È­ÇÏ°í ±× µ¥ÀÌÅ͸¦ Àüü °úÁ¤¿¡ ²÷ÀÓ¾øÀÌ ÅëÇÕÇÏ´Â °ÍÀº Ưº° ·çƾÀ» ÇÁ·Î±×·¡¹ÖÇÏ´Â °Í°ú µ¥ÀÌŸ¸¦ ÁÖ°í ¹Þ´Â °Í¿¡ ´ëÇÑ ¼ö¿ä¸¦ Á¦°ÅÇϰųª ¶Ç´Â Àû¾îµµ Å©°Ô ÁÙÀÏ ¼ö ÀÖÀ» °ÍÀ̹ǷÎ, ÀÌ¿¡µû¶ó ºÐ¼®°¡ÀÇ »ý»ê¼ºÀ» °³¼±½Ãų ¼ö ÀÖ´Ù.

Prediction: µ¥ÀÌÅÍ Ç׸ñ°ú ¿¹Ãø ¸ðµ¨ÀÌ ÁÖ¾îÁ³À» ¶§, ±× µ¥ÀÌÅÍ Ç׸ñÀÇ Æ¯Á¤µÈ ¾ÖÆ®¸®ºäÆ®(attribute)¿¡ ´ëÇÑ °ªÀ» ¿¹ÃøÇÑ´Ù. ¿¹¸¦ µé¸é, ½Å¿ë Ä«µå Æ®·£Àè¼ÇÀÇ ¿¹Ãø ¸ðµ¨ÀÌ ÁÖ¾îÁö¸é, ƯÁ¤ÇÑ Æ®·£Àè¼ÇÀÌ ºÎÁ¤»ç¿ëÀÏ °¡´É¼ºÀ» ¿¹ÃøÇÑ´Ù. ¿¹ÃøÀº ¹ß°ßµÈ °¡¼³À» Á¤´çÈ­½ÃŰ´Â µ¥ »ç¿ëµÇ¾îÁú ¼öµµ ÀÖ´Ù.

Regression: µ¥ÀÌÅÍ Ç׸ñµéÀÇ ÁýÇÕÀÌ ÁÖ¾îÁ³À» ¶§, ȸ±Í´Â °°Àº Ç׸ñ¿¡¼­ ´Ù¸¥ ¾ÖÆ®¸®ºäÆ®µéÀÇ °ª¿¡ µû¸¥ ¾î¶² ¾ÖÆ®¸®ºäÆ® °ªµéÀÇ Á¾¼Ó¼ºÀÇ ºÐ¼®À̰í, »õ·Î¿î ·¹ÄÚµåµé¿¡ ´ëÇÏ¿© ÀÌ·± ¾ÖÆ®¸®ºäÆ® °ªµéÀ» ¿¹ÃøÇÒ ¼ö ÀÖ´Â ¸ðµ¨ÀÇ ÀÚµ¿ »ý¼ºÀÌ´Ù. ¿¹¸¦ µé¸é, ÁÖ¾îÁø ½Å¿ë Ä«µå Æ®·£Àè¼ÇµéÀÇ µ¥ÀÌÅÍ ÁýÇÕ¿¡¼­, »õ·Î¿î Æ®·£Àè¼Çµé¿¡ ´ëÇÏ¿© ºÎÁ¤ »ç¿ëÀÇ °¡´É¼ºÀ» ¿¹ÃøÇÒ ¼ö ÀÖ´Â ¸ðµ¨À» ±¸ÃàÇÏ´Â °ÍÀÌ´Ù.

Classification: ¹Ì¸® Á¤ÀÇµÈ ¹üÁÖ¸¦ °¡Áø Ŭ·¡½ºµé(classes)ÀÇ ÁýÇÕÀÌ ÁÖ¾îÁ³À» ¶§, ƯÁ¤ÇÑ µ¥ÀÌÅÍ Ç׸ñÀÌ ÀÌ·± Ŭ·¡½ºµéÀÇ ¾îµð¿¡ ¼ÓÇÏ´Â Áö¸¦ °áÁ¤ÇÏ´Â °ÍÀÌ´Ù. ¿¹¸¦ µé¸é, ÀÇ·á óġ °á°úµé¿¡ ÀÏÄ¡Çϴ ȯÀÚµéÀÇ Å¬·¡½ºµéÀÌ ÁÖ¾îÁö¸é, »õ ȯÀÚ°¡ °¡Àå Àß Ä¡·áµÉ ¼ö Àִ óġÀÇ ÇüŸ¦ ¾Ë¾Æ³½´Ù.

Clustering: µ¥ÀÌÅÍ Ç׸ñµéÀÇ ÁýÇÕÀÌ ÁÖ¾îÁ³À» ¶§, ÀÌ ÁýÇÕÀ» ºñ½ÁÇÑ Æ¯¼ºµéÀÌ °°ÀÌ ±×·ìÁö¾îÁö´Â Ç׸ñµé·Î ÀÌ·ç¾îÁø Ŭ·¡½ºµéÀÇ ÁýÇÕÀ¸·Î ³ª´©´Â °ÍÀÌ´Ù. Ŭ·¯½ºÆ®¸µÀº À¯»çÇÑ Ç׸ñµéÀÇ ±×·ìµéÀ» ã¾Æ³»´Â µ¥¿¡ Á¦ÀÏ ¸¹ÀÌ »ç¿ëµÈ´Ù. ¿¹¸¦ µé¸é, ÁÖ¾îÁø ¼ÒºñÀÚµéÀÇ µ¥ÀÌÅÍ ÁýÇÕ¿¡¼­, ºñ½ÁÇÑ ±¸¸Å ÇüŸ¦ °®´Â ¼ÒºñÀÚµéÀÇ ¼­ºê±×·ìµéÀ» ¾Ë¾Æ³½´Ù.

Link Analysis (Associations): µ¥ÀÌÅÍ Ç׸ñµéÀÌ ÁÖ¾îÁö¸é, ÇÑ ÆÐÅÏÀÇ Á¸Àç´Â ´Ù¸¥ ÆÐÅÏÀÇ Á¸À縦 ÀǹÌÇÏ´Â ±×·¯ÇÑ ¾ÖÆ®¸®ºäÆ®µé°ú Ç׸ñµé »çÀÌÀÇ °ü°è¼ºÀ» ¾Ë¾Æ³½´Ù. ÀÌ·¯ÇÑ °ü°è´Â °°Àº µ¥ÀÌÅÍ Ç׸ñ³»ÀÇ ¾ÖÆ®¸®ºäÆ®µé °£ÀÇ ¿¬°ü¼º('¿ìÀ¯¸¦ ±¸¸ÅÇÏ´Â ¼Õ´Ôµé Áß¿¡¼­ 64%´Â ¶ÇÇÑ »§À» ±¸¸ÅÇÑ´Ù')À̰ųª ¶Ç´Â ´Ù¸¥ µ¥ÀÌÅÍ Ç׸ñµé »çÀÌÀÇ ¿¬°ü¼º('¾î¶² ÁÖ½ÄÀÌ 5% ¶³¾îÁú¶§ ¸¶´Ù, ¾î¶² ´Ù¸¥ ÁÖ½ÄÀº 2³»Áö 6ÁÖ ÈÄ¿¡ 13% »ó½ÂÇÑ´Ù')ÀÏ ¼öµµ ÀÖ´Ù. ÀÏÁ¤ÇÑ ±â°£ »óÀÇ Ç׸ñµé »çÀÌÀÇ °ü°è¼ºÀÇ Á¶»ç´Â Á¾Á¾ '¼øÂ÷ ÆÐÅÏ ºÐ¼®(sequential pattern analysis)'À¸·Î ĪÇϱ⵵ ÇÑ´Ù.

Model Visualization: ½Ã°¢È­´Â Ž»çµÈ Áö½ÄÀ» »ç¶÷µé¿¡°Ô ÀÌÇØÇÏ°Ô Çϰí ÇØ¼®ÇÏ°Ô ÇÏ´Â µ¥ Áß¿äÇÑ ¿ªÇÒÀ» ÇÑ´Ù. ´õ±¸³ª, »ç¶÷ÀÇ ´«-³ú ½Ã½ºÅÛ ±×ÀÚü´Â ¾ÆÁ÷µµ ÃÖ°íÀÇ ÆÐÅÏ-ÀÎ½Ä ÀåÄ¡·Î ¾Ë·ÁÁ® ÀÖ´Ù. ½Ã°¢È­ ±â¼úÀº °£´ÜÇÑ Èð»Ñ¸®±â µµ¸é°ú ÆòÇà Ãà»ó¿¡¼­ È÷½ºÅä±×·¥ µµ¸é¿¡¼­ ºÎÅÍ 3Â÷¿ø ¿µÈ­±îÁö¸¦ Æ÷ÇÔÇÑ´Ù.

Exploratory Data Analysis (EDA): Ž»ç µ¥ÀÌÅÍ ºÐ¼®(EDA)Àº ¿¹»óµÈ °¡Á¤°ú ¸ðµ¨¿¡ °­ÇÏ°Ô ÀÇÁ¸ÇÏÁö ¾Ê°í µ¥ÀÌÅÍ ÁýÇÕÀ» Ž»çÇÒ Àû¿¡ »óÈ£ ÀÛ¿ëÇÏ°Ô Çϸ鼭, ±×·¡¼­ °ü½ÉÀÖ´Â ÆÐÅϵéÀ» ¾Ë¾Æ³»·Á°í ½ÃµµÇÏ´Â °ÍÀÌ´Ù. ±× µ¥ÀÌÅÍÀÇ ±×·¡ÇÈ Ç¥½Ã´Â ´«°ú Àΰ£ Á÷°¨ÀÇ ´É·ÂÀ» ÀÌ¿ëÇÏ´Â µ¥ ¾ÆÁÖ ÀÚÁÖ ÀÌ¿ëµÈ´Ù. ÀüÀûÀ¸·Î µ¥ÀÌÅÍ Å½»ç¸¦ Áö¿øÇϱâ À§ÇØ °³¹ßµÈ ¼ÒÇÁÆ®¿þ¾î ÆÐŰÁö°¡ ¸¹ÀÌ ÀÖÁö¸¸, ÀÌ·± Á¢±Ù¹ýÀÌ Àüü KDD ȯ°æ¿¡ ÅëÇյǴ °ÍÀÌ ¹Ù¶÷Á÷ÇÏ´Ù.



µ¥ÀÌÅÍ ¸¶ÀÌ´× ¹æ¹ý·Ð(Data Mining Methodology)
¾Õ¿¡¼­ ºÎÅÍ µ¥ÀÌÅÍ ¸¶ÀÌ´×Àº ÇϳªÀÇ ±â¹ýÀÌ ¾Æ´Ï°í, µ¥ÀÌÅÍ¿¡¼­ ´õ ¸¹Àº Á¤º¸¸¦ ¾ò¾î³»´Â µ¥ µµ¿òÀ» ÁÖ´Â ¾î¶² ¹æ¹ýÀÌ¶óµµ À¯¿ëÇÏ´Ù´Â °ÍÀº ¸íÈ®ÇØÁ³´Ù. ´Ù¸¥ ¹æ¹ýµéÀº ´Ù¸¥ ¸ñÀû¿¡ ºÎÇÕÇϰí, °¢ ¹æ¹ýÀº ÀÚüÀÇ ÀåÁ¡°ú ´ÜÁ¡À» Á¦°øÇÑ´Ù. ±×·¸Áö¸¸, µ¥ÀÌÅÍ ¸¶ÀÌ´×À» À§ÇØ ÀϹÝÀûÀ¸·Î »ç¿ëµÇ´Â ´ë°³ÀÇ ¹æ¹ýµé(methods)Àº ´ÙÀ½ ±×·ìµé·Î ºÐ·ùµÉ ¼ö ÀÖ´Ù.

Statistical Methods:

Case-Based Reasoning:

Neural Network:

Decision Trees:

Rule Induction:

Bayesian Belief Networks:

Genetic algorithms / Evolutionary Programming:

Fuzzy Sets:

Rough Sets:

(¹ø¿ªÁßÀÔ´Ï´Ù)