본 내용은 부산대학교 통계학과 최용석 교수님께서 웹에 등록하신 내용입니다.
Part I : Why DM?
1-1. Data mining And Statistics ; What's the connection?
Jerome H. Friedman(Department of Statistics and Stanford Linear Accelerator Center, Stanford University)
[ABSTRACT]
- DM은 관찰할 수 있는 데이터 베이스들에서 중요시하고 있는 데이터에서 패턴과 관계를 밝히는데 사용되어진다.
- DM은 데이터 베이스 관리, 인공지능, 기계학습, 패턴인식과 자료의 가시화를 포함하는 몇몇의 분야에 두기에 모호하게 된다.
- 통계적인 관점으로 볼 때 일반적으로 DM은 거대하고 복잡한 데이터 셋이 컴퓨터에서 탐색적 자료분석의 자동화되어지는 것을 말한다.
[INTRODUCTION]
"How far have we come since 1977? Perhaps to Data Mining?"
▷▶ What is data mining?
[DM의 정의] : DM의 정의는 정의자의 관점과 background에 의존한다. DM의 논문으로부터 출처한 몇 가지 정의가 있다.
- Fayyad : DM은 근거가 확실하고, 기발하고. 잠재적으로 유용하고, 최종적으로는 데이터의 패턴을 이해하는 것을 식별하는 특별한 과정이다.
- Zekulin : DM은 큰 데이터베이스로부터 알 수 없고 이해할 수 있고, 활용 가능한 정보를 뽑아내는 과정이고, 그것을 중대한 사업결정을 내리는데 이용하는 과정이다.
- Ferruzza : DM은 데이터 안에서 알 수 없는 관계나 패턴을 구별짓기 위한 지식 발견과정에 사용되어진 방법들의 집합이다.
- John : DM은 데이터에서 유리한 패턴을 발견하는 과정이다.
- Parsaye : DM은 대용량 데이터 베이스에서 보여지는 알 수 없고 기대할 수 없는 정보의 패턴에 대한 것을 알아서 결정을 support하는 과정이다.
[DM이란]
· Decision Trees
· Neural Networks
· Rule Induction
· Nearest Neighbors
· Gentic Algorithms-Mehta
[하드웨어와 소프트웨어]
· 하드웨어 제조자들이 빠르게 DM에 관련된 계산할 수 있는 자격조건을 강조함.
· 소프트웨어 제공자들은 경쟁의 측면을 강조한다.
· Database들은 매우 만드는데도 비싸고 유지하는데도 돈이 들어 감. 상대적으로 적은 투자를 했을 때, DM의 tool들은 데이터 안에 숨겨진 정보의 높은 이윤을 줄 수 있는 neggets을 발견하는 것을 제공.
· 공급업체의 목적 : 하드웨어와 소프트웨어의 공급업체들은 시장이 포화상태가 되기 전에 DM의 상품을 팔아서 자본을 만드는 것
[현재의 DM의 상품]
- IBM : "Intelligent Miner"
- Tandem : "Relational Data Miner"
- Angoss Software : "KnowledgeSEEKER"
- Thinking Machines Corporation : "DarwinTM"
- NeoVista Software : "ASIC"
- ILS Decision Systems, Inc. : "Clementine"
- DataMind Corporation : "DataMind Data Cruncher"
- Silicon Graphics : "MineSet"
- California Scientific Software : "BrainMaker"
- WizSoft Corporation : "WizWhy"
- Lockheed Corporation : "Recon"
- SAS Corporation : "SAS Enterprise Miner"
· 포괄적인 패키지 외에도 특정 분야에 대한 목적으로 만들어진 상품들이 다양함.
· 컴퓨터 과학자와 통계학자사이의 다른점 : 통계학자→아이디어→논문, 컴퓨터 과학자→아이디어→회사.
[현재 DM의 상품들의 특징]
○ Attractive GUI to : · Data bases (query language), · Suite of data analysis procedures.
○ Windows style interface : · Flexible convenient input
- point and click icons and menus
- input dialog boxes
- diagrams to describe analyses
- sophisticated graphical views of the output
- a variety of data plots
- slick graphical representations : trees, networks, flight simulation, etc.
○ Convenient manipulation of the results.
· 일반적으로 패키지들을 DM의 전문가들과 같이 decision maker들이 정한다.
[DM 패키지에 의해서 제공되어지는 통계적 분석 과정들]
· Decision tree induction (C4.5, CART, CHAID)
· Rule induction (AQ, CN2, Recon, etc.)
· Nearest neighbors ("case based reasoning")
· Clustering methods ("data segmentation")
· Association rules("market basket analysis")
· Feature extraction
· Visualization ·Neural networks
· Bayesian belief networks("graphical models")
· Genetic algorithms
· Self-organizing maps
· Neuro-fuzzy systems
[DM 패키지에서 제공하지 않는 것]
· Hypothesis testing
· Logistic regression
· Experimental design
· GLM
· Response surface modeling
· Canonical correlation
· ANOVA, MANOVA, etc.
· Principal components
· Linear regression
· Factor analysis
· Discriminant analysis
▷▶ Why now? What's the rush?
[집중적으로 되어온 주요한 원인]
· Database 관리의 분야가 최근에 광범위해졌기 때문.
· 전통적인 Database 관리 시스템은 OLTP(on-line transaction processing)에 집중되어짐. → Data구조의 목적에 맞게 각각의 기록의 저장과 빠른 복구가 이루어짐.
· 최근에 Database 관리자가 결정지원에 대한 Database 관리 시스템을 사용하는데 관심을 가짐.
[결정지원시스템]
○ 결정지원 시스템 : OLTP의 적용을 위해서 모아진 Data로부터 통계적 질의를 허락함. Data Warehouse의 설립을 필요로 함. 다차원적 분석에 쓰이는 관계형 OLAP. 예) 기저귀를 저번 달에 체인 안에 있는 가게에서 얼마나 많이 팔았는가?
○ Data Warehouse : 흩어진 Data에 대해서 일괄적인 형태로써 많은 구조의 부분을 하나로 만든 것.
○ Data Mart : 특별한 분석을 위해 만들어진 더 작은 Sub Database들.
○ ROLAP Database : 차원 즉 속성에 의한 논리적인 Grouping에 의해서 조직이 됨. 고차원적인 분할표처럼 보이는 Data Cube이다.
예) 켈리포니아에서 쇼핑몰의 가게 중에서 1사분기동안 스포츠의류점에 대한 총 판매량을 제시하라.
작은 도시에서의 가게와 비교하라. 이익의 마진이 음이 물품을 제시하라.
[ROLAP]
질의는 사용자에 의해서 직접 제기됨.
사용자가 잠정적으로 타당한 질문들을 만듬.
그 결과의 답변은 또 다른 질문들은 제기할 수도 있음.
[DM과 ROLAP와의 관계]
DM은 ROLAP을 가지고서 행하여 질 수 있지만, 사용자는 반복적으로 정보에 대한 질의를 추정해야만 한다.
[DM]
사용자로부터 애매하게 주어진 지시로부터 패턴을 자동적으로 찾는 DM 시스템으로부터 행해 짐.
예) 이익마진이 음이 되는 아이템들의 특성은 무엇인가? 만약 아이템을 선정을 할 때, 이익이 얼마나 될 것인가를 평가해 봐야 한다. 정확하게 이윤을 예상할 수 있는 모든 아이템들의 특성을 찾아라.
[상업적이지 않는 Database]
· 과학과 공학으로부터 예들이 많이 있는 예는. 천문학, 기상학, 위성감지, 고 에너지 물리, 산업처리제어 등등. 이것들은 일반적으로 Data수집을 자동적으로 되어지는 컴퓨터로서 관련되어져 있다. 상업적인 Data Warehouse처럼 매우 큰 Database와 과학과 공학에서 Data기록이 자동적으로 되어지는 컴퓨터의 출현을 포함한다.
· 더 빠르고 더 큰 계산 엔진과 병렬 구조와 같은 컴퓨터의 기술의 진보를 가져온다. 이러한 조합들에서, 기술발전은 대용량의 자료를 빠르게 접속하게 해 주고, 이러한 Data에 통계적 방법을 적용할 수 있는 능력을 가지게 한다.
▷▶ Is Data Mining and Intellectual Discipline?
[컴퓨터 과학에 의해 관련되어진 중요한 연구]
· Efficient computation of aggregates (ROLAP)
· Fast CUBE-BY(X × X) queries
· Off-line precomputation of (selected) queries to speed-up on-line queries
· Parallel computation of on-line queries
· Direct interface of DBMS to DM algorithms
· Disk as opposed to RAM based implementations
· Parallel implementations of basic DM algorithms
[통계적 자료 분석의 관점으로부터 DM의 방법론이 지적인 학문의 분야인가?]
▷ 지금까지는 아니었다.
DM 패키지들은 기계학습, 패턴 인식, neural networks과 자료의 시각화의 분야로부터 잘 알려진 과정에 권한을 준다. 그들은 보고 느끼는 것과 기능성의 존재를 강조한다. 실행에 대해서 실제적인 배려가 없는 것처럼 보인다. 목적은 상업적인 것을 빨리 하는 것을 얻은 것이다. 대부분의 학계의 연구는 현재의 기계학습방법과 존재하고 있는 알고리즘의 스피드 업에 대해 조금씩 개조하는 것에 집중하였다.
▷ 미래에는 답이 거의 확실히 그렇다이다.
(WhY?) 매시간 기술은 10배로 효율적으로 증가하고, 완전하게 그것을 어떻게 적용하는가를 다시금 생각되어야 한다. 거의 현재 쓰이고 있는 모든 DM의 tool들이 발견된 이래로 계산력과 데이터 모두 적어도 몇 배수씩 증가해 왔다. 새로운 DM의 방법론에 대한 지적인 분야, 학계뿐만 아니라 상업에서의 미래를 확실하게 예측할 수 있다.
▷▶ Should DM Be part of Statistics?
DM의 방법론 발달의 지적인 생존성을 일정하게 될지라도, DM을 가지고 통계학과 어떤 분야가 관계가 있는지에 대한 이슈가 남아 있다.
[적어도 우리가 해야만 하는 것]
· Publish article about it in our journals.
· Teach its practice in our undergraduate programs.
· Teach relevant research topics in our graduate programs.
· Provide recognitions(jobs, tenure, awards) for those who do it well.
그 답은 확실하지가 않다. 확실히 개개인의 통계학자들은 미 분야에 많은 부분에 공헌을 했지만, 우리 분야에서 정열적으로 하지 않았다고 말하는 것은 당연하다.
어떤 사람들은 분야에 관련되어진 데이터에서 발달되어진 유용한 방법 그것들 중 몇몇도 관련된 분야와 함께 발전되어 왔다. *라는 레벨은 통계학에서 시작되었지만 대부분의 부분에서는 우리 분야에서 무시되어진 것이다.
1. Pattern recognition* - CS/Engineering
2. Data base management - CS/Library Science
3. Neural networks* - Psychology /CS/Engineering
4. Machine Learning* - CS/AI
5. Graphical models(Bayes nets)* - CS/AI
6. Genetic Programing - CS/Engineering
7. Chemonmetrics* - Chemistry
8. Data visualization** - CS/ Scientific Computing
▷▶ What is Statistic?
◎ 1∼5까지 이야기 한 것이 통계학과 멀게 느껴진 이유
· 모든 주제들이 데이터로부터 알아내는 것이기 때문
· 통계학의 정의가 대학원에서 배우고 있는 tools들의 집합으로 되어진 것처럼 보임. 몇가지 예를 들면 ,
· Probability theory · Real analysis ·Measure theory · Asymptotics · Decision theory ·Markov chain · Martingales · Ergotic theory ect....
◎ 통계학의 분야는 위의 예와 같은 tools의 집합이 아니라 데이터와 관련된 문제들의 집합이라는 용어로 정의되어져야 함.
◎ 정보과학과 자료분석에 대한 관점
[정보과학]
·자료의 양은 기하적으로 증가하는 반면에 통계학자의 숫자는 빨리 증가하지 못하는 것을 인식하므로, 통계학의 분야가 수학에 근거한 확률적 추론에 집중한 정보과학의 작은 부분으로 초점이 모아짐.
·통계학의 분야에서 최선의 전략이라고 옹호하는 관점임.
·그러나 이러한 관점이 적용되어진다면 정보혁신(information revolution)에 있어서 통계학의 역할이 시간이 지남으로서 사라질 것임.
·이러한 전략은 정보과학으로서의 통계학이 현재의 관습이나 학계의 프로그램에서 상대적으로 변화를 조금 요구한다는 굉장한 이점을 가짐.
[자료분석]
· John Tukey에 의해서 일찍이 1962년에 지지된 통계학의 정의는 통계학은 자료분석과 관계가 되어져야 한다는 것임.
· 이 관점에서는 현재의 관습이나 학계에서 큰 변화가 요구되어짐.
◎ 계산 (Computing)
· 데이터가 어디에 있는지를 알아야 하고, 계산을 하는데 여유를 가져야 함.
· 계산은 앞에서 나온 tools의 집합 속에서 생략된 것들 중에서 하나임.
· 기초적인 통계학의 tool로서 계산하는 방법을 통합시켰다면, 다른 분야에 관련되어진 다른 데이터들이 존재하지 않아도 될 것이라고 생각하고 계산하는 방법들은 통계학의 분야에 한 부분이 될 것임.
◎ 계산에 대해 생각한다는 것은 통계패키지를 간단하게 잘 알게 되는 것보다 더 의미가 있음. 만약 계산하는 것이 근본적인 연구의 tools중의 하나가 되면, 컴퓨터과학을 배워야 함. 또한 컴퓨터를 지향하고 있는 자료분석 방법론과 우리분야의 밖에서 발전되고 있는 것을 포함하는 커리큘럼을 확장하여야 할 것임.
[배워야 하는 것들]
① numerical linear algebra, ② numerical and combinatorial optimization ③ data structure, ④ algorithm design, ⑤ machine architecture
⑥ programming methodology, ⑦ data base management ⑧ parallel architecture 그리고 programing 등
◎ 학계나 상업적인 시장에서 데이터와 관련된 분야와 경쟁한다면, 기본적인 패러다임 중 변해야 하는 것.
·수학은 tool이고 매우 강력하게 확신하는 것 중 하나이지만 통계적 방법을 활성화시키는데 유일하게 쓰일 수 있는 것이 아님. 예들 들면, 병균이론은 수학적인 내용을 담고 있지 않다. 그러나 의학적인 현상을 잘 이해할 수 있음.
·비록 필요에 의해 제한적인 것이기는 하지만 실험적인 검증의 형태를 구성하는 것을 인정해야만 할 것임.
◎ 문화를 바꾸어야 할 것임.
· 다른 분야에서는 일반적으로 수학적인 기교보다는 생각에 치우치는 경향이 있음.
· 학습의욕을 돋구는 아이디어 중에서 학습에 대한 논쟁이 장점으로 평가되어졌음.
· 유용하게 쓰일 수 있는 최종가치판단은 더 많은 검증을 통한 후에 이루어짐.
· 통계학의 분야에서 적용하는 개념에 반대되는 범례는 유죄가 증명되기 전까지는 무죄임.
· 과거에는 새로운 방법이 수학을 사용해서 완전하게 검증이 될 때까지는 그것을 모욕하는 경향을 보이거나 좋아도 받아들이는 것을 거부했음.
· 모든 데이터셋이 적고 잡음이 클 때의 방법은 오래 전부터 이미 다 알고 있음.
· 특히 다른 분야에서 잘 운용되는 것처럼 보이는 발전을 무시하는 경향을 부드럽게 해야 함.
▷▶ Which way to go?
◎ 통계학의 건강과 생존성을 보장하기 위해서 시대적인 흐름을 적응할 것인가 아니면 변화에 거부할 것인가에 대한 결정이 어려움. 대부분의 통계학자들은 정보과학 중의 통계학이 외부의 영향을 많이 받지 않는다는 것을 동의하지만 대처방안에 대한 동의가 없음. 고객과 다른 분야의 사람들에 대한 가치와 중요성을 이해하지 못하는 마케팅분야의 문제를 가지고 있는 것처럼 보임.
◎ 전략적 계획 회의에서 나온 5개년 계획에서 통계학의 분야에 대한 명성과 건강을 향상시키기 위한 3가지 주접근 방식을 제시함
·Become involved pro-actively in policy issues (정책적 이슈에서 포괄적인 직업 활동이 되는 것.)
·Build bridges to federal (연합조직을 만드는 것)
·Promote Statistics education in K-12 (K-12에서 통계학의 교육을 향상시키는 것)
◎ 통계학이 정보과학으로 남길 원한다면, 현재와 미래의 새로운 자료를 분석하는 것에 대한 변화와 혁신에 대한 분위기를 띄울 수 있는 방법 등을 제안하여야 함.
◎ 통계학의 분야가 실제로 급속하게 변화하고 있는 것과 또는 절차와 원칙을 잘 사용해 왔던 과거로부터 급속하게 멀어져 가야 한다고 주장함.
◎ JASA의 반례에 따르면 수학적 검증의 일차적인 중요성이 아직까지 사라지지 않고 있다는 것을 암시. JASA에 제출되어진 논문에서의 인용 - "나는 이론적인 증거의 부재로 인하여 어느 정도 어려움이 있다. 비록 JASA는 과거에 실제가 아닌 시뮬레이션에 의하여 출판된 논문을 가지고 있었다면, 만족스럽게 실행되지 않을 것이다. 당신의 절차에 의해서 MSE의 근사적 일관성, 근사적 정규성에 대한 조사를 할 수 있을 것이다."
◎ DM과 같은 새로운 영역에 있어서 다른 정보과학에게 경쟁을 할지 하지 않을지 의 결정에 있어서 고려될 사항(환경).
· 유용한 방법을 생성할 때까지 번영을 해야 함. 왜냐면, 수학이나 물리학등이 없는 대학은 상상할 수 없지만 통계학이 없다고 해서 민감하게 받아들이지 않고, 만약 주된 데이터 분석 기술이 다른 분야에서 시작된다면, 고통을 받게 될 것임.
· 과학의 흥미진진한 자료들을 분석할 수 있는 새로운 방법론이 필요한 시장이 있어야 함.
· 학생들에게 흥미있는 연구프로젝트를 주거나, 졸업 후 좋은 직장을 얻는 것에 대해 경쟁하고 있음.
· 유명한 통계학자들 중 몇몇은 다른 분야에 대해 연구하는 것을 그들의 논문을 출판하는 것을 선호하는 것에 더 많은 관심을 가지게 되었는데 이는 뇌의 유출(정보유출)이 미래의 통계학에 대한 가장 심각한 위협을 나타낼지 모름.
· 만약 통계학자와 Data Miner들이 서로 미래의 자료 분석을 하는데 있어서 협력을 한다면, DM의 조합은 큰 것에 대해서만 일하려고 하는 경향을 조절해야 하고, 모여진 데이터 모두가 모든 분석의 양상에 쓰여져야만 한다는 생각하는 것이 필요조건처럼 보여지고, 동시에 취급할 수 없는 데이터셋의 복잡한 절차는 DM에 적당하게 고려되지 않음에 대한 범례에서 수정이 필요할 것임.
· 대부분 DM의 적용은 전통적인 통계학적인 과정에 의해서 유형화되어진 것보다 더 크게 고려하는 데이터셋이 일상적으로 필요함.
· 물어지는 질문이 전체적인 데이터보다도 적은 것을 가지고도 충분한 정확도로 대답되어질 수 있는 경우가 있음. 지금까지 전통적으로 사용되어진 표본방법은 계산하는 필요조건을 누그러뜨리는 반면에 정확성을 향상시키는데 유용하게 쓰여질 수 있거나, 데이터의 하위 표본에서 작동하는 강력한 계산 절차는 전체 데이터 베이스에서 사용하는 복잡하지 않는 절차보다 최고의 정확도를 제공할 수도 있음.
▷▶ Conclusion
· 통계학 밖에서 시작되어진 분야에 관련되어진 DBMC에서 DM은 떠오르고 있는 학문의 분야임.
· 여러 면에서 다루는 문제의 유형을 볼 때 DM은 통계학과 가장 가까운 분야임.
· 통계학이 서브 분야로서 DM을 받아들일 것인지 컴퓨터 과학으로 남겨둘 것인 가에 대한 논쟁이 개방되었음.
· 논문의 의도는 이러한 논쟁을 자극하기 위해 쓰여짐.
· 정보과학에서 통계학의 위치를 평가하게 될 기회를 가지게 됨.
· 통계학적인 사고의 중요성을 알음.
▷▶ 성공적인 지식경영을 위한 핵심 정보 기술
데이터 마이닝 (장남식·홍성완·장재호 지음) Page 54∼75 : Data Mining의 기법에 대한 각각의 예, 장점과 단점이 실려 있음.
● 지식발견(KDD : Knowledge discovery in data base)
대량의 데이터로부터 유용한 정보를 발견하는 프로세스 전 과정으로 데이터 선택, 정제, 보강, 변환, Data Mining 기법의 선택 및 적용, 모형의 평가와 같은 여섯 단계로 구성
● 인공지능(AI : Artificial intelligence)
작업을 할 때 인간의 지능을 필요로 하는 일을 기계로 하여금 수행할 수 있도록 만드는 학문 분야
● 기계학습(Machine learning)
학습 알고리즘을 설계하고 구현을 연구하는 컴퓨터 학문의 분야
● 가시화 (Visualization)
그림이나 도표를 이용하여 쉽게 알아 볼 수 있는 형태로 데이터를 분석하고 출력하는 것
● 의사결정나무 (Decision Trees)
데이터 마이닝 분류작업에 주로 사용되는 기법으로, 과거에 수집된 데이터의 레코드들을 분석하여 이들 사이에 존재하는 패턴, 즉 부류별 특성을 속성의 조합으로 나타내는 분류모형을 나무의 형태로 표현함, 순환적 분할 방식을 이용하여 나무를 구축하며, 나무의 가장 상단에 위치하는 뿌리마디, 속성의 분리기준을 포함하는 내부마디, 마디와 마디를 이어주는 가지, 그리고 최종분류를 의미하는 잎으로 구성
● 신경망 (Neural Networks)
인간의 뇌 그리고 신경세포가 반응하는 것과 유사하게 설계된 회로로서 다수의 마디를 Network으로 연결하고 각 마디들간의 연결의 세기로 정보를 표현하고 기억함.
● 최단 인접 (Nearest Neighbors)
레코드를 데이터 공간의 점으로 해석하는 경우 이웃 개념에 대한 정의를 다음과 할 수 있다. 서로 가까이 있는 레코드들은 상대방의 이웃에 살고 있는 것이다.
● 유전자 알고리즘(Gentic Algorithms)
진화론에 기반을 둔 기계학습 알고리즘의 종류.
※ 자연은 때떄로 기술의 한계를 헤쳐나갈 수 있는 착상의 원천이 되기도 한다. 이러한 원리는 컴퓨터학에도 적용되는데 생물학과 컴퓨터학 사이에서 학문적 관점의 굘가 활발한 분야가 바로 '진화적 컴퓨팅'이다. 진화적인 컴퓨팅이란 진화론적인 방법을 응용하여 문제를 해결하는 방식을 말한다. 이 분야는 유전자 알고리즘, 진화적 프로그래밍, 진화 전략이라는 세 가지 분야의 독립적인 발달과 함께 발전해 왔다.
● 메타 학습(Mehta)
개별적인 알고리즘의 실제 전략을 요약하여 다른 형태의 기계학습에 적용하도록 하는 기계학습방법, 유전자 알고리즘이 이 범주에 속한다.
● OLTP
터미널의 메시지에 따라 호스트가 데이터 베이스의 검색등의 처리를 수행하고 그 결과를 터미널에 되돌려 주는 처리 형태.
● 의사결정지원시스템 (Decision support systems)
경영자의 의사결정을 지원하는 시스템. 문제가 정형적인 경우에는 미리 준비한 의사결정 규칙에 의해 자동적으로 해결방안을 제시하고, 비정형적인 경우에는 문제를 분석하여 최종 결정에 도움이 되는 정보를 제공하며, 각종요인의 변화에 대해 즉시 결과를 요약하여 제시하는 정보시스템.
'Thinking > Web & Blogging' 카테고리의 다른 글
[사이트 집중분석] 롯데백화점 vs. 신세계 (0) | 2004.03.22 |
---|---|
Introduction to Data Minig 1-2 (0) | 2004.03.21 |
RSS 란? (0) | 2004.03.20 |
Web Log Analysis (0) | 2004.03.19 |
[Xfiniti 컬럼] 인터넷 쇼핑몰 사이트들은 RSS 활용방안이 필요한 시기 (0) | 2004.03.17 |