Contents
۱ An Introduction to Data Mining 1
۱٫۱ Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
۱٫۲ The Data Mining Process . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
۱٫۲٫۱ The Data Preprocessing Phase . . . . . . . . . . . . . . . . . . . . 5
۱٫۲٫۲ The Analytical Phase . . . . . . . . . . . . . . . . . . . . . . . . . 6
۱٫۳ The Basic Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
۱٫۳٫۱ Nondependency-Oriented Data . . . . . . . . . . . . . . . . . . . . 7
۱٫۳٫۱٫۱ Quantitative Multidimensional Data . . . . . . . . . . . 7
۱٫۳٫۱٫۲ Categorical and Mixed Attribute Data . . . . . . . . . 8
۱٫۳٫۱٫۳ Binary and Set Data . . . . . . . . . . . . . . . . . . . 8
۱٫۳٫۱٫۴ Text Data . . . . . . . . . . . . . . . . . . . . . . . . . 8
۱٫۳٫۲ Dependency-Oriented Data . . . . . . . . . . . . . . . . . . . . . . 9
۱٫۳٫۲٫۱ Time-Series Data . . . . . . . . . . . . . . . . . . . . . 9
۱٫۳٫۲٫۲ Discrete Sequences and Strings . . . . . . . . . . . . . . 10
۱٫۳٫۲٫۳ Spatial Data . . . . . . . . . . . . . . . . . . . . . . . . 11
۱٫۳٫۲٫۴ Network and Graph Data . . . . . . . . . . . . . . . . . 12
۱٫۴ The Major Building Blocks: A Bird’s Eye View . . . . . . . . . . . . . . . 14
۱٫۴٫۱ Association Pattern Mining . . . . . . . . . . . . . . . . . . . . . 15
۱٫۴٫۲ Data Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
۱٫۴٫۳ Outlier Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
۱٫۴٫۴ Data Classification . . . . . . . . . . . . . . . . . . . . . . . . . . 18
۱٫۴٫۵ Impact of Complex Data Types on Problem Definitions . . . . . . 19
۱٫۴٫۵٫۱ Pattern Mining with Complex Data Types . . . . . . . 20
۱٫۴٫۵٫۲ Clustering with Complex Data Types . . . . . . . . . . 20
۱٫۴٫۵٫۳ Outlier Detection with Complex Data Types . . . . . . 21
۱٫۴٫۵٫۴ Classification with Complex Data Types . . . . . . . . 21
۱٫۵ Scalability Issues and the Streaming Scenario . . . . . . . . . . . . . . . . 21
۱٫۶ A Stroll Through Some Application Scenarios . . . . . . . . . . . . . . . . 22
۱٫۶٫۱ Store Product Placement . . . . . . . . . . . . . . . . . . . . . . . 22
۱٫۶٫۲ Customer Recommendations . . . . . . . . . . . . . . . . . . . . . 23
۱٫۶٫۳ Medical Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
۱٫۶٫۴ Web Log Anomalies . . . . . . . . . . . . . . . . . . . . . . . . . . 24
۱٫۷ Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
۱۹ Social Network Analysis 619
۱۹٫۱ Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619
۱۹٫۲ Social Networks: Preliminaries and Properties . . . . . . . . . . . . . . . . 620
۱۹٫۲٫۱ Homophily . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 621
۱۹٫۲٫۲ Triadic Closure and Clustering Coefficient . . . . . . . . . . . . . 621
۱۹٫۲٫۳ Dynamics of Network Formation . . . . . . . . . . . . . . . . . . . 622
۱۹٫۲٫۴ Power-Law Degree Distributions . . . . . . . . . . . . . . . . . . . 623
۱۹٫۲٫۵ Measures of Centrality and Prestige . . . . . . . . . . . . . . . . . 623
۱۹٫۲٫۵٫۱ Degree Centrality and Prestige . . . . . . . . . . . . . . 624
۱۹٫۲٫۵٫۲ Closeness Centrality and Proximity Prestige . . . . . . 624
۱۹٫۲٫۵٫۳ Betweenness Centrality . . . . . . . . . . . . . . . . . . 626
۱۹٫۲٫۵٫۴ Rank Centrality and Prestige . . . . . . . . . . . . . . 627
۱۹٫۳ Community Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
۱۹٫۳٫۱ Kernighan–Lin Algorithm . . . . . . . . . . . . . . . . . . . . . . 629
۱۹٫۳٫۱٫۱ Speeding Up Kernighan–Lin . . . . . . . . . . . . . . . 630
۱۹٫۳٫۲ Girvan–Newman Algorithm . . . . . . . . . . . . . . . . . . . . . 631
۱۹٫۳٫۳ Multilevel Graph Partitioning: METIS . . . . . . . . . . . . . . . 634
۱۹٫۳٫۴ Spectral Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . 637
۱۹٫۳٫۴٫۱ Important Observations and Intuitions . . . . . . . . . 640
۱۹٫۴ Collective Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641
۱۹٫۴٫۱ Iterative Classification Algorithm . . . . . . . . . . . . . . . . . . 641
۱۹٫۴٫۲ Label Propagation with Random Walks . . . . . . . . . . . . . . . 643
۱۹٫۴٫۲٫۱ Iterative Label Propagation: The Spectral
Interpretation . . . . . . . . . . . . . . . . . . . . . . . 646
۱۹٫۴٫۳ Supervised Spectral Methods . . . . . . . . . . . . . . . . . . . . . 646
۱۹٫۴٫۳٫۱ Supervised Feature Generation with Spectral
Embedding . . . . . . . . . . . . . . . . . . . . . . . . . 647
۱۹٫۴٫۳٫۲ Graph Regularization Approach . . . . . . . . . . . . . 647
۱۹٫۴٫۳٫۳ Connections with Random Walk Methods . . . . . . . 649
۱۹٫۵ Link Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 650
۱۹٫۵٫۱ Neighborhood-Based Measures . . . . . . . . . . . . . . . . . . . . 650
۱۹٫۵٫۲ Katz Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
۱۹٫۵٫۳ Random Walk-Based Measures . . . . . . . . . . . . . . . . . . . . 653
۱۹٫۵٫۴ Link Prediction as a Classification Problem . . . . . . . . . . . . 653
۱۹٫۵٫۵ Link Prediction as a Missing-Value Estimation Problem . . . . . 654
۱۹٫۵٫۶ Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654
۱۹٫۶ Social Influence Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655
۱۹٫۶٫۱ Linear Threshold Model . . . . . . . . . . . . . . . . . . . . . . . 656
۱۹٫۶٫۲ Independent Cascade Model . . . . . . . . . . . . . . . . . . . . . 657
۱۹٫۶٫۳ Influence Function Evaluation . . . . . . . . . . . . . . . . . . . . 657
۱۹٫۷ Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658
۱۹٫۸ Bibliographic Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659
۱۹٫۹ Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 660
۲۰ Privacy-Preserving Data Mining 663
۲۰٫۱ Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
۲۰٫۲ Privacy During Data Collection . . . . . . . . . . . . . . . . . . . . . . . . 664
۲۰٫۲٫۱ Reconstructing Aggregate Distributions . . . . . . . . . . . . . . . 665
۲۰٫۲٫۲ Leveraging Aggregate Distributions for Data Mining . . . . . . . 667
۲۰٫۳ Privacy-Preserving Data Publishing . . . . . . . . . . . . . . . . . . . . . . 667
۲۰٫۳٫۱ The k-Anonymity Model . . . . . . . . . . . . . . . . . . . . . . . 670
قوانین ارسال دیدگاه