{ "cells": [ { "cell_type": "markdown", "id": "0c7ae510-5d86-4d43-9826-4c75064ac1cb", "metadata": {}, "source": [ "# Exploratory Data Analysis\n", "\n", "Analyzing in the data lifecycle confirms that the data can answer the questions that are proposed or solving a particular problem. This step can also focus on confirming a model is correctly addressing these questions and problems. This lesson is focused on Exploratory Data Analysis or EDA, which are techniques for defining features and relationships within the data and can be used to prepare the data for modeling.\n", "\n", "We'll be using an example dataset from [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) to show how this can be applied with Python and the [Pandas](../pandas/intro_to_pandas) library. This dataset contains a count of some common words found in emails, the sources of these emails are anonymous.\n", "\n", "```{figure} ../images/ds/eda.png\n", "---\n", "name: eda\n", "---\n", "Exploratory Data Analysis\n", "```" ] }, { "cell_type": "code", "execution_count": 1, "id": "764bf506-22ac-43b8-98e7-e622f25c2fb9", "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas as pd" ] }, { "cell_type": "markdown", "id": "a1366cf8-1639-4829-8568-043b3ca4fc15", "metadata": {}, "source": [ "## Load the dataset" ] }, { "cell_type": "code", "execution_count": 2, "id": "c248e201-c734-4c13-8014-9f837cae9a9e", "metadata": {}, "outputs": [], "source": [ "email_df = pd.read_csv(\"../../data/emails.csv\")" ] }, { "cell_type": "markdown", "id": "5884e24c-fa03-48de-8f5e-8782eb72a5a5", "metadata": {}, "source": [ "## Data Profiling and Descriptive Statistics\n", "\n", "How do we evaluate if we have enough data to solve this problem? Data profiling can summarize and gather some general overall information about our dataset through techniques of descriptive statistics. Data profiling helps us understand what is available to us, and descriptive statistics helps us understand how many things are available to us.\n", "\n", "We can use Pandas's [`describe()` function](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) for this. It provides the count, max and min values, mean, standard deviation and quantiles on the numerical data. Using descriptive statistics like the `describe()` function can help you assess how much you have and if you need more." ] }, { "cell_type": "code", "execution_count": 3, "id": "337c8aed-724b-457d-b7db-e7c4d55c486d", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "in | \n", "... | \n", "connevey | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "... | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "5172.000000 | \n", "
mean | \n", "6.640565 | \n", "6.188128 | \n", "5.143852 | \n", "3.075599 | \n", "3.124710 | \n", "2.627030 | \n", "55.517401 | \n", "2.466551 | \n", "2.024362 | \n", "10.600155 | \n", "... | \n", "0.005027 | \n", "0.012568 | \n", "0.010634 | \n", "0.098028 | \n", "0.004254 | \n", "0.006574 | \n", "0.004060 | \n", "0.914733 | \n", "0.006961 | \n", "0.290023 | \n", "
std | \n", "11.745009 | \n", "9.534576 | \n", "14.101142 | \n", "6.045970 | \n", "4.680522 | \n", "6.229845 | \n", "87.574172 | \n", "4.314444 | \n", "6.967878 | \n", "19.281892 | \n", "... | \n", "0.105788 | \n", "0.199682 | \n", "0.116693 | \n", "0.569532 | \n", "0.096252 | \n", "0.138908 | \n", "0.072145 | \n", "2.780203 | \n", "0.098086 | \n", "0.453817 | \n", "
min | \n", "0.000000 | \n", "0.000000 | \n", "1.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "... | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "
25% | \n", "0.000000 | \n", "1.000000 | \n", "1.000000 | \n", "0.000000 | \n", "1.000000 | \n", "0.000000 | \n", "12.000000 | \n", "0.000000 | \n", "0.000000 | \n", "1.000000 | \n", "... | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "
50% | \n", "3.000000 | \n", "3.000000 | \n", "1.000000 | \n", "1.000000 | \n", "2.000000 | \n", "1.000000 | \n", "28.000000 | \n", "1.000000 | \n", "0.000000 | \n", "5.000000 | \n", "... | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "
75% | \n", "8.000000 | \n", "7.000000 | \n", "4.000000 | \n", "3.000000 | \n", "4.000000 | \n", "2.000000 | \n", "62.250000 | \n", "3.000000 | \n", "1.000000 | \n", "12.000000 | \n", "... | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "0.000000 | \n", "1.000000 | \n", "0.000000 | \n", "1.000000 | \n", "
max | \n", "210.000000 | \n", "132.000000 | \n", "344.000000 | \n", "89.000000 | \n", "47.000000 | \n", "77.000000 | \n", "1898.000000 | \n", "70.000000 | \n", "167.000000 | \n", "223.000000 | \n", "... | \n", "4.000000 | \n", "7.000000 | \n", "2.000000 | \n", "12.000000 | \n", "3.000000 | \n", "4.000000 | \n", "3.000000 | \n", "114.000000 | \n", "4.000000 | \n", "1.000000 | \n", "
8 rows × 3001 columns
\n", "\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "connevey | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
323 | \n", "Email 324 | \n", "4 | \n", "6 | \n", "1 | \n", "1 | \n", "3 | \n", "2 | \n", "56 | \n", "3 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
1615 | \n", "Email 1616 | \n", "6 | \n", "1 | \n", "1 | \n", "2 | \n", "1 | \n", "1 | \n", "26 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
315 | \n", "Email 316 | \n", "6 | \n", "5 | \n", "2 | \n", "3 | \n", "1 | \n", "1 | \n", "34 | \n", "8 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
250 | \n", "Email 251 | \n", "22 | \n", "10 | \n", "1 | \n", "3 | \n", "4 | \n", "4 | \n", "85 | \n", "1 | \n", "1 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
3414 | \n", "Email 3415 | \n", "2 | \n", "2 | \n", "3 | \n", "0 | \n", "3 | \n", "1 | \n", "31 | \n", "2 | \n", "2 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
4725 | \n", "Email 4726 | \n", "10 | \n", "12 | \n", "4 | \n", "4 | \n", "4 | \n", "1 | \n", "87 | \n", "2 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
2999 | \n", "Email 3000 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "5 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
4131 | \n", "Email 4132 | \n", "3 | \n", "4 | \n", "2 | \n", "1 | \n", "1 | \n", "1 | \n", "13 | \n", "3 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
2353 | \n", "Email 2354 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "9 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
1359 | \n", "Email 1360 | \n", "1 | \n", "1 | \n", "1 | \n", "0 | \n", "1 | \n", "0 | \n", "3 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
10 rows × 3002 columns
\n", "\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "connevey | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | \n", "Email 2 | \n", "8 | \n", "13 | \n", "24 | \n", "6 | \n", "6 | \n", "2 | \n", "102 | \n", "1 | \n", "27 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "
3 | \n", "Email 4 | \n", "0 | \n", "5 | \n", "22 | \n", "0 | \n", "5 | \n", "1 | \n", "51 | \n", "2 | \n", "10 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
5 | \n", "Email 6 | \n", "4 | \n", "5 | \n", "1 | \n", "4 | \n", "2 | \n", "3 | \n", "45 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
7 | \n", "Email 8 | \n", "0 | \n", "2 | \n", "2 | \n", "3 | \n", "1 | \n", "2 | \n", "21 | \n", "6 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
13 | \n", "Email 14 | \n", "4 | \n", "5 | \n", "7 | \n", "1 | \n", "5 | \n", "1 | \n", "37 | \n", "1 | \n", "3 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "2 | \n", "0 | \n", "0 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
5156 | \n", "Email 5157 | \n", "4 | \n", "13 | \n", "1 | \n", "0 | \n", "3 | \n", "1 | \n", "48 | \n", "2 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
5159 | \n", "Email 5160 | \n", "2 | \n", "13 | \n", "1 | \n", "0 | \n", "2 | \n", "1 | \n", "38 | \n", "2 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
5162 | \n", "Email 5163 | \n", "2 | \n", "3 | \n", "1 | \n", "2 | \n", "1 | \n", "2 | \n", "32 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "
5170 | \n", "Email 5171 | \n", "2 | \n", "7 | \n", "1 | \n", "0 | \n", "2 | \n", "1 | \n", "28 | \n", "2 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "
5171 | \n", "Email 5172 | \n", "22 | \n", "24 | \n", "5 | \n", "1 | \n", "6 | \n", "5 | \n", "148 | \n", "8 | \n", "2 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "
2033 rows × 3002 columns
\n", "\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "connevey | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
1 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
2 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
3 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
4 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
5167 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5168 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5169 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5170 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5171 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5172 rows × 3002 columns
\n", "\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "connevey | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
1 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
2 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
3 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
4 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
5167 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5168 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5169 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5170 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5171 | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "... | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "False | \n", "
5172 rows × 3002 columns
\n", "\n", " | total_words | \n", "
---|---|
0 | \n", "53 | \n", "
1 | \n", "2203 | \n", "
2 | \n", "113 | \n", "
3 | \n", "1019 | \n", "
4 | \n", "1075 | \n", "
\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "total_words | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
5 | \n", "Email 6 | \n", "4 | \n", "5 | \n", "1 | \n", "4 | \n", "2 | \n", "3 | \n", "45 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1307 | \n", "
7 | \n", "Email 8 | \n", "0 | \n", "2 | \n", "2 | \n", "3 | \n", "1 | \n", "2 | \n", "21 | \n", "6 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "565 | \n", "
16 | \n", "Email 17 | \n", "3 | \n", "1 | \n", "2 | \n", "2 | \n", "0 | \n", "1 | \n", "17 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "219 | \n", "
17 | \n", "Email 18 | \n", "36 | \n", "21 | \n", "6 | \n", "14 | \n", "7 | \n", "17 | \n", "194 | \n", "25 | \n", "5 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "1 | \n", "4323 | \n", "
25 | \n", "Email 26 | \n", "12 | \n", "53 | \n", "2 | \n", "14 | \n", "18 | \n", "14 | \n", "287 | \n", "0 | \n", "2 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "6 | \n", "0 | \n", "1 | \n", "4927 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
5162 | \n", "Email 5163 | \n", "2 | \n", "3 | \n", "1 | \n", "2 | \n", "1 | \n", "2 | \n", "32 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "667 | \n", "
5163 | \n", "Email 5164 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "64 | \n", "
5166 | \n", "Email 5167 | \n", "1 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "4 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "102 | \n", "
5169 | \n", "Email 5170 | \n", "0 | \n", "0 | \n", "1 | \n", "1 | \n", "0 | \n", "0 | \n", "11 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "179 | \n", "
5170 | \n", "Email 5171 | \n", "2 | \n", "7 | \n", "1 | \n", "0 | \n", "2 | \n", "1 | \n", "28 | \n", "2 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "788 | \n", "
1500 rows × 3003 columns
\n", "\n", " | Email No. | \n", "the | \n", "to | \n", "ect | \n", "and | \n", "for | \n", "of | \n", "a | \n", "you | \n", "hou | \n", "... | \n", "jay | \n", "valued | \n", "lay | \n", "infrastructure | \n", "military | \n", "allowing | \n", "ff | \n", "dry | \n", "Prediction | \n", "total_words | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
5 | \n", "Email 6 | \n", "4 | \n", "5 | \n", "1 | \n", "4 | \n", "2 | \n", "3 | \n", "45 | \n", "1 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "1307 | \n", "
7 | \n", "Email 8 | \n", "0 | \n", "2 | \n", "2 | \n", "3 | \n", "1 | \n", "2 | \n", "21 | \n", "6 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "565 | \n", "
16 | \n", "Email 17 | \n", "3 | \n", "1 | \n", "2 | \n", "2 | \n", "0 | \n", "1 | \n", "17 | \n", "0 | \n", "0 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "1 | \n", "0 | \n", "1 | \n", "219 | \n", "
17 | \n", "Email 18 | \n", "36 | \n", "21 | \n", "6 | \n", "14 | \n", "7 | \n", "17 | \n", "194 | \n", "25 | \n", "5 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "3 | \n", "0 | \n", "1 | \n", "4323 | \n", "
25 | \n", "Email 26 | \n", "12 | \n", "53 | \n", "2 | \n", "14 | \n", "18 | \n", "14 | \n", "287 | \n", "0 | \n", "2 | \n", "... | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "0 | \n", "6 | \n", "0 | \n", "1 | \n", "4927 | \n", "
5 rows × 3003 columns
\n", "