tekrajchhetri
diff --git a/‎notebooks/csv/data_201901.csv
Lines changed: 3 additions & 0 deletions b/‎notebooks/csv/data_201901.csv
Lines changed: 3 additions & 0 deletions
diff --git a/‎notebooks/csv/data_201902.csv
Lines changed: 3 additions & 0 deletions b/‎notebooks/csv/data_201902.csv
Lines changed: 3 additions & 0 deletions
diff --git a/‎notebooks/csv/data_202001.csv
Lines changed: 3 additions & 0 deletions b/‎notebooks/csv/data_202001.csv
Lines changed: 3 additions & 0 deletions
diff --git a/‎notebooks/csv/data_202002.csv
Lines changed: 3 additions & 0 deletions b/‎notebooks/csv/data_202002.csv
Lines changed: 3 additions & 0 deletions
diff --git a/‎notebooks/python/Files/How_to_merge_multiple_CSV_files_with_Python.ipynb
Lines changed: 342 additions & 0 deletions b/‎notebooks/python/Files/How_to_merge_multiple_CSV_files_with_Python.ipynb
Lines changed: 342 additions & 0 deletions
@@ -0,0 +1,3 @@
+col1,col2,col3
+A,B,1
+AA,BB,2
@@ -0,0 +1,3 @@
+col1,col2,col3
+C,D,3
+CC,DD,4
@@ -0,0 +1,3 @@
+col1,col2,col3,col4
+E,F,5,e5
+EE,FF,6,ee6
@@ -0,0 +1,3 @@
+col1,col2,col3,col5
+H,J,7,77
+HH,JJ,8,88
@@ -0,0 +1,342 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# How to merge multiple CSV files with Python\n",
+    "Python convert normal JSON to JSON separated lines 3 examples\n",
+    "\n",
+    "* Steps to merge multiple CSV(identical) files with Python\n",
+    &quo
57A6
t;* Steps to merge multiple CSV(identical) files with Python with trace\n",
+    "* Combine multiple CSV files when the columns are different\n",
+    "* Bonus: Merge multiple files with Windows/Linux"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 1. Steps to merge multiple CSV(identical) files with Python"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import os, glob\n",
+    "import pandas as pd\n",
+    "\n",
+    "path = \"../../csv/\"\n",
+    "\n",
+    "all_files = glob.glob(os.path.join(path, \"data_2019*.csv\"))\n",
+    "\n",
+    "all_csv = (pd.read_csv(f, sep=',') for f in all_files)\n",
+    "df_merged   = pd.concat(all_csv, ignore_index=True)\n",
+    "df_merged.to_csv( \"merged.csv\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 2. Steps to merge multiple CSV(identical) files with Python with trace"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>col1</th>\n",
+       "      <th>col2</th>\n",
+       "      <th>col3</th>\n",
+       "      <th>file</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>C</td>\n",
+       "      <td>D</td>\n",
+       "      <td>3</td>\n",
+       "      <td>data_201902.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>CC</td>\n",
+       "      <td>DD</td>\n",
+       "      <td>4</td>\n",
+       "      <td>data_201902.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>A</td>\n",
+       "      <td>B</td>\n",
+       "      <td>1</td>\n",
+       "      <td>data_201901.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>AA</td>\n",
+       "      <td>BB</td>\n",
+       "      <td>2</td>\n",
+       "      <td>data_201901.csv</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "  col1 col2  col3             file\n",
+       "0    C    D     3  data_201902.csv\n",
+       "1   CC   DD     4  data_201902.csv\n",
+       "2    A    B     1  data_201901.csv\n",
+       "3   AA   BB     2  data_201901.csv"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "import os, glob\n",
+    "import pandas as pd\n",
+    "\n",
+    "path = \"../../csv/\"\n",
+    "\n",
+    "all_files = glob.glob(os.path.join(path, \"data_2019*.csv\"))\n",
+    "\n",
+    "all_df = []\n",
+    "for f in all_files:\n",
+    "    df = pd.read_csv(f, sep=',')\n",
+    "    df['file'] = f.split('/')[-1]\n",
+    "    all_df.append(df)\n",
+    "    \n",
+    "merged_df = pd.concat(all_df, ignore_index=True)\n",
+    "merged_df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 3. Combine multiple CSV files when the columns are different"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>col1</th>\n",
+       "      <th>col2</th>\n",
+       "      <th>col3</th>\n",
+       "      <th>col4</th>\n",
+       "      <th>col5</th>\n",
+       "      <th>file</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>E</td>\n",
+       "      <td>F</td>\n",
+       "      <td>5</td>\n",
+       "      <td>e5</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_202001.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>EE</td>\n",
+       "      <td>FF</td>\n",
+       "      <td>6</td>\n",
+       "      <td>ee6</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_202001.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>H</td>\n",
+       "      <td>J</td>\n",
+       "      <td>7</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>77.0</td>\n",
+       "      <td>data_202002.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>HH</td>\n",
+       "      <td>JJ</td>\n",
+       "      <td>8</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>88.0</td>\n",
+       "      <td>data_202002.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>C</td>\n",
+       "      <td>D</td>\n",
+       "      <td>3</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_201902.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>5</th>\n",
+       "      <td>CC</td>\n",
+       "      <td>DD</td>\n",
+       "      <td>4</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_201902.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>6</th>\n",
+       "      <td>A</td>\n",
+       "      <td>B</td>\n",
+       "      <td>1</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_201901.csv</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>7</th>\n",
+       "      <td>AA</td>\n",
+       "      <td>BB</td>\n",
+       "      <td>2</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>data_201901.csv</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "  col1 col2  col3 col4  col5             file\n",
+       "0    E    F     5   e5   NaN  data_202001.csv\n",
+       "1   EE   FF     6  ee6   NaN  data_202001.csv\n",
+       "2    H    J     7  NaN  77.0  data_202002.csv\n",
+       "3   HH   JJ     8  NaN  88.0  data_202002.csv\n",
+       "4    C    D     3  NaN   NaN  data_201902.csv\n",
+       "5   CC   DD     4  NaN   NaN  data_201902.csv\n",
+       "6    A    B     1  NaN   NaN  data_201901.csv\n",
+       "7   AA   BB     2  NaN   NaN  data_201901.csv"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "import os, glob\n",
+    "import pandas as pd\n",
+    "\n",
+    "path = \"../../csv/\"\n",
+    "\n",
+    "all_files = glob.glob(os.path.join(path, \"data_*.csv\"))\n",
+    "\n",
+    "\n",
+    "all_df = []\n",
+    "for f in all_files:\n",
+    "    df = pd.read_csv(f, sep=',')\n",
+    "    df['file'] = f.split('/')[-1]\n",
+    "    all_df.append(df)\n",
+    "    \n",
+    "merged_df = pd.concat(all_df, ignore_index=True, sort=True)\n",
+    "merged_df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 4. Bonus: Merge multiple files with Windows/Linux\n",
+    "\n",
+    "Linux\n",
+    "\n",
+    "`sed 1d data_*.csv > merged.csv`\n",
+    "\n",
+    "Windows\n",
+    "\n",
+    "`C:\\> copy data_*.csv merged.csv `"
+   ]
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.9"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+col1,col2,col3`
	`2`	`+A,B,1`
	`3`	`+AA,BB,2`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+col1,col2,col3`
	`2`	`+C,D,3`
	`3`	`+CC,DD,4`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+col1,col2,col3,col4`
	`2`	`+E,F,5,e5`
	`3`	`+EE,FF,6,ee6`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+col1,col2,col3,col5`
	`2`	`+H,J,7,77`
	`3`	`+HH,JJ,8,88`