Dataset.py

# -*- coding: utf-8 -*-
"""dataset.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1OcAekMnpIoscR9di-X3zx9M5MO4taxde
"""

from google.colab import drive
drive.mount('/content/drive')

!pip install zipfile36
!pip install pydicom

pip install opencv-python

cd /content/drive/MyDrive

import numpy as np
import pandas as pd
import os
import random 
import shutil
import pydicom
import cv2
import csv
import zipfile
import glob

archive = zipfile.ZipFile('data.zip') #Extract Kaggle Dataset
for file in archive.namelist():
     archive.extract(file, '.')

inputdir =  '/content/drive/MyDrive/data/data_set/'
outdir =  '/content/drive/MyDrive/output_images/'
#os.mkdir(outdir)
#os.mkdir(outdir)

test_list = [os.path.basename(x) for x in glob.glob(inputdir + './*.dcm')]
print(test_list)
for f in test_list:
    ds = pydicom.read_file(inputdir + f) # read dicom imageS
    img = ds.pixel_array # get image array
    cv2.imwrite(outdir + f.replace('.dcm','.png'),img) # write png image"""

print(len(test_list))

outdir =  '/content/drive/MyDrive/output_images/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
print(out_list)
print(len(out_list))

pwd

import shutil, os
import pandas as pd

labels = pd.read_csv("All.csv")
labels = labels.sort_values('Class')

class_names = list(labels.Class.unique())
#print(class_names)

images = '/output_images'
train_new = '/dataset'

#creating subfolders

for i in class_names:
    os.makedirs(os.path.join('dataset', i))

#moving the image files to their respective categories

for c in class_names: # Category Name
    for i in list(labels[labels['Class']==c]['filename']): # Image Id
        get_image = os.path.join('output_images', i) # Path to Images
        move_image = shutil.move(get_image, 'dataset/'+c)

normaldir =  'dataset/normal/'
normal_list = [os.path.basename(x) for x in glob.glob(normaldir + './*.png')]
print(len(normal_list))
pneumoniadir =  'dataset/pneumonia/'
pneumonia_list = [os.path.basename(x) for x in glob.glob(pneumoniadir + './*.png')]
print(pneumonia_list)
print(len(pneumonia_list))

for i in normal_list:
  #print(i) # Image Id
  get_image = os.path.join('dataset','normal', i) # Path to Images
  #print(get_image)
  move_image = shutil.move(get_image, 'output_images/')

print(len(normal_list))

outdir =  '/content/drive/MyDrive/output_images/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))

import shutil, os
import pandas as pd

labels = pd.read_csv("All.csv")
labels = labels.sort_values('Class')

class_names = list(labels.Class.unique())
print(class_names)

images = '/output_images'
train_new = '/data'

#creating subfolders

for i in class_names:
    os.makedirs(os.path.join('data', i))

pwd

ls

cd data/

ls

cd ..

#moving the image files to their respective categories

for c in class_names: # Category Name
    for i in list(labels[labels['Class']==c]['filename']): # Image Id
        get_image = os.path.join('output_images', i) # Path to Images
        move_image = shutil.move(get_image, 'data/'+c)

outdir =  '/content/drive/MyDrive/output_images/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))

cd /data

cd data/

ls

cd normal/

ls

cd ..

cd pneumonia/

ls

cd ..

cd ..

normaldir =  'data/normal/'
normal_list = [os.path.basename(x) for x in glob.glob(normaldir + './*.png')]
print(len(normal_list))
#print(normal_list)
pneumoniadir =  'data/pneumonia/'
pneumonia_list = [os.path.basename(x) for x in glob.glob(pneumoniadir + './*.png')]
print(len(pneumonia_list))
#print(pneumonia_list)

cd data/pneumonia

ls

cd ..

cd ..

pwd

ls

outdir =  'output_images/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
print(out_list)
print(len(out_list))

ls

rm -rf output_images/

ls

pwd

pwd

cd /content/drive/MyDrive/

from google.colab import drive
drive.mount('/content/drive')

import zipfile
archive = zipfile.ZipFile('dataset.zip') #Extract Kaggle Dataset
for file in archive.namelist():
     archive.extract(file, '.')

pwd

cd /content/drive/MyDrive/dataset/output/test/normal/

ls

cd ..

cd /content/drive/MyDrive/dataset/output/test/pneumonia/

ls

cd /content/drive/MyDrive/dataset/output/train/normal/

ls

cd /content/drive/MyDrive/dataset/output/train/pneumonia/

ls

ls

ls

pwd

outdir = '/content/drive/MyDrive/dataset/output/train/pneumonia/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))

outdir = '/content/drive/MyDrive/dataset/output/train/normal/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))

outdir = '/content/drive/MyDrive/dataset/output/test/pneumonia/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))

outdir = '/content/drive/MyDrive/dataset/output/test/normal/'
out_list = [os.path.basename(x) for x in glob.glob(outdir + './*.png')]
#print(out_list)
print(len(out_list))