gitSetCode
diff --git a/‎code/CNN.py‎
Lines changed: 147 additions & 0 deletions b/‎code/CNN.py‎
Lines changed: 147 additions & 0 deletions
diff --git a/‎code/DNN.py‎
Lines changed: 64 additions & 0 deletions b/‎code/DNN.py‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎code/Decision_Tree.py‎
Lines changed: 25 additions & 0 deletions b/‎code/Decision_Tree.py‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎code/K-nearest_Neighbor.py‎
Lines changed: 25 additions & 0 deletions b/‎code/K-nearest_Neighbor.py‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎code/MultinomialNB.py‎
Lines changed: 25 additions & 0 deletions b/‎code/MultinomialNB.py‎
Lines changed: 25 additions & 0 deletions
@@ -0,0 +1,147 @@
+from keras.layers import Dropout, Dense,Input,Embedding,Flatten, MaxPooling1D, Conv1D
+from keras.models import Sequential,Model
+from sklearn.feature_extraction.text import TfidfVectorizer
+import numpy as np
+from sklearn import metrics
+from keras.preprocessing.text import Tokenizer
+from keras.preprocessing.sequence import pad_sequences
+from sklearn.datasets import fetch_20newsgroups
+from keras.layers.merge import Concatenate
+
+
+def loadData_Tokenizer(X_train, X_test,MAX_NB_WORDS=75000,MAX_SEQUENCE_LENGTH=500):
+    np.random.seed(7)
+    text = np.concatenate((X_train, X_test), axis=0)
+    text = np.array(text)
+    tokenizer = Tokenizer(num_words=MAX_NB_WORDS)
+    tokenizer.fit_on_texts(text)
+    sequences = tokenizer.texts_to_sequences(text)
+    word_index = tokenizer.word_index
+    text = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
+    print('Found %s unique tokens.' % len(word_index))
+    indices = np.arange(text.shape[0])
+    # np.random.shuffle(indices)
+    text = text[indices]
+    print(text.shape)
+    X_train = text[0:len(X_train), ]
+    X_test = text[len(X_train):, ]
+    embeddings_index = {}
+    f = open("C:\\Users\\kamran\\Documents\\GitHub\\RMDL\\Examples\\Glove\\glove.6B.50d.txt", encoding="utf8")
+    for line in f:
+        values = line.split()
+        word = values[0]
+        try:
+            coefs = np.asarray(values[1:], dtype='float32')
+        except:
+            pass
+        embeddings_index[word] = coefs
+    f.close()
+    print('Total %s word vectors.' % len(embeddings_index))
+    return (X_train, X_test, word_index,embeddings_index)
+
+
+
+def Build_Model_CNN_Text(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=50, dropout=0.5):
+
+    """
+        def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=50, dropout=0.5):
+        word_index in word index ,
+        embeddings_index is embeddings index, look at data_helper.py
+        nClasses is number of classes,
+        MAX_SEQUENCE_LENGTH is maximum lenght of text sequences,
+        EMBEDDING_DIM is an int value for dimention of word embedding look at data_helper.py
+    """
+
+    model = Sequential()
+    embedding_matrix = np.random.random((len(word_index) + 1, EMBEDDING_DIM))
+    for word, i in word_index.items():
+        embedding_vector = embeddings_index.get(word)
+        if embedding_vector is not None:
+            # words not found in embedding index will be all-zeros.
+            if len(embedding_matrix[i]) !=len(embedding_vector):
+                print("could not broadcast input array from shape",str(len(embedding_matrix[i])),
+                                 "into shape",str(len(embedding_vector))," Please make sure your"
+                                 " EMBEDDING_DIM is equal to embedding_vector file ,GloVe,")
+                exit(1)
+
+            embedding_matrix[i] = embedding_vector
+
+    embedding_layer = Embedding(len(word_index) + 1,
+                                EMBEDDING_DIM,
+                                weights=[embedding_matrix],
+                                input_length=MAX_SEQUENCE_LENGTH,
+                                trainable=True)
+
+    # applying a more complex convolutional approach
+    convs = []
+    filter_sizes = []
+    layer = 5
+    print("Filter  ",layer)
+    for fl in range(0,layer):
+        filter_sizes.append((fl+2))
+
+    node = 128
+    sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')
+    embedded_sequences = embedding_layer(sequence_input)
+
+    for fsz in filter_sizes:
+        l_conv = Conv1D(node, kernel_size=fsz, activation='relu')(embedded_sequences)
+        l_pool = MaxPooling1D(5)(l_conv)
+        #l_pool = Dropout(0.25)(l_pool)
+        convs.append(l_pool)
+
+    l_merge = Concatenate(axis=1)(convs)
+    l_cov1 = Conv1D(node, 5, activation='relu')(l_merge)
+    l_cov1 = Dropout(dropout)(l_cov1)
+    l_pool1 = MaxPooling1D(5)(l_cov1)
+    l_cov2 = Conv1D(node, 5, activation='relu')(l_pool1)
+    l_cov2 = Dropout(dropout)(l_cov2)
+    l_pool2 = MaxPooling1D(30)(l_cov2)
+    l_flat = Flatten()(l_pool2)
+    l_dense = Dense(1024, activation='relu')(l_flat)
+    l_dense = Dropout(dropout)(l_dense)
+    l_dense = Dense(512, activation='relu')(l_dense)
+    l_dense = Dropout(dropout)(l_dense)
+    preds = Dense(nclasses, activation='softmax')(l_dense)
+    model = Model(sequence_input, preds)
+
+    model.compile(loss='sparse_categorical_crossentropy',
+                  optimizer='adam',
+                  metrics=['accuracy'])
+
+
+
+    return model
+
+
+
+
+
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+X_train_Glove,X_test_Glove, word_index,embeddings_index = loadData_Tokenizer(X_train,X_test)
+
+
+model_CNN = Build_Model_CNN_Text(word_index,embeddings_index, 20)
+
+
+model_CNN.summary()
+
+model_CNN.fit(X_train_Glove, y_train,
+                              validation_data=(X_test_Glove, y_test),
+                              epochs=15,
+                              batch_size=128,
+                              verbose=2)
+
+predicted = model_CNN.predict(X_test_Glove)
+
+predicted = np.argmax(predicted, axis=1)
+
+
+print(metrics.classification_report(y_test, predicted))
@@ -0,0 +1,64 @@
+from keras.layers import  Dropout, Dense
+from keras.models import Sequential
+from sklearn.feature_extraction.text import TfidfVectorizer
+import numpy as np
+from sklearn import metrics
+
+
+def TFIDF(X_train, X_test,MAX_NB_WORDS=75000):
+    vectorizer_x = TfidfVectorizer(max_features=MAX_NB_WORDS)
+    X_train = vectorizer_x.fit_transform(X_train).toarray()
+    X_test = vectorizer_x.transform(X_test).toarray()
+    print("tf-idf with",str(np.array(X_train).shape[1]),"features")
+    return (X_train,X_test)
+
+
+def Build_Model_DNN_Text(shape, nClasses, dropout=0.5):
+    """
+    buildModel_DNN_Tex(shape, nClasses,dropout)
+    Build Deep neural networks Model for text classification
+    Shape is input feature space
+    nClasses is number of classes
+    """
+    model = Sequential()
+    node = 512 # number of nodes
+    nLayers = 4 # number of  hidden layer
+
+    model.add(Dense(node,input_dim=shape,activation='relu'))
+    model.add(Dropout(dropout))
+    for i in range(0,nLayers):
+        model.add(Dense(node,input_dim=node,activation='relu'))
+        model.add(Dropout(dropout))
+    model.add(Dense(nClasses, activation='softmax'))
+
+    model.compile(loss='sparse_categorical_crossentropy',
+                  optimizer='adam',
+                  metrics=['accuracy'])
+
+    return model
+
+
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+X_train_tfidf,X_test_tfidf = TFIDF(X_train,X_test)
+
+
+model_DNN = Build_Model_DNN_Text(X_train_tfidf.shape[1], 20)
+model_DNN.summary()
+exit(1)
+model_DNN.fit(X_train_tfidf, y_train,
+                              validation_data=(X_test_tfidf, y_test),
+                              epochs=10,
+                              batch_size=128,
+                              verbose=2)
+
+predicted = model_DNN.predict_classes(X_test_tfidf)
+
+print(metrics.classification_report(y_test, predicted))
@@ -0,0 +1,25 @@
+from sklearn import tree
+from sklearn.pipeline import Pipeline
+from sklearn import metrics
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+text_clf = Pipeline([('vect', CountVectorizer()),
+                     ('tfidf', TfidfTransformer()),
+                     ('clf', tree.DecisionTreeClassifier()),
+                     ])
+
+text_clf.fit(X_train, y_train)
+
+
+predicted = text_clf.predict(X_test)
+
+print(metrics.classification_report(y_test, predicted))
@@ -0,0 +1,25 @@
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.pipeline import Pipeline
+from sklearn import metrics
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+text_clf = Pipeline([('vect', CountVectorizer()),
+                     ('tfidf', TfidfTransformer()),
+                     ('clf', KNeighborsClassifier()),
+                     ])
+
+text_clf.fit(X_train, y_train)
+
+
+predicted = text_clf.predict(X_test)
+
+print(metrics.classification_report(y_test, predicted))
@@ -0,0 +1,25 @@
+from sklearn.naive_bayes import MultinomialNB
+from sklearn.pipeline import Pipeline
+from sklearn import metrics
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+text_clf = Pipeline([('vect', CountVectorizer()),
+                     ('tfidf', TfidfTransformer()),
+                     ('clf', MultinomialNB()),
+                     ])
+
+text_clf.fit(X_train, y_train)
+
+
+predicted = text_clf.predict(X_test)
+
+print(metrics.classification_report(y_test, predicted))