Add files via upload

kk7nc · web-flow · commit c77014b71187 · 2018-11-18T18:56:34.000-05:00
diff --git a/code/Bagging.py b/code/Bagging.py
@@ -0,0 +1,26 @@
+from sklearn.ensemble import BaggingClassifier
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.pipeline import Pipeline
+from sklearn import metrics
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+text_clf = Pipeline([('vect', CountVectorizer()),
+                     ('tfidf', TfidfTransformer()),
+                     ('clf', BaggingClassifier(KNeighborsClassifier())),
+                     ])
+
+text_clf.fit(X_train, y_train)
+
+
+predicted = text_clf.predict(X_test)
+
+print(metrics.classification_report(y_test, predicted))
diff --git a/code/Boost.py b/code/Boost.py
@@ -0,0 +1,25 @@
+from sklearn.ensemble import GradientBoostingClassifier
+from sklearn.pipeline import Pipeline
+from sklearn import metrics
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.datasets import fetch_20newsgroups
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+text_clf = Pipeline([('vect', CountVectorizer()),
+                     ('tfidf', TfidfTransformer()),
+                     ('clf', GradientBoostingClassifier(n_estimators=50,verbose=2)),
+                     ])
+
+text_clf.fit(X_train, y_train)
+
+
+predicted = text_clf.predict(X_test)
+
+print(metrics.classification_report(y_test, predicted))
diff --git a/code/CNN.py b/code/CNN.py
@@ -1,4 +1,4 @@
-from keras.layers import Dropout, Dense,Input,Embedding,Flatten, MaxPooling1D, Conv1D
+from keras.layers import Dropout, Dense,Input,Embedding,Flatten, AveragePooling2D, Conv2D,Reshape
 from keras.models import Sequential,Model
 from sklearn.feature_extraction.text import TfidfVectorizer
 import numpy as np
@@ -26,7 +26,7 @@ def loadData_Tokenizer(X_train, X_test,MAX_NB_WORDS=75000,MAX_SEQUENCE_LENGTH=50
     X_train = text[0:len(X_train), ]
     X_test = text[len(X_train):, ]
     embeddings_index = {}
-    f = open("C:\\Users\\kamran\\Documents\\GitHub\\RMDL\\Examples\\Glove\\glove.6B.50d.txt", encoding="utf8")
+    f = open("C:\\Users\\kamran\\Documents\\GitHub\\RMDL\\Examples\\Glove\\glove.6B.100d.txt", encoding="utf8")
     for line in f:
         values = line.split()
         word = values[0]
@@ -41,7 +41,7 @@ def loadData_Tokenizer(X_train, X_test,MAX_NB_WORDS=75000,MAX_SEQUENCE_LENGTH=50
 
 
 
-def Build_Model_CNN_Text(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=50, dropout=0.5):
+def Build_Model_CNN_Text(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=100, dropout=0.5):
 
     """
         def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=50, dropout=0.5):
@@ -78,30 +78,29 @@ def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=5
     layer = 5
     print("Filter  ",layer)
     for fl in range(0,layer):
-        filter_sizes.append((fl+2))
+        filter_sizes.append((fl+2,fl+2))
 
     node = 128
     sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')
     embedded_sequences = embedding_layer(sequence_input)
+    emb = Reshape((500,10, 10), input_shape=(500,100))(embedded_sequences)
 
     for fsz in filter_sizes:
-        l_conv = Conv1D(node, kernel_size=fsz, activation='relu')(embedded_sequences)
-        l_pool = MaxPooling1D(5)(l_conv)
+        l_conv = Conv2D(node, padding="same", kernel_size=fsz, activation='relu')(emb)
+        l_pool = AveragePooling2D(pool_size=(5,1), padding="same")(l_conv)
         #l_pool = Dropout(0.25)(l_pool)
         convs.append(l_pool)
 
     l_merge = Concatenate(axis=1)(convs)
-    l_cov1 = Conv1D(node, 5, activation='relu')(l_merge)
-    l_cov1 = Dropout(dropout)(l_cov1)
-    l_pool1 = MaxPooling1D(5)(l_cov1)
-    l_cov2 = Conv1D(node, 5, activation='relu')(l_pool1)
-    l_cov2 = Dropout(dropout)(l_cov2)
-    l_pool2 = MaxPooling1D(30)(l_cov2)
-    l_flat = Flatten()(l_pool2)
-    l_dense = Dense(1024, activation='relu')(l_flat)
-    l_dense = Dropout(dropout)(l_dense)
-    l_dense = Dense(512, activation='relu')(l_dense)
+    l_cov1 = Conv2D(node, (5,5), padding="same", activation='relu')(l_merge)
+    l_cov1 = AveragePooling2D(pool_size=(5,2), padding="same")(l_cov1)
+    l_cov2 = Conv2D(node, (5,5), padding="same", activation='relu')(l_cov1)
+    l_pool2 = AveragePooling2D(pool_size=(5,2), padding="same")(l_cov2)
+    l_cov2 = Dropout(dropout)(l_pool2)
+    l_flat = Flatten()(l_cov2)
+    l_dense = Dense(128, activation='relu')(l_flat)
     l_dense = Dropout(dropout)(l_dense)
+
     preds = Dense(nclasses, activation='softmax')(l_dense)
     model = Model(sequence_input, preds)
 
@@ -115,8 +114,8 @@ def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=5
 
 
 
-
-
+from sklearn.datasets import fetch_20newsgroups
+from RMDL import text_feature_extraction as txt
 
 newsgroups_train = fetch_20newsgroups(subset='train')
 newsgroups_test = fetch_20newsgroups(subset='test')
@@ -125,6 +124,7 @@ def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=5
 y_train = newsgroups_train.target
 y_test = newsgroups_test.target
 
+
 X_train_Glove,X_test_Glove, word_index,embeddings_index = loadData_Tokenizer(X_train,X_test)
 
 
@@ -135,7 +135,7 @@ def buildModel_CNN(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=5
 
 model_CNN.fit(X_train_Glove, y_train,
                               validation_data=(X_test_Glove, y_test),
-                              epochs=15,
+                              epochs=1000,
                               batch_size=128,
                               verbose=2)
 
diff --git a/code/CRF.py b/code/CRF.py
@@ -0,0 +1,80 @@
+import nltk
+import sklearn_crfsuite
+from sklearn_crfsuite import metrics
+nltk.corpus.conll2002.fileids()
+train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
+test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
+def word2features(sent, i):
+    word = sent[i][0]
+    postag = sent[i][1]
+
+    features = {
+        'bias': 1.0,
+        'word.lower()': word.lower(),
+        'word[-3:]': word[-3:],
+        'word[-2:]': word[-2:],
+        'word.isupper()': word.isupper(),
+        'word.istitle()': word.istitle(),
+        'word.isdigit()': word.isdigit(),
+        'postag': postag,
+        'postag[:2]': postag[:2],
+    }
+    if i > 0:
+        word1 = sent[i-1][0]
+        postag1 = sent[i-1][1]
+        features.update({
+            '-1:word.lower()': word1.lower(),
+            '-1:word.istitle()': word1.istitle(),
+            '-1:word.isupper()': word1.isupper(),
+            '-1:postag': postag1,
+            '-1:postag[:2]': postag1[:2],
+        })
+    else:
+        features['BOS'] = True
+
+    if i < len(sent)-1:
+        word1 = sent[i+1][0]
+        postag1 = sent[i+1][1]
+        features.update({
+            '+1:word.lower()': word1.lower(),
+            '+1:word.istitle()': word1.istitle(),
+            '+1:word.isupper()': word1.isupper(),
+            '+1:postag': postag1,
+            '+1:postag[:2]': postag1[:2],
+        })
+    else:
+        features['EOS'] = True
+
+    return features
+
+
+def sent2features(sent):
+    return [word2features(sent, i) for i in range(len(sent))]
+
+def sent2labels(sent):
+    return [label for token, postag, label in sent]
+
+def sent2tokens(sent):
+    return [token for token, postag, label in sent]
+
+X_train = [sent2features(s) for s in train_sents]
+y_train = [sent2labels(s) for s in train_sents]
+
+X_test = [sent2features(s) for s in test_sents]
+y_test = [sent2labels(s) for s in test_sents]
+
+
+
+crf = sklearn_crfsuite.CRF(
+    algorithm='lbfgs',
+    c1=0.1,
+    c2=0.1,
+    max_iterations=100,
+    all_possible_transitions=True
+)
+crf.fit(X_train, y_train)
+
+y_pred = crf.predict(X_test)
+print(metrics.flat_classification_report(
+    y_test, y_pred,  digits=3
+))
diff --git a/code/RCNN.py b/code/RCNN.py
@@ -0,0 +1,120 @@
+from keras.preprocessing import sequence
+from keras.models import Sequential
+from keras.layers import Dense, Dropout, Activation
+from keras.layers import Embedding
+from keras.layers import LSTM
+from keras.layers import Conv1D, MaxPooling1D
+from keras.datasets import imdb
+from sklearn.datasets import fetch_20newsgroups
+import numpy as np
+from sklearn import metrics
+from keras.preprocessing.text import Tokenizer
+from keras.preprocessing.sequence import pad_sequences
+
+def loadData_Tokenizer(X_train, X_test,MAX_NB_WORDS=75000,MAX_SEQUENCE_LENGTH=500):
+    np.random.seed(7)
+    text = np.concatenate((X_train, X_test), axis=0)
+    text = np.array(text)
+    tokenizer = Tokenizer(num_words=MAX_NB_WORDS)
+    tokenizer.fit_on_texts(text)
+    sequences = tokenizer.texts_to_sequences(text)
+    word_index = tokenizer.word_index
+    text = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
+    print('Found %s unique tokens.' % len(word_index))
+    indices = np.arange(text.shape[0])
+    # np.random.shuffle(indices)
+    text = text[indices]
+    print(text.shape)
+    X_train = text[0:len(X_train), ]
+    X_test = text[len(X_train):, ]
+    embeddings_index = {}
+    f = open("C:\\Users\\kamran\\Documents\\GitHub\\RMDL\\Examples\\Glove\\glove.6B.50d.txt", encoding="utf8")
+    for line in f:
+        values = line.split()
+        word = values[0]
+        try:
+            coefs = np.asarray(values[1:], dtype='float32')
+        except:
+            pass
+        embeddings_index[word] = coefs
+    f.close()
+    print('Total %s word vectors.' % len(embeddings_index))
+    return (X_train, X_test, word_index,embeddings_index)
+
+
+def Build_Model_RCNN_Text(word_index, embeddings_index, nclasses, MAX_SEQUENCE_LENGTH=500, EMBEDDING_DIM=50):
+
+    kernel_size = 2
+    filters = 256
+    pool_size = 2
+    gru_node = 256
+
+    embedding_matrix = np.random.random((len(word_index) + 1, EMBEDDING_DIM))
+    for word, i in word_index.items():
+        embedding_vector = embeddings_index.get(word)
+        if embedding_vector is not None:
+            # words not found in embedding index will be all-zeros.
+            if len(embedding_matrix[i]) !=len(embedding_vector):
+                print("could not broadcast input array from shape",str(len(embedding_matrix[i])),
+                                 "into shape",str(len(embedding_vector))," Please make sure your"
+                                 " EMBEDDING_DIM is equal to embedding_vector file ,GloVe,")
+                exit(1)
+
+            embedding_matrix[i] = embedding_vector
+
+
+
+    model = Sequential()
+    model.add(Embedding(len(word_index) + 1,
+                                EMBEDDING_DIM,
+                                weights=[embedding_matrix],
+                                input_length=MAX_SEQUENCE_LENGTH,
+                                trainable=True))
+    model.add(Dropout(0.25))
+    model.add(Conv1D(filters, kernel_size, activation='relu'))
+    model.add(MaxPooling1D(pool_size=pool_size))
+    model.add(Conv1D(filters, kernel_size, activation='relu'))
+    model.add(MaxPooling1D(pool_size=pool_size))
+    model.add(Conv1D(filters, kernel_size, activation='relu'))
+    model.add(MaxPooling1D(pool_size=pool_size))
+    model.add(Conv1D(filters, kernel_size, activation='relu'))
+    model.add(MaxPooling1D(pool_size=pool_size))
+    model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
+    model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
+    model.add(LSTM(gru_node, return_sequences=True, recurrent_dropout=0.2))
+    model.add(LSTM(gru_node, recurrent_dropout=0.2))
+    model.add(Dense(1024,activation='relu'))
+    model.add(Dense(nclasses))
+    model.add(Activation('softmax'))
+
+    model.compile(loss='sparse_categorical_crossentropy',
+                  optimizer='adam',
+                  metrics=['accuracy'])
+
+    return model
+
+newsgroups_train = fetch_20newsgroups(subset='train')
+newsgroups_test = fetch_20newsgroups(subset='test')
+X_train = newsgroups_train.data
+X_test = newsgroups_test.data
+y_train = newsgroups_train.target
+y_test = newsgroups_test.target
+
+X_train_Glove,X_test_Glove, word_index,embeddings_index = loadData_Tokenizer(X_train,X_test)
+
+
+model_RCNN = Build_Model_RCNN_Text(word_index,embeddings_index, 20)
+
+
+model_RCNN.summary()
+
+model_RCNN.fit(X_train_Glove, y_train,
+                              validation_data=(X_test_Glove, y_test),
+                              epochs=15,
+                              batch_size=128,
+                              verbose=2)
+
+predicted = model_RCNN.predict(X_test_Glove)
+
+predicted = np.argmax(predicted, axis=1)
+print(metrics.classification_report(y_test, predicted))