fe1low
diff --git a/‎adaboost/AdaBoost.py‎
Lines changed: 147 additions & 0 deletions b/‎adaboost/AdaBoost.py‎
Lines changed: 147 additions & 0 deletions
diff --git a/‎logistic_regression/LogisticReressionClassifier.py‎
Lines changed: 61 additions & 0 deletions b/‎logistic_regression/LogisticReressionClassifier.py‎
Lines changed: 61 additions & 0 deletions
diff --git a/‎logistic_regression/max_entropy.py‎
Lines changed: 122 additions & 0 deletions b/‎logistic_regression/max_entropy.py‎
Lines changed: 122 additions & 0 deletions
@@ -0,0 +1,147 @@
+from sklearn.ensemble import AdaBoostClassifier
+
+from utils.data_generater import *
+
+class AdaBoost:
+    def __init__(self, n_estimators=50, learning_rate=1.0):
+        self.clf_num = n_estimators
+        self.learning_rate = learning_rate
+
+    def init_args(self, datasets, labels):
+
+        self.X = datasets
+        self.Y = labels
+        self.M, self.N = datasets.shape
+
+        # 弱分类器数目和集合
+        self.clf_sets = []
+
+        # 初始化weights
+        self.weights = [1.0 / self.M] * self.M
+
+        # G(x)系数 alpha
+        self.alpha = []
+
+    def _G(self, features, labels, weights):
+        m = len(features)
+        error = 100000.0  # 无穷大
+        best_v = 0.0
+        # 单维features
+        features_min = min(features)
+        features_max = max(features)
+        n_step = (features_max - features_min + self.learning_rate) // self.learning_rate
+        # print('n_step:{}'.format(n_step))
+        direct, compare_array = None, None
+        for i in range(1, int(n_step)):
+            v = features_min + self.learning_rate * i
+
+            if v not in features:
+                # 误分类计算
+                compare_array_positive = np.array([1 if features[k] > v else -1 for k in range(m)])
+                weight_error_positive = sum([weights[k] for k in range(m) if compare_array_positive[k] != labels[k]])
+
+                compare_array_nagetive = np.array([-1 if features[k] > v else 1 for k in range(m)])
+                weight_error_nagetive = sum([weights[k] for k in range(m) if compare_array_nagetive[k] != labels[k]])
+
+                if weight_error_positive < weight_error_nagetive:
+                    weight_error = weight_error_positive
+                    _compare_array = compare_array_positive
+                    direct = 'positive'
+                else:
+                    weight_error = weight_error_nagetive
+                    _compare_array = compare_array_nagetive
+                    direct = 'nagetive'
+
+                # print('v:{} error:{}'.format(v, weight_error))
+                if weight_error < error:
+                    error = weight_error
+                    compare_array = _compare_array
+                    best_v = v
+        return best_v, direct, error, compare_array
+
+    # 计算alpha
+    def _alpha(self, error):
+        return 0.5 * np.log((1 - error) / error)
+
+    # 规范化因子
+    def _Z(self, weights, a, clf):
+        return sum([weights[i] * np.exp(-1 * a * self.Y[i] * clf[i]) for i in range(self.M)])
+
+    # 权值更新
+    def _w(self, a, clf, Z):
+        for i in range(self.M):
+            self.weights[i] = self.weights[i] * np.exp(-1 * a * self.Y[i] * clf[i]) / Z
+
+    # G(x)的线性组合
+    def _f(self, alpha, clf_sets):
+        pass
+
+    def G(self, x, v, direct):
+        if direct == 'positive':
+            return 1 if x > v else -1
+        else:
+            return -1 if x > v else 1
+
+    def fit(self, X, y):
+        self.init_args(X, y)
+
+        for epoch in range(self.clf_num):
+            best_clf_error, best_v, clf_result = 100000, None, None
+            # 根据特征维度, 选择误差最小的
+            for j in range(self.N):
+                features = self.X[:, j]
+                # 分类阈值，分类误差，分类结果
+                v, direct, error, compare_array = self._G(features, self.Y, self.weights)
+
+                if error < best_clf_error:
+                    best_clf_error = error
+                    best_v = v
+                    final_direct = direct
+                    clf_result = compare_array
+                    axis = j
+
+                # print('epoch:{}/{} feature:{} error:{} v:{}'.format(epoch, self.clf_num, j, error, best_v))
+                if best_clf_error == 0:
+                    break
+
+            # 计算G(x)系数a
+            a = self._alpha(best_clf_error)
+            self.alpha.append(a)
+            # 记录分类器
+            self.clf_sets.append((axis, best_v, final_direct))
+            # 规范化因子
+            Z = self._Z(self.weights, a, clf_result)
+            # 权值更新
+            self._w(a, clf_result, Z)
+
+    #             print('classifier:{}/{} error:{:.3f} v:{} direct:{} a:{:.5f}'.format(epoch+1, self.clf_num, error, best_v, final_direct, a))
+    #             print('weight:{}'.format(self.weights))
+    #             print('\n')
+
+    def predict(self, feature):
+        result = 0.0
+        for i in range(len(self.clf_sets)):
+            axis, clf_v, direct = self.clf_sets[i]
+            f_input = feature[axis]
+            result += self.alpha[i] * self.G(f_input, clf_v, direct)
+        # sign
+        return 1 if result > 0 else -1
+
+    def score(self, X_test, y_test):
+        right_count = 0
+        for i in range(len(X_test)):
+            feature = X_test[i]
+            if self.predict(feature) == y_test[i]:
+                right_count += 1
+
+        return right_count / len(X_test)
+
+if __name__ == "__main__":
+    X_train, X_test, y_train, y_test = create_svm_data()
+    my_ada = AdaBoost(n_estimators=10, learning_rate=0.2)
+    my_ada.fit(X_train, y_train)
+    print("my AdaBoost score", my_ada.score(X_test, y_test))
+
+    sk_ada = AdaBoostClassifier(n_estimators=100, learning_rate=0.5)
+    sk_ada.fit(X_train, y_train)
+    print("sklearn AdaBoost score", sk_ada.score(X_test, y_test))
@@ -0,0 +1,61 @@
+from sklearn.linear_model import LogisticRegression
+
+from math import exp
+from utils.data_generater import *
+
+
+class LogisticRegressionClassifier:
+    def __init__(self, max_iter=200, learning_rate=0.01):
+        # 最大迭代次数
+        self.max_iter = max_iter
+        # 学习率
+        self.learning_rate = learning_rate
+
+    # sigmoid函数
+    def sigmoid(self, x):
+        return 1 / (1 + exp(-x))
+
+    # 处理训练数据，增加一列，为了weight和bias合并处理
+    def data_matrix(self, X):
+        data_mat = []
+        for d in X:
+            data_mat.append([1.0, *d])
+        return data_mat
+
+
+    def fit(self, X, y):
+        data_mat = self.data_matrix(X)
+        # self.weights包含了weight和bias合并处理
+        self.weights = np.zeros((len(data_mat[0]), 1), dtype=np.float32)
+
+        for iter_ in range(self.max_iter):
+            for i in range(len(X)):
+                result = self.sigmoid(np.dot(data_mat[i], self.weights))
+                error = y[i] - result
+                # 梯度下降迭代权重参数self.weights
+                self.weights += self.learning_rate * error * np.transpose([data_mat[i]])
+        print('LogisticRegression Model(learning_rate={},max_iter={})'.format(self.learning_rate, self.max_iter))
+
+    # 计算准确度
+    def score(self, X_test, y_test):
+        right = 0
+        X_test = self.data_matrix(X_test)
+        for x, y in zip(X_test, y_test):
+            result = np.dot(x, self.weights)
+            if (result > 0 and y == 1) or (result < 0 and y == 0):
+                right += 1
+        return right / len(X_test)
+
+
+if __name__ == "__main__":
+    X_train, X_test, y_train, y_test = create_logistic_data()
+
+    # 我们的LogisticRegression
+    my_lr = LogisticRegressionClassifier()
+    my_lr.fit(X_train, y_train)
+    print("my LogisticRegression score", my_lr.score(X_test, y_test))
+
+    # sklearn的LogisticRegression
+    sklearn_lr = LogisticRegression(max_iter=200)
+    sklearn_lr.fit(X_train, y_train)
+    print("sklearn LogisticRegression score", sklearn_lr.score(X_test, y_test))
@@ -0,0 +1,122 @@
+import math
+from copy import deepcopy
+
+
+class MaxEntropy:
+    def __init__(self, EPS=0.005):
+        self._samples = []
+        self._Y = set()  # 标签集合，相当去去重后的y
+        self._numXY = {}  # key为(x,y)，value为出现次数
+        self._N = 0  # 样本数
+        self._Ep_ = []   # 样本分布的特征期望值
+        self._xyID = {}   # key记录(x,y),value记录id号
+        self._n = 0  # 特征键值(x,y)的个数
+        self._C = 0   # 最大特征数
+        self._IDxy = {}    # key为(x,y)，value为对应的id号
+        self._w = []
+        self._EPS = EPS   # 收敛条件
+        self._lastw = []    # 上一次w参数值
+
+    def loadData(self, dataset):
+        self._samples = deepcopy(dataset)
+        for items in self._samples:
+                y = items[0]
+                X = items[1:]
+                self._Y.add(y)  # 集合中y若已存在则会自动忽略
+                for x in X:
+                    if (x, y) in self._numXY:
+                        self._numXY[(x, y)] += 1
+                    else:
+                        self._numXY[(x, y)] = 1
+
+        self._N = len(self._samples)
+        self._n = len(self._numXY)
+        self._C = max([len(sample)-1 for sample in self._samples])
+        self._w = [0]*self._n
+        self._lastw = self._w[:]
+
+        self._Ep_ = [0] * self._n
+        for i, xy in enumerate(self._numXY):   # 计算特征函数fi关于经验分布的期望
+            self._Ep_[i] = self._numXY[xy]/self._N
+            self._xyID[xy] = i
+            self._IDxy[i] = xy
+
+    def _Zx(self, X):    # 计算每个Z(x)值
+        zx = 0
+        for y in self._Y:
+            ss = 0
+            for x in X:
+                if (x, y) in self._numXY:
+                    ss += self._w[self._xyID[(x, y)]]
+            zx += math.exp(ss)
+        return zx
+
+    def _model_pyx(self, y, X):   # 计算每个P(y|x)
+        zx = self._Zx(X)
+        ss = 0
+        for x in X:
+            if (x, y) in self._numXY:
+                ss += self._w[self._xyID[(x, y)]]
+        pyx = math.exp(ss)/zx
+        return pyx
+
+    def _model_ep(self, index):   # 计算特征函数fi关于模型的期望
+        x, y = self._IDxy[index]
+        ep = 0
+        for sample in self._samples:
+            if x not in sample:
+                continue
+            pyx = self._model_pyx(y, sample)
+            ep += pyx/self._N
+        return ep
+
+    def _convergence(self):  # 判断是否全部收敛
+        for last, now in zip(self._lastw, self._w):
+            if abs(last - now) >= self._EPS:
+                return False
+        return True
+
+    def predict(self, X):   # 计算预测概率
+        Z = self._Zx(X)
+        result = {}
+        for y in self._Y:
+            ss = 0
+            for x in X:
+                if (x, y) in self._numXY:
+                    ss += self._w[self._xyID[(x, y)]]
+            pyx = math.exp(ss)/Z
+            result[y] = pyx
+        return result
+
+    def train(self, maxiter=1000):   # 训练数据
+        for loop in range(maxiter):  # 最大训练次数
+            print("iter:%d" % loop)
+            self._lastw = self._w[:]
+            for i in range(self._n):
+                ep = self._model_ep(i)    # 计算第i个特征的模型期望
+                self._w[i] += math.log(self._Ep_[i]/ep)/self._C   # 更新参数
+            print("w:", self._w)
+            if self._convergence():  # 判断是否收敛
+                break
+
+if __name__ == "__main__":
+    dataset = [['no', 'sunny', 'hot', 'high', 'FALSE'],
+               ['no', 'sunny', 'hot', 'high', 'TRUE'],
+               ['yes', 'overcast', 'hot', 'high', 'FALSE'],
+               ['yes', 'rainy', 'mild', 'high', 'FALSE'],
+               ['yes', 'rainy', 'cool', 'normal', 'FALSE'],
+               ['no', 'rainy', 'cool', 'normal', 'TRUE'],
+               ['yes', 'overcast', 'cool', 'normal', 'TRUE'],
+               ['no', 'sunny', 'mild', 'high', 'FALSE'],
+               ['yes', 'sunny', 'cool', 'normal', 'FALSE'],
+               ['yes', 'rainy', 'mild', 'normal', 'FALSE'],
+               ['yes', 'sunny', 'mild', 'normal', 'TRUE'],
+               ['yes', 'overcast', 'mild', 'high', 'TRUE'],
+               ['yes', 'overcast', 'hot', 'normal', 'FALSE'],
+               ['no', 'rainy', 'mild', 'high', 'TRUE']]
+
+    maxent = MaxEntropy()
+    x = ['overcast', 'mild', 'high', 'FALSE']
+    maxent.loadData(dataset)
+    maxent.train()
+    print('predict:', maxent.predict(x))