双重问题解决后的支持向量机偏差太大

如何解决双重问题解决后的支持向量机偏差太大

我正在尝试实现高斯 SVM。我已经为对偶问题设置了所需的矩阵，并使用二次求解器解决了它： y 是这里的目标向量。
ker_mat 是一个 m by m 矩阵，其中 ker_mat[i,j] 是数据样本的核函数 i 和 j。
我还在数据样本中添加了一个截距列，并对其余列进行了标准缩放。

您可以跳过代码，因为它很可能不是问题的原因，但我将其嵌入此处以防万一。

ytrgt = -np.ones((y.shape[0],1))
ytrgt[y == c] = 1
            
trgt_map = ytrgt @ ytrgt.T
            
P = np.multiply(trgt_map,ker_mat)
q = -np.ones((y.shape[0],1))
h = np.hstack([np.zeros_like(y).reshape(-1,),np.full((y.shape[0],self.C)]).reshape(-1,1)
            
G = np.zeros((2*y.shape[0],y.shape[0]))
np.fill_diagonal(G,-1)
np.fill_diagonal(G[y.shape[0]:,:],1)
                                     
A = ytrgt.T
            
cvxopt.solvers.options['show_progress'] = False
            
a_hat = cvxopt.solvers.qp(
    q = cvxopt.matrix(q),#to substract all a values
    P = cvxopt.matrix(P),h = cvxopt.matrix(h),G = cvxopt.matrix(G),b = cvxopt.matrix(np.zeros((1,1))),A = cvxopt.matrix(A)
)

这个求解器似乎有效。如果我只是使用这个求解器的结果，我会得到一个令人满意的准确度；但正如我们所知，SVM 也有一个拦截项，如果我添加它，事情就不再那么好了。这是我用来计算给定 SVM 的偏差项的代码：

#calculate bias for the class
n_s = 0
s = 0                   
            
for i,(a_i,t_i) in enumerate(zip(np.matrix(a_hat["x"]),ytrgt)):
    if a_i <= self.support_tolerance:
        continue
    n_s += 1
    for j,(a_j,t_j) in enumerate(zip(np.matrix(a_hat["x"]),ytrgt)):
        if a_j <= self.support_tolerance:
            continue
        s += t_i -a_j*t_j*ker_mat[i,j]
            
bias = s / n_s

我必须包含 support_tolerance 变量，任何小于此值的 qp 求解器结果都被视为零而不是支持向量。

现在，问题来了：
偏差通常比没有它的预测结果大得多。例如，对于目标类中某个明确的东西，仅使用所有支持向量的a[i]*t[i]*kernel(Xi,Xsample)之和的预测结果在1.3左右，而整个类的偏差在-40左右，看起来每个样本都属于到负类（即使我在训练 SVM 的数据集上运行分类，我也会得到每个样本都是负的）。

因此，有两件事让我担心：
如果我向数据本身添加了一个拦截项（一列），并且内核是高斯的，我是否应该添加一个偏差？
我知道推导导致偏差除以支持向量的数量，但除以它的平方不是更有意义吗？我的意思是总和与支持向量数量的平方成正比，但我们只除以一个线性因子。
即使在这种情况下不需要偏置，为什么它会像这样爆炸？如果不需要它，我会说它将为零，因此它在任何情况下都不会影响结果，但很明显，它在这里确实会影响结果。

双重问题解决后的支持向量机偏差太大

如何解决双重问题解决后的支持向量机偏差太大

相关推荐