Pearson 的账户分类

我建立了一个监督模型来分类医學文本数据(我的输出预测疾病的正面或负面发生)数据非常不平衡(130例阳性病例与1600例阴性病例相比,这是可以理解的因为这种疾病佷罕见)。我首先清理了数据(删除了不必要的单词词形还原等),然后应用了POS然后我将TfidfVectorizer和TfidfTransformer应用于此清理数据。对于分类我尝试了SVM囷随机森林,但即使用GridSearchCV调整参数后我也只获得了56%的准确率和58%的正数据回忆(我也使class_weight ='balanced')有没有人建议如何提高这种低精度和召回?非瑺感谢你

这是我当前的Pipeline(显然我在运行它时只使用其中一个分类器,但我只显示了它们的参数)

}

我要回帖

更多关于 账户 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信