在大困惑度条件下tSNE降级为PCA

佚名

2021-03-20 11:09:03

本文试图以一种简单的方式来解释一些在生物信息学和计算生物学中使用的神秘分析技术。将详细介绍使用高困惑度的tSNE时会出现一些陷阱，例如将非线性tSNE转换为线性PCA尺寸缩减。

为什么要使用具有大困惑度的tSNE

随着数据集规模的增长，例如在scRNAseq领域中，处理成千上万甚至数百万个细胞几乎是一种常规，在大型数据集上使用超出建议范围（5到50）的大困惑度的tSNE变得越来越多。的确，在大型数据集上使用默认的困惑度可能不会提供足够的信息，因为它经常导致数据点的聚集程度降低，这在一些出版物中已经显示出来，在这里也可以看到很好的讨论。

较小的困惑度度值不允许解析数据结构

即使对于行为良好的MNIST基准数据集，小困惑度和大困惑度之间的区别也很明显：更大的困惑度导致tSNE降维图中的群集更加明显。

当增加tSNE困惑度度值时，MNIST手写数字图像簇变得更加清晰

随着数据集规模的增长，这一点变得越来越重要。您可能想在大型数据集上使用tSNE增加困惑度度值的第二个原因是tSNE可能存在的长期假设。在大的复杂度下保留更多的全局数据结构，以这种方式可以与UMAP进行比较。为了演示这一点，让我们模拟3个2D数据点的高斯Blob（每个1000点）：两个Blob彼此靠近而远离第三个。

现在，我们将尝试重建运行tSNE的原始数据，并使用不同的困惑度度值：10、30、100和1000。

在这里，我们可以做两个重要的观察：首先，在较低的困惑度度值10甚至30时，数据结构并不明显，的确，如果我不给这些点着色，甚至很难猜测我们在tSNE中看到了多少个斑点由于数据点似乎形成了10个和30个困惑度点，因此为了解决这三个簇，我们需要将困惑度度值增加到100，其次，注意困惑度度等于10、30和100。尽管我们知道它们中的两个应该放置在一起并与第三个分开，但这三个集群似乎是等距的。只有当我们将困惑度度增加到1000时，才能获得正确的集群相对位置（全局数据结构），这远远超出了5至50之间的建议值。在那里，大的困惑度限制对于从scRNAseq数据上的tSNE图生物学解释细胞群体的紧密度至关重要。

tSNE在很大的困惑度下类似于PCA

现在，在我们意识到tSNE的大困惑度极限的重要性之后，让我们在World Map数据集的二维线性流形（3023点）上评估tSNE在大困惑度下。

使用tSNE和大困惑度值重建的2D世界地图数据集

在这里，我们可以看到tSNE错误地将南美置于非洲和北美之间，其困惑度度为500和1000，但是，当困惑度度达到2000时，我们几乎可以完美地重建原始的世界地图数据集，其中各大洲之间的所有相对距离似乎要很好地保存，这似乎令人放心，这表明如果要使用tSNE在数据中保留更多的全局结构，仅增加增加困惑度度值就足够了。我们将原始的线性2D世界地图数据集投影到非线性流形（例如球体）上，这样我们就模拟了将大洲映射到球体表面的3D地球。让我们在tSNE上运行具有较大困惑度度的值非线性3D地球/球体数据集并将其输出与PCA和UMAP进行比较。此外，我们还将2D数据集投影到其他著名的非线性流形上，例如S形曲面和Swis 滚动运行PCA和tSNE / UMAP时，会感到非常困惑度/ n_neighbor。请注意，tSNE和UMAP均已通过PCA进行了初始化。

PCA，tSNE / UMAP处于极大的困惑度中/世界地图上的n_neighbor投影到Sphere，S形和Swiss Roll

在这里，我们观察到了PCA图和tSNE图之间的显着相似之处。发生了什么？由于3D非线性流形（球体，S形和Swiss Roll）的内部维数仍然是2，因此人们希望一种合适的降维方法能够恢复PCA未能实现此目的的直觉是PCA通过仿射变换（例如旋转，翻转，平移，拉伸等）搜索数据中变化最大的轴。但是，通过旋转非线性流形并不会找到一个可以正确捕获感兴趣的变化的轴，该轴是世界地图中各大洲的位置，相反，PCA揭示的螺旋，S曲线和圆确实捕获了大部分可变化的轴。可以理解为什么PCA在非线性流形上失败，但是tSNE为什么没有更好的表现呢？这对于将世界地图嵌入到非线性3D中并不是唯一的但是，即使在性能良好的基准MNIST数据集上也可以检测到该特征，即大困惑度度值等于500和3000的tSNE图类似于PCA图。

在非常大的tSNE困惑度度值下，MNIST手写数字簇变得不那么明显

这是怎么回事？tSNE难道不应该像本节开头显示的2D线性世界地图在困惑度度= 2000时发生的那样，使用正确保留的全局结构来重构原始数据吗？查看tSNE算法的内部，并意识到由于梯度下降中梯度的消失，tSNE退化为PCA。

在大困惑度中检查tSNE的梯度

为了了解tSNE在很大的困惑度下会发生什么，我们需要回顾一下tSNE基于以下四个方程式，有关tSNE的优缺点的更多信息，请参阅我的文章：

并检查一些重要的概念，例如数据的成对欧几里德距离分布，sigma值的分布，在某个距离处找到数据点的高维概率的分布，低维概率的分布，最后是KL散度的梯度值的分布。

可悲的是，所有这些度量标准都不容易从tSNE的当前实现中提取，我们需要检查KL散度的梯度是否在大的困惑度中消失，因为这将意味着tSNE中的梯度下降在用PCA初始化后永远不会正确开始。

原则上，研究scikitlearn的tSNE代码，我们可以找到函数_joint_probabilities和_kl_divergence，它们可以提供以下信息：

在这里，我们可以看到随着困惑度参数的增加，KL梯度下降到几乎为零。对于将来的更全面的信息，从头开始实现tSNE是有意义的。下面的代码以数字方式再现了scikitlearn tSNE实现的输出但更紧凑，希望可以理解。

从头开始编程tSNE的好处是我们可以提取所需的任何信息，例如在不同的困惑度度值下KL梯度的演变，我们可以立即看到KL梯度在很大的困惑度度下迅速下降到零。嵌入的坐标停止更新，而我们最终只得到初始化时的坐标。

因此，如果我们使用PCA初始化tSNE并增加困惑度度，则有可能以PCA图而不是以tSNE结尾。请注意，为简单起见，我使用术语PCA，尽管更正确的说法是tSNE降级为多维标度（MDS）图.PCA和MDS在许多方面都相似，我将PCA（不是MDS）称为更流行和已知的技术。

但是，为什么KL梯度在大的困惑度中消失了呢？仔细观察一下，发现P和Q之间有一个有趣的相互作用，即在一定距离处观察数据点的高维和低维概率。复杂性，即P / Q接近1，并且从等式4开始，KL梯度消失，tSNE恶化。

用草率的表示法，回想起tSNE有一个重要的超参数，即早期夸张，它是高维概率P的倍增因子，可以将tSNE恶化条件记为：

其中alpha是早期夸张，N是样本大小，sigma与困惑度有关，X和Y是高维和低维数据点之间的平均欧几里得距离。上面的方程式连接了tSNE的最重要的超参数，除了对于在大困惑度下满足P = Q条件的学习速率而言，这无关紧要。

总结

在本文中，我们了解到，需要在大型数据集上使用tSNE增加复杂度值，以便获得更多不同的簇并保留数据中的更多全局结构，这对于生物学解释不同簇之间的距离变得很重要但是，当KL梯度消失时，增加的困惑度度可能导致非线性tSNE降级到线性PCA / MDS尺寸减小，因此该算法永远无法正常启动。这有时会被错误地解释为“原始图像的完美重建”如果在线性数据上运行tSNE，但是在非线性数据上以较大的困惑度运行tSNE时，显然会出错。

“东亚铁三角”现裂缝：日韩关系“降级”，韩国远日近中令美焦虑

日韩关系恶化日本被“降级”：从韩国防务“伙伴”变为“邻国”

iOS 13再见！iOS随意降级工具快来了

美国“星座”降级！曾经是巨型航母，如今成为6000吨护卫舰

iOS 13再见了！iOS随意降级工具即将来到~

北京“降级”朝阳“绿了”，但五一出游还要注意这些

阿足协主席：本赛季阿超结束，未来两赛季不设降级

二季度苹果出货量将下降20-25％建议关注消费降级对其需求影响

北京防控“降级”、高速开始收费：疫情结束了吗？

明天，山东“降级”

惨遭华尔街“铁杆粉”降级，特斯拉到底还有没有投资价值？

应急响应“降级”首日武汉市委书记王忠林调研

「北京疾控提醒您」北京应急响应“降级”14个健康防护指引更新啦

西班牙英国宫等大型商店纷纷不顾政府要求，下周一将提前开门！

西班牙公布限制性措施降级方案-今日头条-手机光明网

日本韩国球员夺冠军，中国球员降级。这就是差距啊

【北京疾控提醒您】北京应急响应“降级” 14个健康防护指引更新啦！

降级！这类去京人员不再隔离14天

本月有119名大中型驾驶人记12分被降级

最前线丨阿里公布蒋凡事件处理结果：取消合伙人身份、降级，保留职位

0-1！英超黑马崩盘：7轮1分+创3大耻辱纪录，沦为降级热门

山东“降级”！16市初中毕业年级陆续复课，泰安156所学校今天开学

官方福利？iOS 12突然开放更新，能降级了？

应急响应“降级”首日，武汉市委书记王忠林调研

河南可能被“降级”的地级市，不是焦作、漯河，和新乡是老邻居

卡米拉的愤怒！她被女王暗中“降级”，王后梦恐怕要破灭

湖大排名并不比兰大差，为何在双一流中被降级评价？

退出降级主帅下课盘点泰达过去这些年的“赛季首胜魔咒”

降级、关禁闭、撤职英美严惩军中违反疫情禁令行为

为什么要使用具有大困惑度的tSNE

tSNE在很大的困惑度下类似于PCA

在大困惑度中检查tSNE的梯度

总结

相關文章:

“东亚铁三角”现裂缝：日韩关系“降级”，韩国远日近中令美焦虑

日韩关系恶化日本被“降级”：从韩国防务“伙伴”变为“邻国”

iOS 13再见！iOS随意降级工具快来了

美国“星座”降级！曾经是巨型航母，如今成为6000吨护卫舰

iOS 13再见了！iOS随意降级工具即将来到~

北京“降级”朝阳“绿了”，但五一出游还要注意这些

阿足协主席：本赛季阿超结束，未来两赛季不设降级

二季度苹果出货量将下降20-25％ 建议关注消费降级对其需求影响

北京防控“降级”、高速开始收费：疫情结束了吗？

明天，山东“降级”

惨遭华尔街“铁杆粉”降级，特斯拉到底还有没有投资价值？

应急响应“降级”首日 武汉市委书记王忠林调研

「北京疾控提醒您」北京应急响应“降级”14个健康防护指引更新啦

西班牙英国宫等大型商店纷纷不顾政府要求，下周一将提前开门！

西班牙公布限制性措施降级方案-今日头条-手机光明网

日本韩国球员夺冠军，中国球员降级。这就是差距啊

【北京疾控提醒您】北京应急响应“降级” 14个健康防护指引更新啦！

降级！这类去京人员不再隔离14天

本月有119名大中型驾驶人记12分被降级

最前线丨阿里公布蒋凡事件处理结果：取消合伙人身份、降级，保留职位

0-1！英超黑马崩盘：7轮1分+创3大耻辱纪录，沦为降级热门

山东“降级”！16市初中毕业年级陆续复课，泰安156所学校今天开学​

官方福利？iOS 12突然开放更新，能降级了？

应急响应“降级”首日，武汉市委书记王忠林调研

河南可能被“降级”的地级市，不是焦作、漯河，和新乡是老邻居

卡米拉的愤怒！她被女王暗中“降级”，王后梦恐怕要破灭

湖大排名并不比兰大差，为何在双一流中被降级评价？

退出 降级 主帅下课 盘点泰达过去这些年的“赛季首胜魔咒”

降级、关禁闭、撤职 英美严惩军中违反疫情禁令行为

鲁能功勋考虑退役挂靴，曾立下赫赫战功，球迷：没他鲁能早降级了

意外！北京“降级”这天，激动的人们都做了啥？-今日头条-手机光明网

租客网：消费升级？降级？这几张图让你知道 2018 年的消费变化

都在关注天王山之战，陪人和降级的到底会是谁？

​法国总统：法甲官方宣布结束本赛季，九月将直接开始全新赛季

持B2驾驶证开牵引车上高速 男子驾照一次记12分并降级

蒋凡遭除名阿里合伙人、记过、降级“霸道”总裁何以至此？

北京链家启动新绩效改革 多重利好优化经纪人生态

西班牙足协辟谣：按上半程排名确定降级球队为假消息

西班牙人将续约武磊一年，内部人士称双方已达成协议

阿里公布蒋凡调查结果：取消阿里合伙人身份、记过、降级

郭明錤：预计iPhoneSE Q2出货超1200万

持有这些驾照的人小心了，扣满12分就会被降级

曝武磊接近完成续约！西甲弱旅一年花767万就锁定“中国一哥”

低风险不等于无风险 就餐保持距离-今日头条-手机光明网

那些从英雄联盟LPL联赛降级的队伍，后来怎么样了？（2016年篇）

武磊续约西班牙人一年，西媒称俱乐部挽留意愿强烈

四辆货车有牌不挂，驾驶证“组团”降级，自讨苦吃

利物浦CEO呼吁踢完本赛季 其他19队沉默不已据《每日邮报》报道，利物浦CEO彼得-摩尔在英超高层会

中超联赛第29轮和30轮将统一上下半场开球时间，所有的比赛同时开球。截止目前夺冠、亚冠名额、降级的悬念都还在。

欢迎中超新军：深圳佳兆业！继2011年深圳红钻降级后，时隔7年深圳足球重返中超[撒花][心]#大话中超#

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

二季度苹果出货量将下降20-25％建议关注消费降级对其需求影响

应急响应“降级”首日武汉市委书记王忠林调研

山东“降级”！16市初中毕业年级陆续复课，泰安156所学校今天开学

退出降级主帅下课盘点泰达过去这些年的“赛季首胜魔咒”

降级、关禁闭、撤职英美严惩军中违反疫情禁令行为

法国总统：法甲官方宣布结束本赛季，九月将直接开始全新赛季

持B2驾驶证开牵引车上高速男子驾照一次记12分并降级

北京链家启动新绩效改革多重利好优化经纪人生态

低风险不等于无风险就餐保持距离-今日头条-手机光明网

利物浦CEO呼吁踢完本赛季其他19队沉默不已据《每日邮报》报道，利物浦CEO彼得-摩尔在英超高层会

应急科普丨“五一” 期间气温回升谨防森林火灾隐患