情感词汇500句

45baike 2024-10-04 3次阅读

情感词汇500句

　　这期的内容我们来解析一篇非肿瘤机器学习的文献，并且根据这篇文献整合出来一份机器学习的分析模板，相信各位小伙伴只要找到自己领域的数据集并且有了相应的idea，就可以快速根据分析模板产出自己的机器学习文章啦~

　　首先，我们从题目就可以知道这篇文献切入的主要疾病为精神症，要做的其实就是寻找诊断标志物，那么可以运用到的机器学习算法我们预先可以有一个大概的预想，可能会有SVM、随机森林以及神经网络，当然Logistic回归也是一个不错的选择

　　精神症(SCZ)是一种高度遗传性、多基因的复杂精神障碍，诊断边界不精确。寻找敏感性、特异性的新生物标志物，提高SCZ诊断的生物学同质性仍是研究热点之一

　　为了鉴定SCZ的血液特异性诊断生物标志物，我们对来自15例首次用药SCZ患者和15例健康对照(CTL)的30份外周血样本进行了RNA测序(RNA-seq)

　　这里选择首次用药的患者可能也是考虑情感词汇500句，如果患者没有来进行治疗，可能也不会发现这个患者有精神症

　　WGCNA分析，本质上来讲就是把基因进行聚类，这样我们就会得到一些表达相似或者协同的基因，然后如果有表型信息，还可以把模块与表型进行关联，这个时候我们就会得到表型和哪些基因相关，当然，解读方向的不同，你把模块内的基因认为是更重要的基因也是可以的，但是需要注意，WGCNA需要的输入数据为表达矩阵（未经筛选的）情感词汇500句，差异分析后的表达矩阵显然是不行的情感词汇500句，因为WGCNA纳入的数据越多，其稳定性是越高的（涉及到构建无尺度网络，当然其中的算法细节，不建议深究，会用即可）

　　此外，我们发现CTL样本与SCZ样本在淋巴细胞、单核细胞和中性粒细胞的比例有显著差异。因此，我们结合年龄、性别和新的血液生物标志物等各种特征，通过重复的k倍交叉验证，构建了三个分类器(RF：随机森林；SVM：支持向量机；DT：决策树)的风险预测模型，确保了更好的通用性。RF分类器的受试者工作特征面积评分为0.91，在外部验证数据集中ROC为0.77

　　总之，该研究确定了3个外周血核心免疫细胞和6个与SCZ发生相关的关键基因，需要进一步的研究来测试和验证这些新的生物标志物，用于SCZ的早期诊断和治疗

　　文章的主要结论并不是我们关心的内容，之所以叫分析模板，是因为我们重点关注作者的分析思路，这里的Figure1A图作者展示了三大差异分析的结果，因为算法的不同，这三种方式肯定会存在差异，所以作者对这三种结果取交集，也就是说，通过Figure1我们获得了SCA与正常对照组之间的差异基因

　　PCA属于机器学习中无监督学习中聚类的算法，其实就是展示疾病组和正常组是否分割清晰，如果完全重合其实就没有往下分析的必要了，这个图其实应该和差异分析的顺序调换一下，因为这一步是属于数据质控的步骤

　　这一步骤其实是存在问题的，因为小伙伴们都知道，GSEA富集分析需要纳入全部基因，如果单纯取差异基因则会丢失部分信息，因为GSEA提出的一部分原因就在于摒弃掉传统富集分析存在阈值或者之前有logFC筛选的情况，如果我们把经过筛选的基因集纳入到GSEA富集分析中，其实从某种程度上来说是丢掉了GSEA富集分析的优势

　　这一个步骤其实就是我们常说的挑圈联靠中的联的过程，有的同学可能会疑惑FigureA是什么意思，其实很简单，Upset 图和韦恩图类似都是展示差异情况的，如果遇到多分组用韦恩图无法展示，可以考虑使用Upset 图

　　这一步骤其实就没有过多的修改空间了，就是进行一个WGCNA分析，相关的很多内容在挑圈联靠公众号上都已经连载过很多期了，而且可视化的方式，运用我们的扒图技能也没有太大的一个难度，所以当我们有表型信息的时候，不妨可以考虑进行WGCNA分析来探索一下基因表达与表型之间的相关性（当然，数据挖掘很多的时候你可以都做一遍，然后挑结果好的进行展示）

　　在这里，作者展示了关键模块中所有基因的表达水平，以及关键模块对于相同测序样本对应的模块基因表达值。红色代表上调的基因，绿色代表下调的基因，这一步骤，其实在别的文献中展示的情况不是很多，在R中运用ggplot2和patchwork即可以完成

　　对关键模块中所有基因进行GO和KEGG富集分析，这些图都是基于clusterProfiler包进行绘制的，相关的内容可以参考下面这篇推文：

　　这块的可视化，可能有的小伙伴不熟悉，所以这里我们简单说一下这个分析的本质，这里其实就是标准的WGCNA分析的后续流程，其实目的只有一个就是筛选出来关键基因，我们可以理解为WGCNA分析是一个针对大样本数据挖掘关键基因的分析即可，具体WGCNA分析的相关内容，也可以参考下面的推文链接：

　　这里其实我们就需要与临床预测模型的文献区分开来，临床预测模型最后得到的是一个预测模型，落在结果上其实是得到一个列线图或者网页评分器，但是这个不是，这个是获得一个临床诊断标志物，所以说并不涉及到上面的内容，然后我们来看一下图表的内容

　　第一步：三个数据集的差异分析，然后通过一种比较少见的可视化方式展示，本质上来说也就是获取三个数据集差异分析的交集（为什么把重度抑郁症还有双向情感障碍纳入到分析流程中，因为晨曦并不是相关专业的，从文章中可知，作者想要探索的标志物是在SCZ中特异性表达，但是在BDP与MDD中不表达的）

　　第二步：筛选真正的差异基因，寻找在RRA合并三大数据集后与WGCNA得到的hub基因还有SCZ特有的差异基因取交集后作为真正的差异基因（作者认为单纯的SCZ差异基因可能会有不阳性的可能，这个时候通过WGCNA缩小一遍范围，然后再通过RRA合并三大数据集后得到的差异基因再筛选一遍）

　　如果把三类基因做一个总计可以简单理解为，RRA合并的三大基因集的差异分析相当于土壤，这里的基因是在SCZ或者BDP或者MDD中有差异表达的，然后通过WGCNA也获得了一些模块内的hub基因，最后则是SCZ单独进行差异分析的基因，三者的交集才是最终可能的诊断标志物

　　这里晨曦读到的时候，其实是在想一个问题，展示模型的第一张图是在哪个数据集上进行验证的，结果看到方法学部分是自测数据，但是作者在全文中并没有提供自测数据的编号，所以，这部分自测数据我们是拿不到的（痛失我爱TUT）

　　其实我们可以看出，这篇文献并没有使用太过高深的分析思路，所以如果是咱们挑圈联靠的老粉丝，花上一段时间来复现也是没有问题的，其实重点就是结合了机器学习的最后一张图，我们可以用机器学习来评估我们诊断标志物的诊断效力

　　10. 躲不过的树！80%的生信SCI中都见过它！你线. Python or R? 哪个更适用于生信发文章？深入浅出给你讲透！12. 生信和抖音是一样的算法原理？不仅让你成瘾，也能发高分文章！13. 跟3-5分SCI相比，CNS里的生信玩的可太花了！其实简单的离谱！

　　1. 首次揭秘！不做实验也能发10+SCI，CNS级别空间转录组套路全解析（附超详细代码！）2. 过关神助！99%审稿人必问，多数据集联合分析，你注意到这点了吗？3. 太猛了！万字长文单细胞分析全流程讲解，看完就能发文章！建议收藏！（附代码）

　　7. 我就不信了，生信分析你能绕开这个问题！今天一次性帮你解决！晨曦从零开始学画图系列传送门

　　1. 看完这篇，彻底掌握生信画图精髓！超级实用，我不许你不知道！2. 想让SCI看上去更高逼格？这些绘图技巧你一定要知道！3. 3min掌握SCI配色神技，学会你就是组会汇报上最靓的仔！

　　1. 宝儿，5min掌握一个单细胞数据库，今年国自然就靠它了！（附视频）2. 审稿人返修让我补单细胞数据咋办？这个神器帮大忙了！3. 想白嫖、想高大上、想有高大上的SCI？这个单细胞数据库，你肯定用得上！（配视频）

　　8. 纯生信发14分NC的单细胞测序文章，这个北大的发文套路，你可以试下！实在不行情感词汇500句，拿来挖挖数据也行！9. 如何最短时间极简白嫖单细胞分析？不只是肿瘤方向！十分钟教你学会！10. 生信数据挖掘新风口！这个单细胞免疫数据库帮你一网打尽了！SCI的发文源头！