情感词汇500句

45baike 2024-10-04 3次阅读

情感词汇500句

  这期的内容我们来解析一篇非肿瘤机器学习的文献,并且根据这篇文献整合出来一份机器学习的分析模板,相信各位小伙伴只要找到自己领域的数据集并且有了相应的idea,就可以快速根据分析模板产出自己的机器学习文章啦~

  首先,我们从题目就可以知道这篇文献切入的主要疾病为精神症,要做的其实就是寻找诊断标志物,那么可以运用到的机器学习算法我们预先可以有一个大概的预想,可能会有SVM、随机森林以及神经网络,当然Logistic回归也是一个不错的选择

  精神症(SCZ)是一种高度遗传性、多基因的复杂精神障碍,诊断边界不精确。寻找敏感性、特异性的新生物标志物,提高SCZ诊断的生物学同质性仍是研究热点之一

  为了鉴定SCZ的血液特异性诊断生物标志物,我们对来自15例首次用药SCZ患者和15例健康对照(CTL)的30份外周血样本进行了RNA测序(RNA-seq)

  这里选择首次用药的患者可能也是考虑情感词汇500句,如果患者没有来进行治疗,可能也不会发现这个患者有精神症

  WGCNA分析,本质上来讲就是把基因进行聚类,这样我们就会得到一些表达相似或者协同的基因,然后如果有表型信息,还可以把模块与表型进行关联,这个时候我们就会得到表型和哪些基因相关,当然,解读方向的不同,你把模块内的基因认为是更重要的基因也是可以的,但是需要注意,WGCNA需要的输入数据为表达矩阵(未经筛选的)情感词汇500句,差异分析后的表达矩阵显然是不行的情感词汇500句,因为WGCNA纳入的数据越多,其稳定性是越高的(涉及到构建无尺度网络,当然其中的算法细节,不建议深究,会用即可)

  此外,我们发现CTL样本与SCZ样本在淋巴细胞、单核细胞和中性粒细胞的比例有显著差异。因此,我们结合年龄、性别和新的血液生物标志物等各种特征,通过重复的k倍交叉验证,构建了三个分类器(RF:随机森林;SVM:支持向量机;DT:决策树)的风险预测模型,确保了更好的通用性。RF分类器的受试者工作特征面积评分为0.91,在外部验证数据集中ROC为0.77

  总之,该研究确定了3个外周血核心免疫细胞和6个与SCZ发生相关的关键基因,需要进一步的研究来测试和验证这些新的生物标志物,用于SCZ的早期诊断和治疗

  文章的主要结论并不是我们关心的内容,之所以叫分析模板,是因为我们重点关注作者的分析思路,这里的Figure1A图作者展示了三大差异分析的结果,因为算法的不同,这三种方式肯定会存在差异,所以作者对这三种结果取交集,也就是说,通过Figure1我们获得了SCA与正常对照组之间的差异基因

  PCA属于机器学习中无监督学习中聚类的算法,其实就是展示疾病组和正常组是否分割清晰,如果完全重合其实就没有往下分析的必要了,这个图其实应该和差异分析的顺序调换一下,因为这一步是属于数据质控的步骤

  这一步骤其实是存在问题的,因为小伙伴们都知道,GSEA富集分析需要纳入全部基因,如果单纯取差异基因则会丢失部分信息,因为GSEA提出的一部分原因就在于摒弃掉传统富集分析存在阈值或者之前有logFC筛选的情况,如果我们把经过筛选的基因集纳入到GSEA富集分析中,其实从某种程度上来说是丢掉了GSEA富集分析的优势

  这一个步骤其实就是我们常说的挑圈联靠中的联的过程,有的同学可能会疑惑FigureA是什么意思,其实很简单,Upset 图和韦恩图类似都是展示差异情况的,如果遇到多分组用韦恩图无法展示,可以考虑使用Upset 图

  这一步骤其实就没有过多的修改空间了,就是进行一个WGCNA分析,相关的很多内容在挑圈联靠公众号上都已经连载过很多期了,而且可视化的方式,运用我们的扒图技能也没有太大的一个难度,所以当我们有表型信息的时候,不妨可以考虑进行WGCNA分析来探索一下基因表达与表型之间的相关性(当然,数据挖掘很多的时候你可以都做一遍,然后挑结果好的进行展示)

  在这里,作者展示了关键模块中所有基因的表达水平,以及关键模块对于相同测序样本对应的模块基因表达值。红色代表上调的基因,绿色代表下调的基因,这一步骤,其实在别的文献中展示的情况不是很多,在R中运用ggplot2和patchwork即可以完成

  对关键模块中所有基因进行GO和KEGG富集分析,这些图都是基于clusterProfiler包进行绘制的,相关的内容可以参考下面这篇推文:

  这块的可视化,可能有的小伙伴不熟悉,所以这里我们简单说一下这个分析的本质,这里其实就是标准的WGCNA分析的后续流程,其实目的只有一个就是筛选出来关键基因,我们可以理解为WGCNA分析是一个针对大样本数据挖掘关键基因的分析即可,具体WGCNA分析的相关内容,也可以参考下面的推文链接:

  这里其实我们就需要与临床预测模型的文献区分开来,临床预测模型最后得到的是一个预测模型,落在结果上其实是得到一个列线图或者网页评分器,但是这个不是,这个是获得一个临床诊断标志物,所以说并不涉及到上面的内容,然后我们来看一下图表的内容

  第一步:三个数据集的差异分析,然后通过一种比较少见的可视化方式展示,本质上来说也就是获取三个数据集差异分析的交集(为什么把重度抑郁症还有双向情感障碍纳入到分析流程中,因为晨曦并不是相关专业的,从文章中可知,作者想要探索的标志物是在SCZ中特异性表达,但是在BDP与MDD中不表达的)

  第二步:筛选真正的差异基因,寻找在RRA合并三大数据集后与WGCNA得到的hub基因还有SCZ特有的差异基因取交集后作为真正的差异基因(作者认为单纯的SCZ差异基因可能会有不阳性的可能,这个时候通过WGCNA缩小一遍范围,然后再通过RRA合并三大数据集后得到的差异基因再筛选一遍)

  如果把三类基因做一个总计可以简单理解为,RRA合并的三大基因集的差异分析相当于土壤,这里的基因是在SCZ或者BDP或者MDD中有差异表达的,然后通过WGCNA也获得了一些模块内的hub基因,最后则是SCZ单独进行差异分析的基因,三者的交集才是最终可能的诊断标志物

  这里晨曦读到的时候,其实是在想一个问题,展示模型的第一张图是在哪个数据集上进行验证的,结果看到方法学部分是自测数据,但是作者在全文中并没有提供自测数据的编号,所以,这部分自测数据我们是拿不到的(痛失我爱TUT)

  其实我们可以看出,这篇文献并没有使用太过高深的分析思路,所以如果是咱们挑圈联靠的老粉丝,花上一段时间来复现也是没有问题的,其实重点就是结合了机器学习的最后一张图,我们可以用机器学习来评估我们诊断标志物的诊断效力

  10. 躲不过的树!80%的生信SCI中都见过它!你线. Python or R? 哪个更适用于生信发文章?深入浅出给你讲透!12. 生信和抖音是一样的算法原理?不仅让你成瘾,也能发高分文章!13. 跟3-5分SCI相比,CNS里的生信玩的可太花了!其实简单的离谱!

  1. 首次揭秘!不做实验也能发10+SCI,CNS级别空间转录组套路全解析(附超详细代码!)2. 过关神助!99%审稿人必问,多数据集联合分析,你注意到这点了吗?3. 太猛了!万字长文单细胞分析全流程讲解,看完就能发文章!建议收藏!(附代码)

  7. 我就不信了,生信分析你能绕开这个问题!今天一次性帮你解决!晨曦从零开始学画图系列传送门

  1. 看完这篇,彻底掌握生信画图精髓!超级实用,我不许你不知道!2. 想让SCI看上去更高逼格?这些绘图技巧你一定要知道!3. 3min掌握SCI配色神技,学会你就是组会汇报上最靓的仔!

  1. 宝儿,5min掌握一个单细胞数据库,今年国自然就靠它了!(附视频)2. 审稿人返修让我补单细胞数据咋办?这个神器帮大忙了!3. 想白嫖、想高大上、想有高大上的SCI?这个单细胞数据库,你肯定用得上!(配视频)

  8. 纯生信发14分NC的单细胞测序文章,这个北大的发文套路,你可以试下!实在不行情感词汇500句,拿来挖挖数据也行!9. 如何最短时间极简白嫖单细胞分析?不只是肿瘤方向!十分钟教你学会!10. 生信数据挖掘新风口!这个单细胞免疫数据库帮你一网打尽了!SCI的发文源头!


标签: 情感  词汇  500句 


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。