- Articles
- New
如何处理数据缺失,以临床试验与观察性研究为例
对观察性研究和临床试验来说,数据完整关乎研究的效度与信度。然而,因受试者中途退出、数据采集错误、填答不完整等各样状况,数据缺失在所难免。研究者通常以末次观察值结转或均值替代法补救,胜在方便,但也容易估出不准确数值,致使最终信度也成问题。由此,研究者若想得出经得住推敲的研究结果,学会根据情况擅用合适的统计法以应对数据缺失问题是种必须。本文例举了六种常见的统计概念,希望为你提供基础入门指引。
多重插补
多重插补是一种极常见的处理缺失值的统计方法,主要通过填充估算值达成。多重插补假定数据为随机缺失,即缺失概率与未观察到的数据无关,仅是已观测结果中的随机事件。插补方法多样,回归插补、贝氏插补、预测均值匹配法等都是常见的手法。研究者对插补数据加以分析,并将其汇入结果,得出最终估值及标准差。
参考案例:Jakobsen等人在其2017年的研究中针对临床试验中何时该用插补、何时不用有明确界定,还有流程图可参考。
最大似然估计
最大似然估计是一种根据给定模型估计参数的统计法,通过已观测数据及缺失数据的似然函数可以估出缺失值。期望最大算法是处理数据缺失的常见手段,它的原理是通过迭代算法估出缺失值并不断更新模型,直到实现收敛。
参考案例:Baker在其2019年的研究中详细解释了如何将最大似然估计运用在数据缺失中。
完全信息最大似然估计
与传统插补法相比,完全信息最大似然估计无需创建多个估值或对缺失数据做填充。这种统计法以一切可用数据来估算模型参数,即便是不完整数据。由于不对数据作删除或改动,得出的结果无偏差。
参考案例:研究者Li、Stuart在其2019年的研究中讨论了如何在随机对照试验中用多重插补和完全信息最大似然估计处理缺失数据。
敏感性分析
敏感性分析法,即通过观察改变假设、方法、插补值对研究结果的影响,而评估研究稳健性的统计法。敏感性分析可以令研究者检验稳健性及普适性,识别由缺失数据导致的潜在偏差与混淆。
参考案例:Staudt等人在其2022年的研究中详细记述了如何对临床试验中的缺失数据作敏感性分析。
模式混合模型
在实际操作中,研究者需要根据缺失数据比例及缺失机制选择插补模型。但当数据出现多种缺失机制时,单一模型则容易导致偏倚。模式混合模型适用于多种混合数据缺失机制,包括完全随机缺失、随机缺失、非随机缺失。
参考案例:Iddrisu和Gumedze于2019年的研究,用专利混合模型处理纵向研究中的缺失数据。
联合建模
顾名思义,联合建模即是同时对结果和缺失机制建模,它在同个模型中对模型参数和缺失机制作估计。此外,联合建模还适合用来同时处理纵向数据和生存数据,避免偏差,提高参数估计效率。
参考案例:Gabrio等人于2021年的研究中解释了如何用联合建模处理临床试验中的随机缺失数据。