当前位置:首页 > 深度学习 > 正文

深度学习的主要四种方法及思想

详解4种模型压缩技术、模型蒸馏算法

本文将深入解析深度学习中的四种模型压缩技术和模型蒸馏算法,包括Patient-KD、DistilBERT、DynaBERT和TinyBERT。


在模型压缩的需求中,深度神经网络虽然具有强大的表达能力,但其训练成本和模型大小增加,对部署在资源有限的端侧设备如手机和IoT设备构成挑战。 为减小模型体积、提高速度和能耗,我们通常采用参数量减少、网络结构优化等手段。 然而,直接设计小模型难度大,模型压缩技术如蒸馏和量化则能在经典模型基础上提升性能。


以蒸馏和量化为例,通过MobileNetV3_large模型,我们观察到使用蒸馏后的模型精度显著提升,而结合蒸馏和量化更进一步优化了精度和推理速度。 模型压缩的基本方法包括知识蒸馏、权重姿尘共享和低秩分解等。


1.Patient-KD

Patient-KD是为缓解BERT模型在资源需求上的挑战而提出的,通过让学生模型从教师网络的多个中间层而非仅最后一层学习,改善了泛化能力。 实验结果表明,Patient-KD在GLUE测试集上表现出色,尤其在某些任务上接近或超过BERT-Base。


2.DistilBERT

DistilBERT通过知识蒸馏,将大型BERT模型的知识迁移到轻量级模型中,显著减小了参数量和计算棚轿成本,同时保了大部分性能。 实验结果显示DistilBERT在GLUE数据集上的表现优于BERT,且速度提高。


3.DynaBERT

DynaBERT提出了一种自适应宽度和深度的动态模型,可以根据任务需求动态调整网络结构,提供了更大的灵活迹和禅性。 实验结果显示,DynaBERT模型在大小、速度和性能上都具有优势。


4.TinyBERT

TinyBERT对BERT进行了知识蒸馏,尤其是Transformer层、嵌入层和预测层的蒸馏,显著缩小了模型,提高了推理速度。 在GLUE基准上,TinyBERT展示了显著的性能提升。

什么是深度学习

为知道、会、应用、分析、综合以及评价六个层次。 一般认为,知道、会、分析三个方面属于低阶思维,即浅层学习;分析、综合和评价三个方面属于高阶思维,即深度学习。

安德森提出:知识包括事实性知识、概念性知识、程序性知识和元认知知识四种类型。 进一步在布鲁姆目标教学的基础上把认知过程分为记忆、理解、应用、分析、评价和创造六个层次。 一般认为,记忆和理解属于低阶思维,应用、分析、评价和创造则属于高层次的思维。

深度学习的本质

第一、深度学习的核心目标是促进高阶思维能力的发展。

第二、深度学习的本质特征是深度思维。 从学习过程来讲,深度学习特别强调内在动机的发、积极主动的参与、高水平的认知和元认知的投入、新旧知识的联系等,最关键的因素就是学生积极主动的思维。