你的位置:亚洲日韩欧美人成黄瓜_好嗨呦直播app下载_大胆西西人体gogo_美女下面直流白水视频_人妻中出无码一区二区_最新婬乱小说午夜视频_无码艳妇乳肉豪妇荡乳 > 在线看Av免费无码 >


国产尤物在线精品一区通过在该步伐上施加一个小trick

发布日期:2022-09-23 05:51    点击次数:58


日本韩国欧美任你曰国产尤物在线精品一区

 

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请有关出处。

最近,NLP明星公司Hugging Face发布了一个叫做Infinity的家具,不错以1ms延时完成Transformer的推理,性能尽头高了。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

可是,狠恶归狠恶,照旧有点贵——1年至少要十几万块 (2万美元)。

那有莫得什么平替的步伐呢?

有的!照旧开源的、“安若泰山”就不错达到Infinity一些环球基准的那种。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

而况目下,通过在该步伐上施加一个小trick,将Transformer的推理速率普及4.5倍!

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

△ 帖子发布不到一天就获利了250+热度

那么,一个“平替”到底为什么能达到“付费”的抑遏呢?

一个trick让Transformer推理速率普及4.5倍

先来意识一下这个步伐:Transformer-deploy。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

它不错用一滑大叫优化和部署Hugging Face上的Transformer模子, 中文并赈济大大批基于Transformer编码器的模子,比如Bert、Roberta、miniLM、Camembert、Albert、XLM-R、Distilbert等。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

Transformer-deploy推理干事用具的是Nvidia Triton。

推理引擎为Microsoft ONNX Runtime(用于CPU和GPU推理)和Nvidia TensorRT(仅限 GPU)。

若是想在GPU上取得一流的性能,Nvidia Triton+Nvidia TensorRT这么的组合无疑是最好选用。

天然TensorRT用起来有点难,但它确乎能比用Pytorch快5~10倍。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

在本体性能测试中,国产熟妇露脸在线观看Transformer-deploy在batch size为1、token区别为16和128的输入序列中的推理速率,都比付费的Hugging Face Infinity要快:

Transformer-deploy在token为16时要1.52ms,Infinity则需要1.7ms;token为128时需要1.99ms,Infinity则需要2.5ms。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

那前边说的能让Transformer的推感性能进一步普及的小trick是什么呢?

GPU量化(quantization)。

作家示意:

据我所知,目下任何OOS云干事都还没用到过这个步伐。

不外引申GPU量化需要修改模子源代码(需在矩阵乘法等代价腾贵的操作上添加一些叫做QDQ的特定节点),既容易出错,又很没趣,而况还需我方崇拜修改后的代码。

因此作家一经为多个基于Transformer的模子手动完成了这项责任。

其后,他们又发现似乎只需修补模子模块的笼统语法树 (AST)也不错自动完成。

在用户端,在GPU上引申模子的基本量化访佛这么:

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

最终,该步伐在Roberta-base模子和MNLI数据集(分类任务)上扫尾了4.53倍的推理速率。

让Transformer的推理速率普及4.5倍,这个trick还能给你省十几万

天然这也放胆了0.4个点的精度;若是少量不放胆的话,也不错加快3.2倍控制。

作家示意,与Transformer-deploy正本的版块比拟,这一经是一个很大的蜕变了,毕竟原版块的加快资本需要跳动1个点的精准度。

最终他们用Albert、Bert(包括miniLM)、Distilbert、Roberta(包括 Camembert、XLM-R、DistilRoberta等)、Electra测试了该trick。

抑遏是关于任何不错导出为ONNX体式的Transformer模子,都不错“开箱即用”。

 

 



    热点资讯

    相关资讯