NLP ——从0开始快速上手百度 ERNIE

程序媛驿站
关注

在解压出的文件夹“task_data/chnsenticorp”中, 包含了三个文件“train.tsv”、“dev.tsv”、“test.tsv”,分别对应ChnSentiCorp 数据的训练集、验证集和测试集,该任务是一个单句分类任务,数据包含两个字段为“label”和“seg_a”,以“TAB”进行分隔,示例如下:

seg_a label选择珠江花园的原因就是方便,有电动扶梯直接到达海边,周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般,但还算整洁。泳池在大堂的屋顶,因此很小,不过女儿倒是喜欢。包的早餐是西式的,还算丰富。服务吗,一般       115.4寸笔记本的键盘确实爽,基本跟台式机差不多了,蛮喜欢数字小键盘,输数字特方便,样子也很美观,做工也相当不错    1房间太小。其他的都一般。。。。。。。。。01.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆,手不能摸,一摸一个印. 4.硬盘分区不好办.        0今天才知道这书还有第6卷,真有点郁闷:为什么同一套书有两种版本呢?当当网是不是该跟出版社商量商量,单独出个第6卷,让我们的孩子不会有所遗憾。1机器背面似乎被撕了张什么标签,残胶还在。但是又看不出是什么标签不见了,该有的都在,怪    0呵呵,虽然表皮看上去不错很精致,但是我还是能看得出来是盗的。但是里面的内容真的不错,我妈爱看,我自己也学着找一些穴位。0这本书实在是太烂了,以前听浙大的老师说这本书怎么怎么不对,哪些地方都是误导的还不相信,终于买了一本看一下,发现真是~~~无语,这种书都写得出来  0地理位置佳,在市中心。酒店服务好、早餐品种丰富。我住的商务数码房电脑宽带速度满意,房间还算干净,离湖南路小吃街近。12. 运行Fine-tuning

运行该脚本即可执行Fine-tuning, 脚本会根据你指定的from_pretrained参数下载预训练模型,运行最大步长max_steps由样本数 * epoch数 / 批大小算出。

!export CUDA_VISIBLE_DEVICES=0 !PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py         --from_pretrained ernie-1.0         --data_dir ./chnsenticorp/         --epoch 10         --lr 5e-5         --bsz 32         --max_steps $((9600*10/32))         --save_dir ./tuned_model

执行结束后输出如下的在验证集和测试集上面的测试结果:

training: 250it [01:39,  2.96it/s]2020-05-15 17:52:21,377-DEBUG: train loss 0.00880 lr 3.585e-05training: 260it [01:43,  3.00it/s]2020-05-15 17:52:24,743-DEBUG: train loss 0.05025 lr 3.568e-05training: 270it [01:46,  3.00it/s]2020-05-15 17:52:28,108-DEBUG: train loss 0.06813 lr 3.552e-05training: 280it [01:49,  3.00it/s]2020-05-15 17:52:31,474-DEBUG: train loss 0.12881 lr 3.535e-05training: 290it [01:53,  3.00it/s]2020-05-15 17:52:34,840-DEBUG: train loss 0.06156 lr 3.518e-052020-05-15 17:52:42,877-DEBUG: acc 0.93250training: 10it [00:08,  1.88it/s]2020-05-15 17:52:46,317-DEBUG: train loss 0.00679 lr 3.485e-05training: 20it [00:11,  2.84it/s]2020-05-15 17:52:49,817-DEBUG: train loss 0.13993 lr 3.468e-05training: 30it [00:15,  2.89it/s]2020-05-15 17:52:53,297-DEBUG: train loss 0.02414 lr 3.452e-05

可以看到准确率(acc)达到了0.95左右,与表1中的测评准确率非常接近,说明训练效果达到了良好水平。

3. 执行推理

Fine-tuning 结束后,如果用户希望使用模型运行推理,可以修改上述命令行,并加入参数--eval进入推理模式,从而利用保存在某个checkpoint (由--save_dir指定)的模型执行推理。

!head ./chnsenticorp/dev/part.0|awk -F" " '{print $1}'| PYTHONPATH=./ERNIE  python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py         --from_pretrained ernie-1.0         --data_dir ./chnsenticorp/         --epoch 10         --lr 5e-5         --bsz 32         --eval         --max_steps $((9600*10/32))         --save_dir ./tuned_model

输入的预测数据由标准输入管道灌入程序。修改完成后请再次运行脚本执行推理。该命令指向的“chnsenticorp/dev/part.0”文件里的前10句话,程序将对这10句话进行推理:

這間酒店環境和服務態度亦算不錯,但房間空間太小,不宣容納太大件行李,且房間格調還可以,中餐廳的廣東點心不太好吃,要改善之。但算價錢平宜,可接受。西餐廳格調都很好,但吃的味道一般且令人等得太耐了,要改善之。

<荐书> 推荐所有喜欢<红楼>的红迷们一定要收藏这本书,要知道当年我听说这本书的时候花很长时间去图书馆找和借都没能如愿,所以这次一看到当当有,马上买了,红迷们也要记得备货哦!

商品的不足暂时还没发现,京东的订单处理速度实在……周二就打包完成,周五才发货...

2001年来福州就住在这里,这次感觉房间就了点,温泉水还是有的.总的来说很满意.早餐简单了些。

不错的上网本,外形很漂亮,操作系统应该是个很大的 卖点,电池还可以。整体上讲,作为一个上网本的定位,还是不错的。

房间地毯太脏,临近火车站十分吵闹,还好是双层玻璃。服务一般,酒店门口的TAXI讲是酒店的长期合作关系,每月要交费给酒店。从酒店到机场讲得是打表147元,到了后非要200元,可能被小宰30-40元。

本来想没事的时候翻翻,可惜看不下去,还是和张没法比,他的书能畅销大部分还是受张的影响,对这个男人实在是没好感,不知道怎么买的,后悔。

这台机外观十分好,本人喜欢,性能不错,是LED显示屏,无线网卡是: 5100AGN 无线网卡,如果装的是一条2G 800MHZ的内存就无敌了,本本发热很小,总体来说是十分值得买的,前提是这台机是4299买的。

全键盘带数字键的 显卡足够强大.N卡相对A卡,个人偏向N卡 GHOST XP很容易.除了指纹识别外.所有驱动都能装齐全了,指纹识别,非要在XP下使用的朋友,可以用替代驱动.贡献下驱动地址: http://dlsvr01.asus.com/pub/ASUS/nb/F9Dc/Fingerprints_XP_080530.zip (华硕官方地址,放心下吧)。

做工很漂亮,老婆很喜欢。T4200足够了,性价比不错的机器。测试了一下很安逸。今天晚上准备TWOW溜达圈,再看看整机表现如何!

其它分类任务的运行方式类似。同时 ERNIE 还支持阅读理解、语义匹配、序列标注等任务,运行方式可以参考 README 中 Fine-tuning 章节。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存