博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TuShare(3):使用pandas 压缩存储hdf5文件
阅读量:6377 次
发布时间:2019-06-23

本文共 868 字,大约阅读时间需要 2 分钟。

本文的原文连接是: 未经博主允许不得转载。

博主地址是:

1,使用压缩


hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。

使用压缩可以提磁盘利用率,节省空间。
开启压缩也没有什么劣势,只会慢一点点。
压缩在小数据量的时候优势不明显,数据量大了才有优势。
同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了,
会覆盖。

2,使用压缩方式写文件


import numpy as npimport pandas as pd#生成9000,0000条数据,9千万条a = np.random.standard_normal((90000000,4))b = pd.DataFrame(a)#普通格式存储:h5 = pd.HDFStore('/data/stock/test_s.h5','w')h5['data'] = bh5.close()#压缩格式存储h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')h5['data'] = bh5.close()

对比文件大小:

-rw-r--r--. 1 root root 2.7G Mar 31 11:20 test_c4.h5-rw-r--r--. 1 root root 3.4G Mar 31 11:19 test_s.h5

省了700mb空间。

3,总结


本文的原文连接是: 未经博主允许不得转载。

博主地址是:

pandas官网有CookBook。

对比CSV文件格式,hdf5支持按照key寻找,可以直接把股票id作为key寻找。比较hdf5是结构化的数据格式,而csv还是个文本。
比数据库方式效果高多了,读写很快。
对于金融,股票系统。还是直接读写文件来的方便。
按照日期和股票id进行两个分区。而且后期迁移的时候直接可以迁移到hadoop 上面,也非常容易呢。

你可能感兴趣的文章
★《唐琅探案》后记【2】
查看>>
DockOne微信分享(一二四):轻松筹监控系统实现方案
查看>>
三大趋势:Windows Azure开放拥抱云时代
查看>>
Java程序员应知道的十条Java优化策略,让你的系统健步如飞
查看>>
一个Ogre.cfg引发的血案
查看>>
盘点2017年助力企业挺向物联网的10大重磅收购
查看>>
《VMware Virtual SAN权威指南》一3.9.3 vSphere HA接入控制
查看>>
联想企业网盘——打通企业的任督二脉
查看>>
《数字逻辑设计与计算机组成》一 第1章 1.1 简介
查看>>
西安交大网络极简网关认证的“难与易”
查看>>
人工智能创新有望解决大数据难题
查看>>
《算法技术手册》一2.4.1 常数级算法的性能
查看>>
希捷发布新的云系统和解决方案战略
查看>>
《中国人工智能学会通讯》——12.20 核心研究问题与研究现状任务分配
查看>>
人工智能将从5大方面改变企业IT
查看>>
HTTP是时候安息了:HTTPS加速推进
查看>>
光谱波段有望扩展Wi-Fi使用距离
查看>>
探索前端黑科技——通过png图的rgba值缓存数据
查看>>
实现更好的虚拟化和存储的五大方式
查看>>
为什么要学习R语言
查看>>