pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。
利用python进行数据分析-4.numpy
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。
NumPy的部分功能如下:
- ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
- 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
- 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
- 线性代数、随机数生成以及傅里叶变换功能。
- 用于集成由C、C++、Fortran等语言编写的代码的A C API。
利用python进行数据分析-3.Python高级语法
本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。
我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何与本地硬盘交互。
利用python进行数据分析-2.Python语法基础,IPython和Jupyter
Scikit-Learn与TensorFlow机器学习实用指南-1
本文字数: 3.1k 阅读时长 ≈ 3 分钟
一、简介
很多机器学习的问题都会涉及到有着几千甚至数百万维的特征的训练实例。这不仅让训练过程变得非常缓慢,同时还很难找到一个很好的解,我们接下来就会遇到这种情况。这种问题通常被称为维数灾难(curse of dimentionality)。
幸运的是,在现实生活中我们经常可以极大的降低特征维度,将一个十分棘手的问题转变成一个可以较为容易解决的问题。例如,对于 MNIST 图片集(第 3 章中提到):图片四周边缘部分的像素几乎总是白的,因此你完全可以将这些像素从你的训练集中扔掉而不会丢失太多信息。图 7-6 向我们证实了这些像素的确对我们的分类任务是完全不重要的。同时,两个相邻的像素往往是高度相关的:如果你想要将他们合并成一个像素(比如取这两个像素点的平均值)你并不会丢失很多信息。
利用python进行数据分析-1.简介
机器学习路线
本文字数: 598 阅读时长 ≈ 1 分钟
机器学习路线图
入门课程
- Machine Learning | Coursera
入门首选,推荐只认识“机器学习”四个字但还不知道它是什么的学习这些年机器学习的大多数年轻人靠这个入门。具体提纲我就不列了,免得增加篇幅。建议是直接按顺序一课课学,不要着急。在学完这个课程前,不要学后面的。
关于这门课的官方介绍是:本课程将广泛介绍机器学习、数据挖掘和统计模式识别。相关主题包括:(i) 监督式学习(参数和非参数算法、支持向量机、核函数和神经网络)。(ii) 无监督学习(集群、降维、推荐系统和深度学习)。(iii) 机器学习实例(偏见/方差理论;机器学习和AI领域的创新)。课程将引用很多案例和应用,您还需要学习如何在不同领域应用学习算法,例如智能机器人(感知和控制)、文本理解(网络搜索和垃圾邮件过滤)、计算机视觉、医学信息学、音频、数据库挖掘等领域。这门课基本涵盖了机器学习的主要知识点,例如:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等等。而且课程中没有复杂的公式推导和理论分析。Ng 的目的是让机器学习初学者能够快速对整个机器学习知识点有比较整体的认识,便于快速入门。
CS231n: Convolutional Neural Networks for Visual RecognitionStanford
最受欢迎的课之一.机器学习体系图
引用链接
自己写一个数据库
本文字数: 657 阅读时长 ≈ 1 分钟
godb
本项目中,数据库就是本地一个文件夹,表也是数据库下的目录,里面的数据就是表文件夹下的文件,
表目录下的scheme.json保存着表结构
表目录下data0.json data1.json分别存储着数据,每个文件里的数据不超过1000行。
设计逻辑
- 代码分为client端和server端
- server端开启端口,接收指令,并执行指令
- client端连接端口,发送指令
- server端分层执行
- 解析语句,判断类型,建库、建表、插入数据等等
- 不同类型语句进入不同service执行,互不干扰
- 验证语句,返回数据
建库
暂时建表只支持这种格式,实际实现是在项目tmp目录下新建一个db1的文件夹
1 | create database db1 |
建表
暂时只支持 ‘id’ 列名, varchar(255) 类型长度,以及默认值
以及主键
实际实现是在数据库目录下新建一个表名的文件夹,并有一个scheme.json文件记录各列属性
1 | create table table1 (`id` varchar(255) DEFAULT NULL, |
插入数据
支持语句格式,value 只支持一个括号,values支持多个括号多行数据插入
实际实现是在表文件夹下,新建data(i).json文件,里面存储具体数据,i是预留数据量大的情况下的分文件存储,每个文件暂时最多支持存储1000行。
1 | INSERT INTO feature_conf values(1) |
// TODO
- [ ] 增加索引文件,指向data(i).json并指明多少列
- [ ] 索引文件分层,类似B+树存储
String.intern方法理解
本文字数: 1k 阅读时长 ≈ 1 分钟
intern作用
如果常量池中存在当前字符串, 就会直接返回当前字符串. 如果常量池中没有此字符串, 会将此字符串放入常量池中后, 再返回
先明白含义是什么,再看一道题,copy美团的文章,详见参考一1
2
3
4
5
6
7
8
9
10
11public static void main(String[] args) {
String s = new String("1");
s.intern();
String s2 = "1";
System.out.println(s == s2);
String s3 = new String("1") + new String("1");
s3.intern();
String s4 = "11";
System.out.println(s3 == s4);
}
jdk7,8下false true
jdk6以下false false
接下来把intern下移一行1
2
3
4
5
6
7
8
9
10
11
12
13public static void main(String[] args) {
String s = new String("1");
String s2 = "1";
s.intern();
System.out.println(s == s2);
String s3 = new String("1") + new String("1");
String s4 = "11";
s3.intern();
System.out.println(s3 == s4);
}
jdk7,8下false false
jdk6以下false false
看完答案后,我是很懵逼的,我有看了美团文章的解释,瞬间,更懵逼了。美团文章解释的其实挺好的,但是没有抓住重点。
详细论证两篇文章都有,基本都能看明白(看不明白可以找我交流),重点在两点:
- jdk7、8和6有什么不同: 7以上将常量池从perm区移到了heap中
- jdk7、8第一个程序中为什么一个是false,一个是true,jdk7以后常量去不仅仅可以保存对象,也可以保存对象的引用,所以s3的引用被保存到常量区中,s4直接在常量区找到了对象的引用,所以为true。
有兴趣研究的同学,可以联系我,微信 ryry89,邮箱earyantLee@gmail.com
谷歌jib工具试用
本文字数: 1.6k 阅读时长 ≈ 1 分钟
Jib
好久没写blog了,最近看到google新开源的工具心痒痒,试着玩下~
首先什么是Jib,:
Jib 是 Google 开发的可以直接构建 Java 应用的 Docker 和 OCI 镜像的类库,以 Maven 和 Gradle 插件形式提供。
通过 Jib,Java 开发者可以使用他们熟悉的 Java 工具来构建容器。Jib 是一个快速而简单的容器镜像构建工具,它负责处理将应用程序打包到容器镜像中所需的所有步骤。它不需要你编写 Dockerfile 或安装 Docker,而且可以直接集成到 Maven 和 Gradle中 —— 只需要将插件添加到构建中,就可以立即将 Java 应用程序容器化。
构建流程
Docker构建的复杂流程
Jib构建流程
从此可以告别繁琐的Dockerfile啦~~
上手
首先配置jib插件
maven:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15<plugin>
<groupId>com.google.cloud.tools</groupId>
<artifactId>jib-maven-plugin</artifactId>
<version>0.9.6</version>
<configuration>
<from>
<image>
registry.hub.docker.com/adoptopenjdk/openjdk8
</image>
</from>
<to>
<image>registry.hub.docker.com/earyant/earyant</image>
</to>
</configuration>
</plugin>gradle
1
2
3
4
5plugins {
id 'com.google.cloud.tools.jib' version '0.9.6'
}
jib.to.image = 'registry.hub.docker.com/earyant/earyant'
jib.from.image = 'registry.hub.docker.com/adoptopenjdk/openjdk8'
需要注意的是image不加域名的话,默认是gcr.io,google Cloud下的镜像,需要梯子,所以没有梯子的话,请使用 registry.hub.docker.com,阿里云加速同理
如果不加from标签,也是默认访问grc.io去下载jdk镜像,emmmm,同样需要梯子,报错如下:1
Build to Docker daemon failed: Connect to gcr.io/108.177.97.82:443 timed out
所以记得加上from镜像标签哦~~
如果报错信息如下,请先登录docker login -name=earyant registry.hub.docker.com ,如果没有注册过,请到docker官网注册~
Retrieving registry credentials for registry.hub.docker.com
- Build
build到远程仓库
- gradle jib
- mvn compile jib:build
本地运行(确保本地docker已运行 )
- mvn compile jib:dockerBuild
- gradle jibDockerBuild
- 运行
本地镜像查看如下:
docker images1
earyant/earyant latest e34b4cad637b 48 years ago 367MB
docker run -p 8880:8880 -it —rm —name earyant registry.hub.docker.com/earyant/earyant
访问 http://localhost:8880 即可纵享丝滑,开心~~~