Earyant的技术博客

欢迎来到Earyant的技术博客,在这里我将与你分享新技术。

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。

阅读全文 »

NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。

NumPy的部分功能如下:

  • ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
  • 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
  • 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
  • 线性代数、随机数生成以及傅里叶变换功能。
  • 用于集成由C、C++、Fortran等语言编写的代码的A C API。
阅读全文 »

本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。

我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何与本地硬盘交互。

阅读全文 »

第2章 Python语法基础,IPython和Jupyter Notebooks

当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分析和机器学习的资源已经很多,原来通用的科学计算拓展到了计算机科学家、物理学家和其它研究领域的工作人员。学习Python和成为软件工程师的优秀书籍也有了。

阅读全文 »

一、简介

很多机器学习的问题都会涉及到有着几千甚至数百万维的特征的训练实例。这不仅让训练过程变得非常缓慢,同时还很难找到一个很好的解,我们接下来就会遇到这种情况。这种问题通常被称为维数灾难(curse of dimentionality)。

幸运的是,在现实生活中我们经常可以极大的降低特征维度,将一个十分棘手的问题转变成一个可以较为容易解决的问题。例如,对于 MNIST 图片集(第 3 章中提到):图片四周边缘部分的像素几乎总是白的,因此你完全可以将这些像素从你的训练集中扔掉而不会丢失太多信息。图 7-6 向我们证实了这些像素的确对我们的分类任务是完全不重要的。同时,两个相邻的像素往往是高度相关的:如果你想要将他们合并成一个像素(比如取这两个像素点的平均值)你并不会丢失很多信息。

阅读全文 »

第1章 准备工作

1.1 本书的内容

本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。

阅读全文 »

机器学习路线图

入门课程

  1. Machine Learning | Coursera
    入门首选,推荐只认识“机器学习”四个字但还不知道它是什么的学习这些年机器学习的大多数年轻人靠这个入门。具体提纲我就不列了,免得增加篇幅。建议是直接按顺序一课课学,不要着急。在学完这个课程前,不要学后面的。
    关于这门课的官方介绍是:本课程将广泛介绍机器学习、数据挖掘和统计模式识别。相关主题包括:(i) 监督式学习(参数和非参数算法、支持向量机、核函数和神经网络)。(ii) 无监督学习(集群、降维、推荐系统和深度学习)。(iii) 机器学习实例(偏见/方差理论;机器学习和AI领域的创新)。课程将引用很多案例和应用,您还需要学习如何在不同领域应用学习算法,例如智能机器人(感知和控制)、文本理解(网络搜索和垃圾邮件过滤)、计算机视觉、医学信息学、音频、数据库挖掘等领域。这门课基本涵盖了机器学习的主要知识点,例如:线性回归、逻辑回归、支持向量机、神经网络、K-Means、异常检测等等。而且课程中没有复杂的公式推导和理论分析。Ng 的目的是让机器学习初学者能够快速对整个机器学习知识点有比较整体的认识,便于快速入门。

img

  1. CS231n: Convolutional Neural Networks for Visual RecognitionStanford
    最受欢迎的课之一.

  2. 机器学习体系图

    在这里插入图片描述

引用链接

面试技巧
面经
面试题
优质课程与资料汇总
优质电子书籍资料汇总

godb

本项目中,数据库就是本地一个文件夹,表也是数据库下的目录,里面的数据就是表文件夹下的文件,
表目录下的scheme.json保存着表结构
表目录下data0.json data1.json分别存储着数据,每个文件里的数据不超过1000行。

设计逻辑

  • 代码分为client端和server端
  • server端开启端口,接收指令,并执行指令
  • client端连接端口,发送指令
  • server端分层执行
    • 解析语句,判断类型,建库、建表、插入数据等等
    • 不同类型语句进入不同service执行,互不干扰
    • 验证语句,返回数据

建库

暂时建表只支持这种格式,实际实现是在项目tmp目录下新建一个db1的文件夹

1
create database db1

建表

暂时只支持 ‘id’ 列名, varchar(255) 类型长度,以及默认值
以及主键
实际实现是在数据库目录下新建一个表名的文件夹,并有一个scheme.json文件记录各列属性

1
2
3
create table  table1 (`id` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
);

插入数据

支持语句格式,value 只支持一个括号,values支持多个括号多行数据插入
实际实现是在表文件夹下,新建data(i).json文件,里面存储具体数据,i是预留数据量大的情况下的分文件存储,每个文件暂时最多支持存储1000行。

1
INSERT INTO feature_conf values(1)

// TODO

  • [ ] 增加索引文件,指向data(i).json并指明多少列
  • [ ] 索引文件分层,类似B+树存储

intern作用

如果常量池中存在当前字符串, 就会直接返回当前字符串. 如果常量池中没有此字符串, 会将此字符串放入常量池中后, 再返回

先明白含义是什么,再看一道题,copy美团的文章,详见参考一

1
2
3
4
5
6
7
8
9
10
11
public static void main(String[] args) {
String s = new String("1");
s.intern();
String s2 = "1";
System.out.println(s == s2);

String s3 = new String("1") + new String("1");
s3.intern();
String s4 = "11";
System.out.println(s3 == s4);
}

jdk7,8下false true
jdk6以下false false

接下来把intern下移一行

1
2
3
4
5
6
7
8
9
10
11
12
13
public static void main(String[] args) {

String s = new String("1");
String s2 = "1";
s.intern();
System.out.println(s == s2);

String s3 = new String("1") + new String("1");
String s4 = "11";
s3.intern();
System.out.println(s3 == s4);
}

jdk7,8下false false
jdk6以下false false

看完答案后,我是很懵逼的,我有看了美团文章的解释,瞬间,更懵逼了。美团文章解释的其实挺好的,但是没有抓住重点。
详细论证两篇文章都有,基本都能看明白(看不明白可以找我交流),重点在两点:

  • jdk7、8和6有什么不同: 7以上将常量池从perm区移到了heap中
  • jdk7、8第一个程序中为什么一个是false,一个是true,jdk7以后常量去不仅仅可以保存对象,也可以保存对象的引用,所以s3的引用被保存到常量区中,s4直接在常量区找到了对象的引用,所以为true。

有兴趣研究的同学,可以联系我,微信 ryry89,邮箱earyantLee@gmail.com

参考一
参考二

Jib

好久没写blog了,最近看到google新开源的工具心痒痒,试着玩下~
首先什么是Jib,:

Jib 是 Google 开发的可以直接构建 Java 应用的 Docker 和 OCI 镜像的类库,以 Maven 和 Gradle 插件形式提供。
通过 Jib,Java 开发者可以使用他们熟悉的 Java 工具来构建容器。Jib 是一个快速而简单的容器镜像构建工具,它负责处理将应用程序打包到容器镜像中所需的所有步骤。它不需要你编写 Dockerfile 或安装 Docker,而且可以直接集成到 Maven 和 Gradle中 —— 只需要将插件添加到构建中,就可以立即将 Java 应用程序容器化。

构建流程

  • Docker构建的复杂流程

  • Jib构建流程

从此可以告别繁琐的Dockerfile啦~~

上手

  1. 首先配置jib插件
    maven:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    <plugin>
    <groupId>com.google.cloud.tools</groupId>
    <artifactId>jib-maven-plugin</artifactId>
    <version>0.9.6</version>
    <configuration>
    <from>
    <image>
    registry.hub.docker.com/adoptopenjdk/openjdk8
    </image>
    </from>
    <to>
    <image>registry.hub.docker.com/earyant/earyant</image>
    </to>
    </configuration>
    </plugin>

    gradle

    1
    2
    3
    4
    5
    plugins {
    id 'com.google.cloud.tools.jib' version '0.9.6'
    }
    jib.to.image = 'registry.hub.docker.com/earyant/earyant'
    jib.from.image = 'registry.hub.docker.com/adoptopenjdk/openjdk8'

    需要注意的是image不加域名的话,默认是gcr.io,google Cloud下的镜像,需要梯子,所以没有梯子的话,请使用 registry.hub.docker.com,阿里云加速同理

如果不加from标签,也是默认访问grc.io去下载jdk镜像,emmmm,同样需要梯子,报错如下:

1
Build to Docker daemon failed: Connect to gcr.io/108.177.97.82:443 timed out

所以记得加上from镜像标签哦~~

如果报错信息如下,请先登录docker login -name=earyant registry.hub.docker.com ,如果没有注册过,请到docker官网注册~
Retrieving registry credentials for registry.hub.docker.com

  1. Build
  • build到远程仓库

    • gradle jib
    • mvn compile jib:build
  • 本地运行(确保本地docker已运行 )

    • mvn compile jib:dockerBuild
    • gradle jibDockerBuild
  1. 运行
    本地镜像查看如下:
    docker images
    1
    earyant/earyant       latest              e34b4cad637b        48 years ago        367MB

docker run -p 8880:8880 -it —rm —name earyant registry.hub.docker.com/earyant/earyant

访问 http://localhost:8880 即可纵享丝滑,开心~~~