iPine's Blog

看似无意义的事,竟是有意义的


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

Colab问题记录

发表于 2019-12-19 | 分类于 technique summary
最近因为做毕设,模型要来回跑,数据量也不小,在本地跑的话既耗时又耗资源,所以就移到了Colab上实验。Colab (Colaboratory) 由Google提供,是一个可免费提供GPU等算力的平台,长得像 Jupyter Notebook,在上面进行Python编码很方便。 由于是新手,免不了遇到 ...
阅读全文 »

SQL面试题

发表于 2019-08-14 | 分类于 technique summary
关于SQL的几个面试题或练习题,在解题的时候,同时考虑用pandas来解,所以做个总结。 题目一 题目描述 用户日志表log,有用户编号cid,时间dt两个字段,查找每个用户成为新增用户的时间 HiveSQL解 思路: 对每个用户的出现时间进行排名 从排名中挑选出每个用户的排名为1的时间,即 ...
阅读全文 »

爬猫眼TOP100电影之正则表达式

发表于 2019-07-07 | 分类于 technique summary
背景 之前写过一个爬虫,爬取比特币官网的交易数据,用的是网页解析库(Python的BeautifulSoup)解析页面内容。最近学习了基础的正则表达式,所以实践一波用正则解析HTML,爬取猫眼榜单上TOP100榜的电影,包括电影排名、电影名、主演、上映时间以及评分信息。 爬虫基础回顾 基本流程 ...
阅读全文 »

推论统计实践之验证斯特鲁普效应

发表于 2019-06-02 | 分类于 technique summary
背景 斯特鲁普效应是以美国心理学家约翰·里德利·斯特鲁普的名字命名的一种心理现象,在心理学中,该效应是对任务反应时间的干扰。当词的信息(词义)与写词色彩不一致时,便会出现心理紧张与自动反应之间的矛盾,于是造成参与者的反应时间延长。一个典型的例子–交互式斯特鲁普效应实验,可以很好地证明这种现象,这将 ...
阅读全文 »

淘宝婴儿用品销售数据销量分析之报告

发表于 2019-05-24 | 分类于 technique summary
一、分析背景与目的 背景 拿到的数据是阿里天池里关于淘宝和天猫用户购买婴儿用品的真实数据,包括用户购买婴儿用品的交易记录以及婴儿的基本信息。原始的数据集应该有超过900万条,但目前只能采集到它的样本,其中交易记录数据包含29971条,婴儿信息数据包括953条。交易记录数据是从2012年7月2日- ...
阅读全文 »

淘宝婴儿用品销售数据分析之预测

发表于 2019-05-19 | 分类于 technique summary
之前对淘宝婴儿用品销售数据集做了基本的业务指标探索性分析。这里还是以这个数据集为例,进行后续的相关性探索。通过分析两个问题,熟悉机器学习算法建模流程。 两个预测问题: 根据孩子的信息(年龄、性别等)预测用户会购买什么样的商品; 根据父母的购买行为预测孩子的年龄。 分析流程: 提出问题 理解 ...
阅读全文 »

探索性数据分析基本流程

发表于 2019-05-14 | 分类于 technique summary
以分析数据集未前往就诊的预约挂号为例,总结一下探索性数据分析的基本流程。 目录 简介 提出问题 理解数据 数据清洗 探索性数据分析(建立指标模型与可视化) 结论/交流 简介 数据集的简介 数据来源kaggle,未前往就诊的挂号预约指一个人预约了医生,收到了所有的指示却没有按约去医院就诊。 ...
阅读全文 »

淘宝婴儿用品销售数据EDA之遇到的问题总结

发表于 2019-05-09 | 分类于 technique summary
在阿里天池下载的淘宝天猫婴儿用品销量数据集,数据的背景介绍可参见数据出处或者这里。 在用Python对该数据进行初步业务指标分析后,我遇到了一些问题,这里做下总结。 本文主要内容,包含以下两方面: 1 . 在数据清洗过程,遇到了什么问题?有什么需要注意的? 2 . 模型构建过程,即分析了哪些业务指标 ...
阅读全文 »

NumPy与Pandas的查漏补缺

发表于 2019-05-07 | 分类于 technique summary
使用 NumPy 而不是列表的原因 NumPy是Scipy,Pandas的基础库,它提供的数据结构是Python数据分析的基础。 在Python本身的列表中,保存的是对象的指针。 比如,存一个简单数组[0,1,2],就需要3个指针和3个整数对象,比较费内存和计算时间。且因为list的元素在系统内存 ...
阅读全文 »

易忘易忽略的Python入门知识点-续(二)

发表于 2019-05-06 | 分类于 technique summary
模块与包 模块 模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。 可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 python 标准库的方法。 一个模块只会被导入一次,不管你执行了多少次import。 Python的搜索路径,搜索路径是由一系列目录名组成的,Python ...
阅读全文 »
12…7
iPine

iPine

Hello, it's me

63 日志
10 分类
22 标签
GitHub E-Mail
Links
  • Leeon Notes
© 2018 — 2019 iPine
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4