显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

互联网产品经理的窝

梦想社:一个人为了梦想,始终没有停下自己的脚步

 
 
 
 
 
 

如何选择机器学习分类器?

2014-7-29 19:50:49 阅读460 评论0 292014/07 July29

你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。

你的训练集有多大?

如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。

你也可以认为这是生成模型与判别模型的区别。

一些特定算法的优点

朴素贝叶斯的优点:超级简单,你只是在做一串计算。如果朴素贝叶斯(NB)条件独立性假设成立,相比于逻辑回归这类的判别模型,朴素贝叶斯分类器将收敛得更快,所以你只需要较小的训练集。而且,即使NB假设不成立,朴素贝叶斯分类器在实践方面仍然表现很好。如果想得到简单快捷的执行效果,这将是个好的选择。它的主要缺点是,不能学习特征之间的相互作用(比如,它不能学习出:虽然你喜欢布拉德·皮特和汤姆·克鲁斯的电影,但却不喜欢他们一起合作的电影)。

逻辑回归的优点:有许多正则化模型的方法,你不需要像在朴素贝叶斯分类器中那样担心特征间的相互关联性。与决策树和支撑向量机不同,你还可以有一个很好的概率解释,并能容易地更新模型来吸收新数据(使用一个在线梯度下降方法)。如果你想要一个概率框架(比如,简单地调整分类

作者  | 2014-7-29 19:50:49 | 阅读(460) |评论(0) | 阅读全文>>

二维码的生成细节和原理

2013-12-12 14:06:05 阅读601 评论0 122013/12 Dec12

二维码又称QR Code,QR全称Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的Bar Code条形码能存更多的信息,也能表示更多的数据类型:比如:字符,数字,日文,中文等等。这两天学习了一下二维码图片生成的相关细节,觉得这个玩意就是一个密码算法,在此写一这篇文章 ,揭露一下。供好学的人一同学习之。

关于QR Code Specification,可参看这个PDF:http://raidenii.net/files/datasheets/misc/qr_code.pdf 

基础知识

首先,我们先说一下二维码一共有40个尺寸。官方叫版本Version。Version 1是21 x 21的矩阵,Version 2是 25 x 25的矩阵,Version 3是29的尺寸,每增加一个version,就会增加4的尺寸,公式是:(V-1)*4 + 21(V是版本号) 最高Version 40,(40-1)*4+21 = 177,所以最高是177 x 177 的正方形。

下面我们看看一个二维码的样例:

定位图案Position Detection Pattern是定位图案,用于标记二维码的矩形大小。这三个定位图案有白边叫Separators for Postion Detection Patterns。之所以

作者  | 2013-12-12 14:06:05 | 阅读(601) |评论(0) | 阅读全文>>

Understanding Hadoop Clusters and the Network

2013-8-14 10:03:15 阅读1261 评论0 142013/08 Aug14

Understanding Hadoop Clusters and the Network

This article is Part 1 in series that will take a closer look at the architecture and methods of a Hadoop cluster, and how it relates to the network and server infrastructure.  The content presented here is largely based on academic work and conversations I’ve had with customers running real production clusters.  If you run production Hadoop clusters in your data center, I’m hoping you’ll provide your valuable insight in the comments below.  Subsequent articles to this will cover the server and network architecture options in closer detail.  Before we do that though, lets start by learning some of the basics about how

作者  | 2013-8-14 10:03:15 | 阅读(1261) |评论(0) | 阅读全文>>

If you’re building a product, you have to be great at saying No. Not ‘maybe’ or ‘later’. The only word is No.

Building a great product isn’t about creating tonnes of tactically useful features which are tangentially related. It’s about delivering a cohesive product with well defined parameters.

As Apple’s latest advert points out, there are literally tens of thousands of permutations of your product based on every addition, both minor and major. Most of these variations will flop. Only a select few will properly serve the market.

So many reasons to say yes

When your product gets traction, you’ll find yourself inundated with good ideas for features. These will come

作者  | 2013-7-26 8:56:59 | 阅读(560) |评论(0) | 阅读全文>>

python操作Excel读写(使用xlrd和xlrt)

2013-6-20 10:11:17 阅读613 评论0 202013/06 June20

传说中python操作ms office功能最强大的是win32com(据说只要人工能操作的它都能实现,未尝试尚不知道真假),不过对于比较简单的需求显得有些小题大作。那么来看下简单的,分别是xlrd和xlwt模块。

xlrd

http://pypi.python.org/pypi/xlrd

简单使用

导入

import xlrd

打开excel

data = xlrd.open_workbook('demo.xls') #注意这里的workbook首字母是小写

查看文件中包含sheet的名称

data.sheet_names()

得到第一个工作表,或者通过索引顺序 或 工作表名称

table = data.sheets()[0]

table = data.sheet_by_index(0)

table = data.sheet_by_name(u'Sheet1')

获取行数和列数

nrows = table.nrows

ncols = table.ncols

获取整行和整列的值(数组)

table.row_values(i)

table.col_values(i)

循环行,得到索引的列表

for rownum in range(table.nrows):

print table.row_values(rownum)

作者  | 2013-6-20 10:11:17 | 阅读(613) |评论(0) | 阅读全文>>

Matplotlib Tutorial(译)

2013-6-3 21:49:44 阅读14902 评论0 32013/06 June3

这个教程基于可以从scipy lecture note得到的 Mike Müller的教程

源代码可从这里获得。图像在figures文件夹内,所有的脚本位于scripts文件夹。

所有的代码和材料以Creative Commons Attribution 3.0 United States License (CC-by)发布。

特别感谢Bill Wing和Christoph Deil的检查和校正。

引言

matplotlib大概是被使用最多的二维绘图Python包。它不仅提供一个非常快捷的用python可视化数据的方法,而且提供了出版质量的多种格式图像。我们将要探索matplotlib包含最常见情况的交互模式。

Ipython 和 pylab模式

IPython是一个增强的Python交互shell,它拥有很多有趣的特性包括被命名的输入与输出,可使用shell命令,增强的调试和许多其它特性。当我们在命令参数中用-pylab(自从IPython0.12版变成--pylab),它容许交互的matplotlib会话有像Matlab/Mathematica样的功能。

pylab

pylab提供了一个针对matplotlib面向对象绘图库的程序界面。它模仿Matlab(TM)开发。因此,pylab大部分的绘图命令和参数和Matlab(TM)相似。重要的命令被交互示例解释。

简单绘图

作者  | 2013-6-3 21:49:44 | 阅读(14902) |评论(0) | 阅读全文>>

python-django的中文编码总结

2013-6-2 19:43:45 阅读504 评论0 22013/06 June2

最近在使用django的过程中,发现之前对中文编码的理解并不怎么正确,在此记录一下。

1.在所有需要显式使用中文的地方加上#-*- coding: UTF-8 -*-标识,(包括注释中的中文和代码中字符串的中文) 

2.django在db中存储的数据是经过encode的,但是通过模型取出的数据,是经过decode的。 

3.python中在进行字符串连接的时候,必须保证所有的子字符串编码或者未编码一致

OK,先从最简单的赋值开始。如下代码:

#!/usr/bin/python 

#-*- coding: UTF-8 -*- 

import logging 

logging.basicConfig(level=logging.DEBUG, 

        format='%(asctime)s %(levelname)s %(message)s', 

        filename='log.txt', 

        filemode='a+') 

x = '我爱你' 

作者  | 2013-6-2 19:43:45 | 阅读(504) |评论(0) | 阅读全文>>

Python教程:numpy的基本介绍

2013-6-2 19:15:36 阅读5065 评论0 22013/06 June2

标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。

此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比较类似。但是由于它不支持多维,也没有各种运算函数,因此也不适合做数值运算。

NumPy的诞生弥补了这些不足,NumPy提供了两种基本的对象:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray(下文统一称之为数组)是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数

简单的示范

1

2

3

4

5

6

7

8

9

10

import numpy as np

a = np.arange(10)

print(a)

a.reshape(2,5)

print(a)

print(a.dtype)

print(a.shape)

print(a.ndim)

print(a.size)

print(type(a))

作者  | 2013-6-2 19:15:36 | 阅读(5065) |评论(0) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 

日历

 
 
模块内容加载中...
 
 
 
 
 

日志分类

 
 
日志分类列表加载中...
 
 
 
 
 

归档

 
 
数据加载中...
 
 
 
 
 
 
 

海外 日本 双鱼座

 发消息  写留言

 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
 
 
 
 
网易云音乐 曲目表歌词秀
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Country Flags

 
 
模块内容加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017

注册 登录  
 加关注