查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

互联网产品经理的窝

梦想社:一个人为了梦想,始终没有停下自己的脚步

 
 
 
 
 
 

如何选择机器学习分类器?

2014-7-29 19:50:49 阅读587 评论0 292014/07 July29

你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。

你的训练集有多大?

如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。

你也可以认为这是生成模型与判别模型的区别。

一些特定算法的优点

朴素贝叶斯的优点:超级简单,你只是在做一串计算。如果朴素贝叶斯(NB)条件独立性假设成立,相比于逻辑回归这类的判别模型,朴素贝叶斯分类器将收敛得更快,所以你只需要较小的训练集。而且,即使NB假设不成立,朴素贝叶斯分类器在实践方面仍然表现很好。如果想得到简单快捷的执行效果,这将是个好的选择。它的主要缺点是,不能学习特征之间的相互作用(比如,它不能学习出:虽然你喜欢布拉德·皮特和汤姆·克鲁斯的电影,但却不喜欢他们一起合作的电影)。

逻辑回归的优点:有许多正则化模型的方法,你不需要像在朴素贝叶斯分类器中那样担心特征间的相互关联性。与决策树和支撑向量机不同,你还可以有一个很好的概率解释,并能容易地更新模型来吸收新数据(使用一个在线梯度下降方法)。如果你想要一个概率框架(比如,简单地调整分类

作者  | 2014-7-29 19:50:49 | 阅读(587) |评论(0) | 阅读全文>>

R语言编程入门 B

2013-5-14 16:22:02 阅读1890 评论0 142013/05 May14

V. 向量化运算

和matlab一样,R语言以向量为基本运算对象。也就是说,当输入的对象为向量时,对其中的每个元素分别进行处理,然后以向量的形式输出。R语言中基本上所有的数据运算均能允许向量操作。不仅如此,R还包含了许多高效的向量运算函数,这也是它不同于其它软件的一个显著特征。向量化运算的好处在于避免使用循环,使代码更为简洁、高效和易于理解。本文来对apply族函数作一个简单的归纳,以便于大家理解其中的区别所在。

所谓apply族函数包括了apply,sapply,lappy,tapply等函数,这些函数在不同的情况下能高效的完成复杂的数据处理任务,但角色定位又有所不同。

apply()函数的处理对象是矩阵或数组,它逐行或逐列的处理数据,其输出的结果将是一个向量或是矩阵。下面的例子即对一个随机矩阵求每一行的均值。要注意的是apply与其它函数不同,它并不能明显改善计算效率,因为它本身内置为循环运算。

1m.data <- matrix(rnorm(100),ncol=10)

2apply(m.data,1,mean)

lappy()的处理对象是向量、列表或其它对象,它将向量中的每个元素作为参数,输入到处理函数中,最后生成结果的格式为列表。在R中数据框是一种特殊的列表,所以数据框的列也将作为函数的处理对象。下面的例子即对一个数据框按列来计算中位数与标准差。

1f.data <- data.frame(x=rnorm(10),y=runif(10))

作者  | 2013-5-14 16:22:02 | 阅读(1890) |评论(0) | 阅读全文>>

中国在线旅游市场行业市场分析报告

2013-4-9 13:30:12 阅读202 评论0 92013/04 Apr9

作者  | 2013-4-9 13:30:12 | 阅读(202) |评论(0) | 阅读全文>>

顶尖产品经理有哪些特质?

2013-3-6 0:46:37 阅读186 评论0 62013/03 Mar6

在产品经理的金字塔中,占据塔尖10%的都具备下述特点中的几条,而塔尖1%的产品经理则具备以下所有品质。

视野开阔。塔尖1%的产品经理思维不会被今天或当今市场环境中可以获取的资源所限制。他们会描绘出颠覆性的大机遇,并为抓住这些机遇而制定具体计划。

交流。1%产品经理的提议是无法反驳或忽略的。他们会恰到好处地使用可以得到的数据,但也会利用偏好、信念以及激将法等让掌权者乖乖拿出经费、资金或其他资源并不再加以阻挠。

简化。1%的产品经理知道如何投入20%的精力从任何产品功能或项目中汲取80%的价值。他们不断重复这一过程,发布更多项目或并为产品或业务带来复合回报效应。

分清主次。1%的产品经理知道如何按照主次轻重对项目进行排序。他们能够在速战速决与平台投资之间找到平衡;也可以在主动出击与防御项目间取得平衡。主动攻击是指那些业务增长型项目,而防御则是那些业务保护以及消除业务阻力(运算、清除“技术债”,消灭bug等等)的项目。

预测与衡量。1%的产品经理能够预测一个项目的大致收益,并且能够应用过去经验并利用具有可比性的参照标准实现高效预测。他们也会在项目开展之后衡量收益,并将所学到的经验教训应用到未来的项目排序以及收益预测中去。

执行。1%的产品经理会迎难而上。为出成果,他们会做任何需要的工作。他们理解中的职责,是不存在任何具体界限的。只要有必要,他们就会招募人才、制作按钮、开发业务、做升级、与内部律师作斗争……

理解技术上的权衡。这1%的产品经理不一定拥有计算机科学学位,但却需要大致理解他们对

作者  | 2013-3-6 0:46:37 | 阅读(186) |评论(0) | 阅读全文>>

为什么互联网产品的成功率这么低

2013-3-5 18:26:38 阅读137 评论0 52013/03 Mar5

收到一封创业者写满沮丧的来信,回信安抚了几句,解释为什么互联网产品(不含游戏)的成功率这么低。这个话题我以前在博客里讲过,还可以再讲一次。

众所周知,互联网新产品的成功率可能不足1%。不成功的产品勉强维持几年,终究还是会化为粉末。相当于互联网新产品的存活率可能不足1%。

讲这件事,首先得对成功产品下一个定义:譬如有独特的品牌价值,有相当大的用户量,以及可靠的盈利模式。没错,能达到标准的不足1%,别的都只不过是炮灰。如此高失败率的原因是:

1、马太效应

互联网的马太效应有两个强劲的发动机,第一是渠道的扁平化。

相对传统行业对渠道的依赖性,互联网到达成本为零。你可能选择家门口的便利店,哪怕它买牛奶贵5毛钱,但比大超市少走15分钟路;然而到达任何一个网站都只需要输入网址——用户自然会选择他知道的最大,最好,最有名气的互联网产品,直至形成稳固的使用习惯。渠道差异带来的市场多元化在互联网上几乎不存在,大者恒大。

第二个发动机是体验的单一性。人体有多种感官能力,对于互联网产品来说,大部分感知仅仅由脑补来完成,盯住小屏幕动动手指头就好。相对现实体验,由互联网而触动的身体感知是极为单调的(哪怕它很强烈)。简单点说,就是产品之间高度的同质化。什么“极致体验”都是自吹自擂,两款同类型App的差异,可能远小于岐山臊子面与重庆小面的口感区别,甚至是正宗重庆小面与上海改良版微辣重庆小面的区别。

所以,互联网在同一需求领域注定只有极少数强大的生存者,而用户需求本身是有限的,可供开采的市场也是有限的。在泰坦尼克号上,坐不上救生艇的人哪怕抓住一块木板,最终也会在冰水中悲惨地死去。

作者  | 2013-3-5 18:26:38 | 阅读(137) |评论(0) | 阅读全文>>

关于2013年百度的年终奖

2013-2-10 12:54:48 阅读488 评论0 102013/02 Feb10

对敢发“0年终奖”的上市公司表示理解,并且支持。大公司有大锅饭。尤其在业绩猛涨的年头,白富美和高富帅都觉得锦衣玉食是理所当然,也不问自己是做了贡献还是拖了后腿。只要对同事刚柔并济,对上司唯唯诺诺,就有好日子。

给你0年终奖就是用盆冷水把你浇醒。习惯吃免费午餐而不自知,你脚下就是泰坦尼克。

不过本文重点在下面。

微博上炒得热火的网易和百度的“0年终奖”。其实都不对。

网易一直实行季度奖+年终奖的形式。并且把季度奖的一部分,挪到年底以年终奖的形式来发。你每个季度拿到的奖金,其实是年终奖预支。就算年终没拿到钱,但只是总的奖金数量少了些而已。

百度的奖金评估包含公司系数0.3和个人系数0.7。这一次,公司系数破天荒的是0。但个人系数不会是0,因人而异。也就是说,个人的努力还是会得到奖金。且个人因素占奖金的大部分,70%。

所以“0年终奖”是个误传。内部有妖孽拿着一言半语往外捅。外部就跟着起哄。各有各的心思。

问题的核心在于。网易为什么要给门户部门发信,说年终奖为0。据说是2012销售没完成业绩。百度为什么给公司系数定成0。大家都明白,2012遇到前所未有的挑战,移动面临瓶颈。

不过往下走一步,细节里大有不同。

搞清楚了这些不同,你就知道一个几十亿美金的公司跟一个几百亿美金的公司,确实根子上就不一样。那不是说一句“一命二运三风水”就能遮掩过去的。

第一。网易门户部门员工得到的信息是,年终奖为0。潜台词是,谁叫你们不好好干活呢。

百度是公司系数为0。个人系数照算。潜台词是,公司遇到瓶颈,但个人的努力仍有回报。

作者  | 2013-2-10 12:54:48 | 阅读(488) |评论(0) | 阅读全文>>

移动产业中,地理位置信息的真相

2013-2-5 14:25:20 阅读164 评论0 52013/02 Feb5

只有5%到10%的移动广告包含真实的GPS生成的经纬度数据

虎嗅注:LBS(基于位置的服务)是移动互联网的一大特点。而LBS的基础则是用户的地理位置数据。这些数据如何产生、其真实准确性如何、广告主依据什么来进行投入、这里面牵涉到多大的隐私问题……对广告主而言,这些是真实而有用的问题。

今天,我们翻译了来自BI Intelligence的一份报告,将地理位置信息的几个“真相”呈现给大家。

虎嗅根据原文进行了节选编译:

地理位置信息已经开始渗透进入整个移动产业,为广告功能提供支持,也包括许多其他服务——从天气查询到旅行应用。

TomiAhonen Consulting的数据显示,全球有12亿台智能手机设备,其中有7.7亿装备了GPS。收集的地理数据不断累积,形成了对于应用发布和移动营销来说都很有价值的信息源。

在下面这份报告里,我们将会指出该领域出现的新机会,介绍一些背后的技术,并探讨隐私问题。

地理位置信息是怎么产生的?——

GPS和它的朋友们

GPS信息及其产生的“经纬度”标签被公认为地理数据的标准。但还有至少其他四种方法来定位地理位置,有时则使用混合的方式。这些技术将采用不同的步骤来估算你的位置:

蜂窝塔数据:当GPS芯片无法收到GPS信号时(通常在室内有这种情况),设备会和蜂窝塔(cell tower)进行通讯,报告它的地址,并估算大概的距离方位。这种方式不如纯GPS数据精确。

作者  | 2013-2-5 14:25:20 | 阅读(164) |评论(0) | 阅读全文>>

关于移动互联网,六问百度腾讯阿里三巨头

2013-1-23 10:55:12 阅读322 评论0 232013/01 Jan23

谁都知道移动互联网是未来,而对百度、腾讯、阿里这类大的互联网公司来说,具体说是每个领导者案头改过几十遍的PPT,或整合,或拆分,或加大投入,或黯然退出,举棋不定。

作为一个行业观察者,我是一个悲观主义者,不太看好移动互联网中短期的成长,更认为移动互联网过快的发展,有可能进一步洞穿现有行业的盈利法则。对大公司而言,会是前所未有的威胁,对创业者而言,更是翻越不了的沟壑。

我草拟了6个问题,分别是营收、核心业务、移动策略、发展预测、威胁挑战和额外的机会,用同样的问题来解读行业的领头羊(即这篇文章中的百度阿里巴巴腾讯,BAT),看看移动互联网,对它们来说分别意味着什么。

百度:移动时代的亮相失败

Q1:移动互联网的兴起对百度的营收冲击有多大?

百度在2012年Q2、Q3的营收同比增长只有59.8%和49.7%,而此前8次财报里,营收同比增长从未低于70%。我的判断是,即便在Q4这个营收黄金季,百度的营收增速也不可能重上80%。瑞信等多家投行纷纷调低了对百度的业绩预期,是一个不好的信号。

不能简单地把搜索下降的主因归咎于移动互联网的兴起,但至少现阶段,用户花更多时间在移动端,会是负面影响。一方面,百度的移动端搜索体验尚不理想,部分搜索需求未能满足;另一方面,百度在移动搜索的市场份额优势有所减弱。

Q2:百度的核心业务在移动互联网上表现如何?

百度的主要收入来自搜索广告。但在移动互联网上,搜索广告的曝光率和点击率都明显低于PC端。同时,很多老客户在移动网站的建设上要比Web滞后多了,这也影响到广告投放的效率。

作者  | 2013-1-23 10:55:12 | 阅读(322) |评论(0) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 

日历

 
 
模块内容加载中...
 
 
 
 
 

日志分类

 
 
日志分类列表加载中...
 
 
 
 
 

归档

 
 
数据加载中...
 
 
 
 
 
 
 

海外 日本 双鱼座

 发消息  写留言

 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
 
 
 
 
网易云音乐 曲目表歌词秀
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Country Flags

 
 
模块内容加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018

注册 登录  
 加关注