对即将学习大数据专业的学生有什么建议和推荐的书籍?
《Big Data》
这是一本在大数据的背景下,描述关于数据建模,数据层,数据处理需求分析以及数据架构和存储实现问题的书。
《数据挖掘》
这是一本关于数据挖掘领域的综合概述,本书前版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。
思考统计数据:程序员的概率和统计数据》 作者:Allen B. Downey
《黑客的概率编程和贝叶斯方法》 作者:Cam Davidson-Pilon
《统计思维:程序员数学之概率统计》
黑客到底比普通程序员高在哪里?
这是个非常奇怪的问题,可能提出这个问题就不是非常了解黑客和程序员这两个职业,其实我更喜欢称黑客为网络安全工作者,虽然都是码代码的,但是其工作的目的性完全不同,作为一个程序猿,你的产品是面向大众,所以他们追求的是程序的实用性,稳定性,以及重复性,他们最宝贵的不是他们的技术,而是创意,一个软件程序的创意,好的程序员有很多,但好的想法和创意就很少,只要有了创意,有大把的程序员可以写出好程序。而所谓的黑客他们更加注重自身的技术,即使是创造,他们创造的也是一些算法,而且由于网络安全的逐渐完善,正真能够创造出新东西的黑客越来越少,他们多半就职于一些大型网络企业,或者国家部门当中,那些人我们则称为网络安全专家,黑客的创造与程序员的创意本质的差别就是,黑客更趋近于计算上,而程序员更贴近于生活,一个好的软件,好的游戏,不是简简单单一个段程序,一个人就可以完成的,一个优秀贴图师和建模师,他们不一定需要知道他们用的软件的底层代码是什么,但是他们一定在美术,色彩等方面有着极深的造诣。所以说拿黑客和程序员直接比较,是非常欠妥的。一个好的程序员不一定是一名优秀的黑客,一名好的黑客也不一定是一个出色的程序员。程序员为我们描绘出了一个丰富多彩的虚拟世界,让我们享受到了更加舒适便利的生活。而网络公司工作者们为这个美丽的世界制定了秩序与规则,让我们支付宝里的钱不会无缘无故的消失。职业无贵贱,如果硬要说黑客比程序员多了些什么,那么可能就是他们更加默默无闻,更加神秘吧。
在线建模渲染的数据安全可以保障吗,会不会被人盗取啊丢失啊之类的
一般的渲染平台都会对数据有基本的安全保障。比如蓝海创意云渲染上的渲染农场对建模数据提供24小时安全保护,有专业工程师时时监控建模数据,同时,如用户有所需要,可和创意云渲染签订保密协议,在渲染频道页面底部,有安全协议下载。客服也会一直在线
什么是“增长黑客”?概念是什么?希望可以得到详解!
套用现在的一些热点词,就是用互联网思维做营销。或者说是以数据/工程师的方式去驱动用户/产品的增长
大数据时代真的来了吗 数学建模
真正的大数据时代应该没有喜不喜欢只有愿不愿意。
现阶段通过所谓的大数据功能,搜索引擎、电商平台、社交平台都可以根据用户喜好进行热点推送。除去那些商家花钱的硬推广告之外还是有许多按照个人喜好推送的物件和消息的。以购物为例,某阶段,用户需要某些东西进行了搜索购买,但因为频繁搜索,被半智能的大数据定义为“喜欢”于是进行了相关信息推送。
但这些物件已经购买完毕所以在推送不会因为好奇和喜欢再次重复购买。真正的大数据在这一块可以做的更全面。比如用户购买的是一箱苹果,那么可以智能识别一到两周后再次推送。而用户买的是红酒则自动推送冰桶、启瓶器、高脚杯或是雪碧。所以真正的大数据推送信息不应根据喜欢偏好进行,而是应该通过是否愿意接收这些讯息进行推送。
当真正的大数据时代来临安全也许根本不是问题。
很多人会担心那些出现在互联网身上的安全隐患统统会出现在物联网身上,而在物联网上的安全问题会给人们带来更大的伤害。当然,这很多人之中包括笔者。而经过对大数据的深入了解,和对大数据未来发展的预估。笔者突然发现一个很重要的实时:物联网的正常运行和发展离不开大数据,而真正的大数据要比人类聪明的多。
大数据是集合了人类所有的智慧结晶和数据资源,同时,完善的大数据具有自我手机学习功能。在日前召开的2015中国大数据技术大会上美国俄亥俄州立大学计算机科学与工程系主任张晓东教授表示,现阶段我们所应用的大数据中的数据采集90%源自近两年。而随着移动互联网化的加强和可穿戴设备的兴起,人们的每一个行为和操作都可以被精确采集并收入大数据库。
这样比任何人都知识量丰富的大数据即便遇见大脑80%倍应用的人类也是可以对抗的,而人们只要在硬件装置设置上标注上“不准害人”并精确的列出圆满的不伤害人类条例。就可以将物联网安全交给大数据去处理了。无论是黑客攻击还是区域故障。
当然,这一切的前提是大数据的全部潜能都被完整开发出来,也就是不仅可以根据需求供给还能自主判断供给的时候。当然这是一条艰辛的路。实现大数据完全颠覆人类生活的时间定义在二十年之后。或许还会更久。
大数据时代来了吗?来了!只是还在行走和进化,还不是最理想最完整的它。
想听大家对于一道密码设计的数学建模题
公钥密码又称为双钥密码和非对称密码,是1976年由Daffy和Hellman在其“密码学新方向”一文中提出的,见划时代的文献:
W.Diffie and M.E.Hellman, New Directrions in Cryptography, IEEE Transaction on Information Theory, V.IT-22.No.6, Nov 1976, PP.644-654
单向陷门函数是满足下列条件的函数f:
(1)给定x,计算y=f(x)是容易的;
(2)给定y, 计算x使y=f(x)是困难的。
(所谓计算x=f-1(Y)困难是指计算上相当复杂,已无实际意义。)
(3)存在δ,已知δ 时,对给定的任何y,若相应的x存在,则计算x使y=f(x)是容易的。
注:1*. 仅满足(1)、(2)两条的称为单向函数;第(3)条称为陷门性,δ 称为陷门信息。
2*. 当用陷门函数f作为加密函数时,可将f公开,这相当于公开加密密钥。此时加密密钥便称为公开钥,记为Pk。 f函数的设计者将δ 保密,用作解密密钥,此时δ 称为秘密钥匙,记为Sk。由于加密函数时公开的,任何人都可以将信息x加密成y=f(x),然后送给函数的设计者(当然可以通过不安全信道传送);由于设计者拥有Sk,他自然可以解出x=f-1(y)。
3*.单向陷门函数的第(2)条性质表明窃听者由截获的密文y=f(x)推测x是不可行的。
Diffie和Hellman在其里程碑意义的文章中,虽然给出了密码的思想,但是没有给出真正意义上的公钥密码实例,也既没能找出一个真正带陷门的单向函数。然而,他们给出单向函数的实例,并且基于此提出Diffie-Hellman密钥交换算法。这个算法是基于有限域中计算离散对数的困难性问题之上的:设F为有限域,g∈ F是F的乘法群F*=F\{0}=g。并且对任意正整数x,计算gx是容易的;但是已知g和y求x使y= gx,是计算上几乎不可能的。这已问题称为有限域F上的离散对数问题。公钥密码学种使用最广泛的有限域为素域FP.
对Diffie-Hellman密钥交换协议描述:Alice和Bob协商好一个大素数p,和大的整数g,1gp,g最好是FP中的本原元,即FP*=g。p和g无须保密,可为网络上的所有用户共享。
当Alice和Bob要进行保密通信时,他们可以按如下步骤来做:
(1)Alice送取大的随机数x,并计算
X=gx(mod P)
(2)Bob选取大的随机数x,并计算X = gx (mod P)
(3)Alice将X传送给Bob;Bob将X 传送给Alice。
(4)Alice计算K=(X )X(mod P);Bob计算K =(X) X (mod P),易见,K=K =g xx (mod P)。
由(4)知,Alice和Bob已获得了相同的秘密值K。双方以K作为加解密钥以传统对称密钥算法进行保密通信。
注:Diffie-Hellman密钥交换算法拥有美国和加拿大的专利。
3 RSA公钥算法
RSA公钥算法是由Rivest,Shamir和Adleman在1978年提出来的(见Communitions of the ACM. Vol.21.No.2. Feb. 1978, PP.120-126)该算法的数学基础是初等数论中的Euler(欧拉)定理,并建立在大整数因子的困难性之上。
将Z/(n)表示为 Zn,其中n=pq; p,q为素数且相异。若
Z*n{g∈ Zn|(g,n)=1},易见Z*n为 (n)阶的乘法群,且有 g (n)1(mod n),而 (n)=(p-1)(q-1).
RSA密码体制描述如下:
首先,明文空间P=密文空间C=Zn.(见P175).
A.密钥的生成
选择p,q,p,q为互异素数,计算n=p*q, (n)=(p-1)(q-1), 选择整数e使( (n),e)=1,1e (n)),计算d,使d=e-1(mod (n))),公钥Pk={e,n};私钥Sk={d,p,q}。
注意,当0Mn时,M (n) =1(mod n)自然有:
MK (n)+1M(mod n), 而ed 1 (mod (n)),易见(Me)d M(mod n)
B.加密 (用e,n)明文:Mn 密文:C=Me(mod n).
C.解密 (用d,p,q)
密文:C 明文:M=Cd(mod n)
注:1*, 加密和解密时一对逆运算。
2*, 对于0Mn时,若(M,n) ≠ 1,则M为p或q的整数倍,假设M=cp,由(cp,q)=1 有 M (q) 1(mod q) M (q) (p) 1(mod q)
有M (q) = 1+kq 对其两边同乘M=cp有
有M (q)+1=M+kcpq=M+kcn于是
有M (q)+1 M(mod n)
例子:若Bob选择了p=101和q=113,那么,n=11413, (n)=100×112=11200;然而11200=26×52×7,一个正整数e能用作加密指数,当且仅当e不能被2,5,7所整除(事实上,Bob不会分解φ(n),而且用辗转相除法(欧式算法)来求得e,使(e, φ(n)=1)。假设Bob选择了e=3533,那么用辗转相除法将求得:
d=e -1 6597(mod 11200), 于是Bob的解密密钥d=6597.
Bob在一个目录中公开n=11413和e=3533, 现假设Alice想发送明文9726给Bob,她计算:
97263533(mod 11413)=5761
且在一个信道上发送密文5761。当Bob接收到密文5761时,他用他的秘密解密指数(私钥)d=6597进行解密:57616597(mod 11413)=9726
注:RSA的安全性是基于加密函数ek(x)=xe(mod n)是一个单向函数,所以对的人来说求逆计算不可行。而Bob能解密的陷门是分解n=pq,知 (n)=(p-1)(q-1)。从而用欧氏算法解出解密私钥d.
4 RSA密码体制的实现
实现的步骤如下:Bob为实现者
(1)Bob寻找出两个大素数p和q
(2)Bob计算出n=pq和 (n)=(p-1)(q-1).
(3)Bob选择一个随机数e(0e (n)),满足(e, (n))=1
(4)Bob使用辗转相除法计算d=e-1(mod (n))
(5)Bob在目录中公开n和e作为她的公开钥。
密码分析者攻击RSA体制的关键点在于如何分解n。若分
解成功使n=pq,则可以算出φ(n)=(p-1)(q-1),然后由公
开的e,解出秘密的d。(猜想:攻破RSA与分解n是多项式
等价的。然而,这个猜想至今没有给出可信的证明!!!)
于是要求:若使RSA安全,p与q必为足够大的素数,使
分析者没有办法在多项式时间内将n分解出来。建议选择
p和q大约是100位的十进制素数。 模n的长度要求至少是
512比特。EDI攻击标准使用的RSA算法中规定n的长度为
512至1024比特位之间,但必须是128的倍数。国际数字
签名标准ISO/IEC 9796中规定n的长度位512比特位。
为了抵抗现有的整数分解算法,对RSA模n的素因子
p和q还有如下要求:
(1)|p-q|很大,通常 p和q的长度相同;
(2)p-1 和q-1分别含有大素因子p1和q1
(3)P1-1和q1-1分别含有大素因子p2和q2
(4)p+1和q+1分别含有大素因子p3和q3
为了提高加密速度,通常取e为特定的小整数,如EDI国际标准中规定 e=216+1,ISO/IEC9796中甚至允许取e=3。这时加密速度一般比解密速度快10倍以上。 下面研究加解密算术运算,这个运算主要是模n的求幂运算。著名的“平方-和-乘法”方法将计算xc(mod n)的模乘法的数目缩小到至多为2l,这里的l是指数c的二进制表示比特数。若设n以二进制形式表示有k比特,即k=[log2n]+1。 由l≤ k,这样xc(mod n)能在o(k3)时间内完成。(注意,不难看到,乘法能在o(k2)时间内完成。)
平方-和-乘法算法:
指数c以二进制形式表示为:
c=
Xc=xc0×(x2)c1×…×(x2t-1)ct-1
预计算: x2=xx
x4=x22=x2x2
.
.
.
x2t-1 =x2t-2*x2t-2
Xc计算:把那些ci=1对应的x2i全部乘在一起,便得xc。至
多用了t-1次乘法。请参考书上的177页,给出计算
xc(mod n)算法程序:
A=xc c=c0+c12+..+ct-12t-1= [ct-1,....,c1,c0]2
5 RSA签名方案
签名的基本概念
传统签名(手写签名)的特征:
(1)一个签名是被签文件的物理部分;
(2)验证物理部分进行比较而达到确认的目的。(易伪造)
(3)不容易忠实地“copy”!!!
定义: (数字签名方案)一个签名方案是有签署算法与验
证算法两部分构成。可由五元关系组(P,A,K,S,V)来刻化:
(1)P是由一切可能消息(messages)所构成的有限集合;
(2)A是一切可能的签名的有限集合;
(3)k为有限密钥空间,是一些可能密钥的有限集合;
(4)任意k ∈K,有签署算法Sigk ∈ S且有对应的验证算法Verk∈V,对每一个
Sigk:p A 和Verk:P×A {真,假} 满足条件:任意x∈ P,y∈ A.有签名方案的一个签名:Ver(x,y)= {
注:1*.任意k∈K, 函数Sigk和Verk都为多项式时间函数。
2*.Verk为公开的函数,而Sigk为秘密函数。
3*.如果坏人(如Oscar)要伪造Bob的对X的签名,在计算上是不可能的。也即,给定x,仅有Bob能计算出签名y使得Verk(x,y)=真。
4*.一个签名方案不能是无条件安全的,有足够的时间,Oscar总能伪造Bob的签名。
RSA签名:n=pq,P=A=Zn,定义密钥集合K={(n,e,p,q,d)}|n=pq,d*e1(mod (n))}
注意:n和e为公钥;p,q,d为保密的(私钥)。对x∈P, Bob要对x签名,取k∈K。Sigk(x) xd(mod n)y(mod n)
于是
Verk(x,y)=真 xye(mod n)
(注意:e,n公开;可公开验证签名(x,y)对错!!也即是否为Bob的签署)
注:1*.任何一个人都可对某一个签署y计算x=ek(y),来伪造Bob对随机消息x的签名。
2*.签名消息的加密传递问题:假设Alice想把签了名的消息加密送给Bob,她按下述方式进行:对明文x,Alice计算对x的签名,y=SigAlice(x),然后用Bob的公开加密函数eBob,算出
Z=eBob(x,y) ,Alice 将Z传给Bob,Bob收到Z后,第一步解密,
dBob(Z)=dBobeBob(x,y)=(x,y)
然后检验
VerAlice(x,y)= 真
问题:若Alice首先对消息x进行加密,然后再签名,结果
如何呢?Y=SigAlice(eBob(x))
Alice 将(z,y)传给Bob,Bob先将z解密,获取x;然后用
VerAlice检验关于x的加密签名y。这个方法的一个潜在问
题是,如果Oscar获得了这对(z,y),他能用自己的签名来
替代Alice的签名
y=SigOscar(eBob(x))
(注意:Oscar能签名密文eBob(x),甚至他不知明文x也能做。Oscar传送(z,y )给Bob,Bob可能推断明文x来自Oscar。所以,至今人么还是推荐先签名后加密。)
6.EIGamal方案
EIGamal公钥密码体制是基于离散对数问题的。设P
至少是150位的十进制素数,p-1有大素因子。Zp为有限域,
若α为Zp中的本原元,有Zp* =α。若取β∈Zp*=Zp\{0},
如何算得一个唯一得整数a,(要求,0≤a≤ p-2),满足
αa=β(mod p)
将a记为a=logαβ
一般来说,求解a在计算上是难处理的。
Zp*中的Egamal公钥体制的描述:设明文空间为P=Zp*,密文空
间为C=Zp*×Zp*,定义密钥空间K={(p, α,a, β )|β=αa(mod p)}
公开钥为:p, α ,β
秘密钥(私钥):a
Alice 取一个秘密随机数k∈ Zp-1,对明文x加密
ek(x,k)=(y1,y2)
其中, y1=αk(mod p),y2=xβk(mod p)
Bob解密,
dk(y1,y2)=y2(y1α)-1(mod p)
注:1*.容易验证y2(y1α)-1=x(αa)k(αka)-1=x !!
2*.利用EIGamal加密算法可给出基于此的签名方案:
Alice 要对明文x进行签名,她首先取一个秘密随机数k作
为签名
Sigk(x,k)=( , )
其中 =αk(mod p), =(x-a )k-1(mod p-1)
对x, ∈Zp*和 ∈ Zp-1,定义Verk(x, ,)=真等价于
βα=αx(mod p)
要说明的是,如果正确地构造了这个签名,那么验证将
是成功的,因为
βα= αa αk (mod p)= αa+k (mod p)
由上面知道, =(x- a)k-1(mod p-1)可以推出
k=x- a(mod p-1)有a+kx(mod p)
所以 β = αx (mod p)
该签名方案已经被美国NIST(国家标准技术研究所)确定为签名标准(1985)。
有关RSA方面的内容,请访问网址:
www.RSAsecurity.com
数据分析师常用的数据分析思路
01 细分分析
细分分析是数据分析的基础,单一维度下的指标数据信息价值很低。
细分分析法可以大致分为两类,一类是逐步分析,如:来北京市的访客可分为朝阳和海淀等区;另一类是维度交叉,如:来自付费SEM的新访客。
02 对比分析
对比分析主要是把两个有关联的数据指标进行相互比较,从数量上说明和展现研究对象的规模大小,水平的高低,速度快慢等方面的相对值,然后通过在一样的维度下的指标数据对比,可以发现,找出业务在不同阶段的问题。
03 漏斗分析
转化漏斗分析是数据分析师进行业务分析的基本模型,我们最经常见的就是把最终的转化设置为某种目的的实现,最典型的就是完成交易。但也可以是其他任何目的的实现,比如一次使用app的时间超过10分钟。
04 同期群分析
同期群(cohort)分析在数据分析运营领域相当重要,尤其是互联网运营,特别需要仔细观察留存的情况。通过对性质完全一样的可对比群体的留存情况的比较,来分析哪些因素影响用户的留存。
05 聚类分析
聚类分析具有简单,直观的特征,网站分析中的聚类主要分为:用户,页面或内容,来源。
用户聚类主要体现为用户分群,用户标签法;页面聚类则主要是相似,相关页面分组法;来源聚类主要包括渠道,关键词等。
06 AB测试
增长黑客的一个主要思想之一,是千万不要做一个大又全的东西,相反是需要不断做出能够快速验证的小而精的东西。快速验证,那如何验证呢?主要方法就是AB测试。
07 埋点分析
只有采集了足够的基础数据,才能通过各种分析方法得到需要的分析结果。
通过分析用户行为,并细分为:浏览行为,轻度交互,重度交互,交易行为,对于浏览行为和轻度交互行为的点击按钮等事件,因其使用频繁,数据简单,采用无埋点技术实现自助埋点,即可以提高数据分析的实效性,需要的数据可立即提取,又大量减少技术人员的工作量,需要采集更丰富信息的行为。
08 来源分析
流量红利消失,我们对获客来源的重视度极高,如何有效的标注用户来源,至关重要。
传统分析工具,渠道分析仅有单一维度,要深入分析不同渠道不同阶段效果,SEM付费搜索等来源渠道和用户所在地区进行交叉分析,得出不同区域的获客详细信息,维度越细,分析结果也越有价值。
09 用户分析
众所周知,用户分析是互联网运营的核心环节,通常用到的分析方法有:活跃分析,留存分析,用户分群,用户画像,用户细查等。可将用户活跃细分为浏览活跃,互动活跃,交易活跃等,通过活跃行为的细分,掌握关键行为指标。
10 表单分析
表单分析中的填写表单,这个环节是每个平台与用户交互的必有环节,一份完美的表单设计,对客户转化率的提升有至关重要的作用。
用户进入表单页面,这时候就已经产生了微漏斗,从进入的总共的人数到最后完成,并且成功提交表单人数,这个过程之中,有多少人开始填写表单,填写表单时,遇到了什么困难导致无法完成表单,都影响最终的转化效果。
有关数据分析师常用的数据分析思路的内容,青藤小编就和您分享到这里了。如果您对互联网大数据有着浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于大数据、数据分析师的技巧及素材等内容,可以点击本站的其他文章进行学习。
没有简单拖拽就可以建模的数据分析和挖掘工具呢,就是不用写复杂的代码那种?
二、数据可视化
1、Excel可视化图表
产品经理经常做沟通汇报,如何将枯燥的业务数据更形象的展示呢?新版Excel提供了非常实用的数据模版,给人耳目一新的感觉,赶快去试试吧。
2、Excel三维地图(PowerMap)
三维插件对接了地图数据, 只要在表格中录入城市名称或经纬度数据,即可把数据标记在地球上,如果同时录入了时间数据,就可以看数据演变的过程 。
再贴几张歪果仁做的神图,啥才是真正的“不明觉厉”。
3、 BDP个人版
功能介绍:产品经理或运营人员经常要做项目周报,每次重复做表非常繁琐,利用BDP创建专属的报告模板,每次更新数据即可;可视化报表的制作过程非常简单,通过拖拽即可实现;除了数据汇报, 产品经理可以利用BDP探索运营中的问题,细分、钻取当然是必不可少的, 桑基图、气泡图、漏斗图可能会给产品经理新的视角 ;BDP免费提供大量公共数据(居民收入、人口、天气等),我们可以拿公共数据和自己的业务数据进行一些对比分析。
来源:《不会写代码也要做增长黑客--产品经理常用数据分析工具》