memect / hao Goto Github PK
View Code? Open in Web Editor NEW好东西传送门
好东西传送门
问: @北冥渔翁 oracle、 mysql 入门进阶 答:数据库入门进阶资料包括: 参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源,不断更新中。1.mysql资源:注意MariaDB http://t.cn/RPLyXyb 2.oracle资源:侧重性能优化 http://t.cn/RPLyXyG
问:wechat:泡泡龙: 我想知道query意图分析(query分类)有哪些方法?
答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://hao.memect.com/?tag=query-intent
链接合集: https://github.com/memect/hao/blob/master/awesome/query-intent.md
@好东西传送门 ,请问目前有木有关于不平衡数据分类(imbalance dataset classification)任务的人工二维toy dataset,我有些关于下采样的初步想法,想在这样的toy数据上看看对不对,二维的主要是可以可视化,容易看。
问:在哪里找到文章,了解美国政府的数据发布情况呢?
答:美国政府在data.gov开放了十多万个免费、免版权的公开数据集。目前一个重要应用领域是房地产信息(例如 zillow, greatschools, tulia),包括学区信息等。麦肯锡公司2013年预测开放数据能带来每年3万亿美元经济增长。http://memect.co/xH-XtUE
我这里有一个比较浅陋的问题。请问,链数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈。(请原谅我的提问太过模糊,如果您觉得这个问题不好回答的话,我十分希望您能介绍给我一些相关的资料)。P.S. 上一条有权限问题,故重发,抱歉。
有关图像模糊质量评价方面的。用于检测视频清晰度,是否在拍摄时失焦的问题上。如果有些入门介绍会更好。谢谢!
@好东西传送门 可否推荐一些创意自适应的资料?就是通过数据挖掘技术,程序自动生成靠谱创意的。貌似这方面资料不多。
整理稿: https://github.com/memect/hao/blob/master/awesome/learn-big-data.md
基本思路:大数据是一个内涵非常广泛的概念,以前称为统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,存储,可视化等等诸多领域的方法均可列入大数据的范畴.更详细的领域列表可以见Github上的Awesome Big Data
https://github.com/onurakpolat/awesome-bigdata
大多数大数据技术其实对于普通的个人和中小企业并不需要全部涉猎.学习大数据技术前最好先有"小数据"(内存和单机硬盘就能解决的数据)处理经验.盲目上大数据技术不仅浪费学习时间,也会不必要地提高后期运营成本.最好是从业务出发,逐步提升.
核心最重要的一些技术网上一些课程,如coursera和小象学院都有提供.这里我们列一个极简版,面向的是以Excel为基础,目的是解决普通数据处理任务(也就是,不是Google,淘宝那样大规模)的用户.
第0级:Excel和简单图表
第1级:关系数据库和SQL语言,如Access和MySQL ,了解最基础的数据库知识
第2级:学一点基础的编程,推荐Python/R,Java也可以,最基本的知识就可以
第3级:学会在程序中访问数据库,做一些结合业务的分析
第4级:如果有速度,容量的要求,学一个NoSQL数据库,比如redis,mongodb,neo4j,elasticsearch.不需要都学,根据业务需要选择一个常用的就可以了.
第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现
第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3
第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR)
第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop.
这时候恭喜你,在任何一个"大数据群"都可以指点江山了.
@维尔茨 问: 有木有关于循环神经网络在segmented sequence labeling方面的papers么?我希望用RNN label sequence本身而非sequence members
答: 多伦多大学的 Alex Graves 有专著研究此问题. 基于recurrent neural networks(RNN)研究: @ICT_朱亚东 推荐Herbert Jaeger的短教程(40多页). Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院利用RNN做自然语言处理
http://bigdata.memect.com/wp-content/uploads/2014/08/content-300x300.jpg
现在大型网站服务器一般是多台,想问下用户从输入网址开始,它的需求由哪个服务器影响的机制有什么通用的框架吗?一个域名貌似只能绑定一个IP,这么多服务器怎么都可以被域名找到呢? 求详细科普
http://www.weibo.com/5172229575/BgzOKBgQj
极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools
@好东西传送门 代人求教一个文本识别方面的问题。比如对下图这类中文文字、英文文字、数字混排的文本,传统的文本识别软件效果非常差。不知道有没有合适的低成本的方法将这类图片转成文本文件,并且保证一定的识别率(比如90%)?假如这其中还夹杂着非文字的照片呢?
http://www.weibo.com/1459358890/BgFoRwPgG
http://ww4.sinaimg.cn/bmiddle/56fc0caagw1ej06diuyz2j20b90m0afi.jpg
@好东西传送门 做的不错哈,试问两个问题:1. 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?最好有算法和代码。2. 图搜图的较好开源代码和paper有哪些?
http://m.weibo.cn/5066241201/3739054010734322?sourceType=sms&from=1044195010&wm=4260_0001
最近对语义网忽然感兴趣,想把它用于GIS、RS领域,您是否知道有人做过这方面的探索?
http://weibo.com/u/1735339220
有没有机器学习和深度学习在多媒体信息检索领域的资源?
1、论文最好有配套代码,可以跑一下对比效果;
2、当前学术界和工业界最新或者主流技术有哪些;
3、是否有跟深度学习结合的;
4、最好也有说话人鉴别的相关论文和代码。
目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @techcrunch** 国际创新北京峰会双日VIP票,本来3200一张哦!
这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你
也可以推荐一个话题给@好东西传送门,在github上建一个issue或在微博上留言都可以。请推荐一组网络资源并加简短导读(一条微博长度)。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.