9月至12底远程为某团队远程工作
- 写过爬虫,用于机器学习数据标注的WEB管理系统。
- 写过QQ|微信机器人,模拟过QQ协议1.4和WebQQ协议。
- 接触过简单的机器学习和自然语言处理处理(仅限于调用三方库完成需求)
- 写过简单的验证码识别以及调用在线打码平台的API。逆向过经过压缩混淆的JavaScript(Google Maps JavaScript SDK的非公开接口)。
- 主要涉及的技术:Flask、AngularJS、MongoDB、MongoEngine、Scrapy、Requests、Gevent、IPython、Fabric、Supervisor、NumPy、Matplotlib、Pandas、D3.js
- 服务器用过阿里云、DigitalOcean、BAE。
这个团队的工作是利用大数据分析、机器学习等手段来提供各类预测服务,
我主要负责编写爬虫,从或含有大量Ajax内容,或国内无法访问,或有IP、访问频率限制,或含有验证码等各类网站抓取信息。
我需要独立负责爬虫的编写,部署,监控,数据导出全过程。
我还负责编写一些用于机器学习数据标注的WEB管理系统,因为数据抓取下来之后往往需要找人手工标注一些信息,需要一个对应的标注系统给标注人员使用。
这些项目的特点是时间要求很紧(一般1-3天),成本限制很严格(因为很多可能只用一两次),对界面要求低而对使用便捷性,流畅度要求高。
其中的几个小项目简介:
\nflask('add', a:1, b:2).success (data)->
console.assert(data==2)
# or
flask('add',1,2).success (data)->
console.assert(data==2)