Cherrot’s

破解华为HG8346R/HG8347R光猫启用有线桥接

2017-02-05T18:58:00+00:00

修订记录

2018.02.23: 补充了破解操作细节，并验证了HG8347R的破解。

本文兼顾多款光猫型号，并兼容Windows、OSX/Linux，内容略杂，请按目录跳跃浏览。

为何破解

联通定制版无线限制了无线最多5个客户端，根本无法满足日常使用。
无线实时性差，不支持5GHz频段，带宽也不高，虽然理论能到300Mbps，实际差得远。
定制版限制太多，很多设置作为普通用户无法修改，甚至连无线SSID都强制以CU_开头，日了狗。

由于定制版无法开启WAN口桥接，所以需要恢复光猫原生系统并使用管理员账户设置。（WAN口桥接模式，其实就是将光猫作为交换机使用，转发二层数据帧比路由三层IP包快的多，减少性能损耗。）

准备工作

本文适用于（北京）联通定制版的华为HG8346R、HG8347R光纤接入终端。软件版本（可以登录web界面在“状态”中找到）：V3R015C10S109, V3R016C10S135, V3R017C10S103，后文使用R15, R16, R17指代。

需要下载华为ONT维护工具包用于开启维护模式和加解密配置文件，并开启tftp服务器用于备份路由器配置。可以在我的Google Drive或Mega网盘下载。其中ONT工具shasum: beb12c70bf2871de4254176be42b6748176a6471。

如果软件版本为R17，需要额外下载固件包：Google Drive或Mega。shasum: 7029508ec8f7e6a78660892557b8acdb41317803。

Windows

工具包里带了tftpd32和tftpd64程序，直接运行就可以启动tftp服务器。

另外建议下载putty.exe运行telnet命令，比如telnet 192.168.1.1，那么Host Name (or IP address)填写192.168.1.1，Connection Type选择Telnet，点击”Open”即可。

OSX / Linux

华为的维护工具包是Windows程序，需要安装wine模拟器：

# on OSX
brew install wine
# on Ubuntu Linux
sudo apt-get install wine

不过tftp服务器不能直接用wine模拟，所以需要单独安装。建议使用Python的开源实现，我用的TFTPy：

sudo pip install TFTPy

只要三行代码就能启动一个TFTP服务器了：

import tftpy

server = tftpy.TftpServer('./tftp-dir')
server.listen('0.0.0.0', 69)

或者cd到工具包目录，sudo python tftpd.py启动tftp服务

OSX用户不要使用系统自带的tftpd服务，基于tftpd的GUI版软件也不行（比如tftpserver），因为要想上传文件（put），必须更改tftpd的启动参数（-s），但OS X EI Capitan禁用了编辑服务配置文件的权限，除非重启进入Recovery模式。另外我尝试直接运行tftpd也没戏，折腾个把小时还不如3行Python代码来的简单。

Let’s hack!

拔出光纤，电脑用网线连到光猫LAN1口，我们假定电脑获取的IP是192.168.1.2
浏览器进入192.168.1.1，按照光猫背面的用户名密码登录，在网络中关闭无线功能。
重启光猫（光猫后部有按钮开关），启动完成后，光猫的电源灯常亮，LOS灯红色闪烁（表示未接入光纤），LAN1灯闪烁（表示有数据流量）。

R17版本：降级固件进入维护模式

R17版本必须降级固件到R16才能成功进入维护模式，直接尝试开启维护模式会发现所有灯闪烁几遍后全灭，光猫无响应（重启恢复）。

运行华为ONT组播版本配置工具.exe（OSX执行wine 华为ONT组播版本配置工具.exe，下文不再赘述），选择“升级”，选择计算机本地网卡192.168.1.2，点击“浏览”选择刚刚下载的hg8347r16-rom.bin，其他参数不变。
点击“启动”，这时光猫上所有灯会一起闪烁，刷入过程大概需要8分半。等到所有灯常亮，点击停止（工具下方的进度条没有任何意义，不用管它）。
重启光猫，完成后便已开启telnet服务。
浏览器登录http://192.168.1.1，在安全设置中禁用防火墙，以防telnet无法连接。

R15, R16版本：开启维护模式

运行华为ONT组播版本配置工具.exe，选择本地网卡192.168.1.2，其他保持默认，点击启动按钮。
耐心等待2分钟左右，如果所有灯常亮，说明成功开启了维护模式。点击停止并关闭工具。
重启光猫，完成后便已开启telnet服务。

备份配置

打开终端或命令行：

telnet 192.168.1.1

root #（Login用户名）
admin #（密码不回显）

确保本机tftp服务已开启，在telnet中执行：
```
backup cfg by tftp svrip 192.168.1.2 remotefile hw_ctree.xml
```
如果命令执行成功，你设定的tftp目录下（tftp-dir）便有了hw_ctree.xml配置文件了。如果遇到错误ERROR: command is not existed，请参照评论中贴出的方法导出配置。
运行华为光猫配置文件加解密工具.exe，输入文件选择hw_ctree.xml，输出文件设置为hw_ctree.dec.xml.gz，解密。
解压hw_ctree.dec.xml.gz（OSX：gzip -d hw_ctree.dec.xml.gz）得到hw_ctree.dec.xml。

恢复华为出厂模式

回到telnet

su
shell
restorehwmode.sh # 可以输入?查看所有可用命令
exit
reset

等待路由器重启完成（如果不成功就直接按开关重启）。这时候光猫恢复到了出厂模式，将电脑设置为静态IP192.168.100.2，子网掩码255.255.255.0，网关192.168.100.1，浏览器访问http://192.168.100.1，就可以看到华为默认的登录界面了。
用户名telecomadmin密码admintelecom登录，在系统工具栏，导出当前配置留作备份。

导入配置

简单粗暴式：备份并编辑hw_ctree.dec.xml，搜索X_HW_WebUserInfoInstance，修改为<X_HW_WebUserInfoInstance InstanceID="1" UserName="用户名" Password="密码" UserLevel="0" Enable="1" ModifyPasswordFlag="0" PassMode="0"/>即可设置管理员账户。

小心翼翼式：备份并编辑刚刚导出的hw_ctree.xml，把hw_ctree.dec.xml中的<WANDevice NumberOfInstances="1">...</WANDevice>, <LANDevice NumberOfInstances="1">...</LANDevice>, <VoiceService NumberOfInstances="1">...</VoiceService>, <X_HW_IPTV....../>的节点内容完整替换过来。并修改X_HW_WebUserInfoInstance中的用户属性（UserLevel="0"表示管理员用户，PassMode="0"表示明文密码）

将修改后的配置在浏览器中重新导入，等待光猫重启即可生效。将本机网络重新设为DHCP，待光猫重启完成后即可登录http://192.168.1.1进行后续设置。

设置WAN桥接（交换机模式）

进入WAN设置，将第二个 2_INTERNET_B_VID_3961的WAN类型改为桥接WAN。
关闭WLAN，防火墙等无用功能
将光猫LAN1口接到自己的无线路由器WAN口上，在无线路由器中配置PPPoE拨号即可。

IPTV

如果要使用联通的IPTV机顶盒，可以重新打开无线WLAN1，并将WAN设置中的IPTV连接端口绑定到SSID1，这样机顶盒就可以使用光猫的无线信号观看IPTV了。

宽带测速

HG8346R

参考知乎导购网在京东249入了一台网件R6220在SPEEDTEST测速，下行可以到93.28Mbps:

华为HG8346R的LAN口都是百兆网卡，除去包头和包间距的损耗，峰值也就94Mbps，这个测速足够满意了。~~另外联通使用单模光纤入户，理论最大速率155Mbps，换千兆猫意义也并不大，所以就这么用着吧。~~

HG8347R

联通去年给自动升级到了200M带宽，升级光猫后LAN1口可到千兆，下行能到186.45Mbps:

美滋滋~

致谢

本文参考了以下教程，在此感谢作者的无私分享：

SSH隧道：内网穿透实战

2017-01-08T19:00:00+00:00

SSH支持的端口转发模式

正文开始前先用5分钟过一遍ssh支持的端口转发模式，具体使用场景在下一节详述。太长不看的可直接跳到下一节。

”动态“端口转发（SOCKS代理）：
```
ssh -D 1080 JumpHost  # D is for Dynamic
```
区别于下面要讲的其他端口转发模式，-D是建立在TCP/IP应用层的动态端口转发。这条命令相当于监听本地1080端口作为SOCKS5代理服务器，所有到该端口的请求都会被代理（转发）到JumpHost，就好像请求是从JumpHost发出一样。由于是标准代理协议，只要是支持SOCKS代理的程序，都能从中受益，访问原先本机无法访问而JumpHost可以访问的网络资源，不限协议（HTTP/SSH/FTP, TCP/UDP），不限端口。
本地端口转发
```
ssh -L 2222:localhost:22 JumpHost  # L is for Local
```
这条命令的作用是，绑定本机2222端口，当有到2222端口的连接时，该连接会经由安全通道(secure channel)转发到JumpHost，由JumpHost建立一个到localhost（也就是JumpHost自己） 22端口的连接。
如果上述命令执行成功，新开一个终端，执行ssh -p 2222 localhost，登录的其实是JumpHost。
所以-L是一个建立在传输层的，端口到端口的转发模式，当然远程主机不仅限于localhost。
后面的stdio转发和ProxyJump可以看做是本地端口转发的升级版和便利版（参见OpenSSH netcat mode）
远程端口转发
```
ssh -R 8080:localhost:80 JumpHost  # R is for Remote
```
顾名思义，远程转发就是在ssh连接成功后，绑定目标主机的指定端口，并转发到本地网络的某主机和端口：和本地转发相比，转发的方向正好反过来。
假如在本机80端口有一个HTTP服务器，上述命令执行成功后，JumpHost的用户就可以通过请求http://localhost:8080来访问本机的HTTP服务了。
stdio转发（netcat模式）与ProxyJump
```
ssh -W localhost:23 JumpHost
```
netcat模式可谓ssh的杀手特性：通过-W参数开启到目标网络某主机和端口的stdio转发，可以看做是组合了netcat(nc)和ssh -L。上述命令相当于将本机的标准输入输出连接到了JumpHost的telnet端口上，就像在JumpHost上执行telnet localhost一样，而且并不需要在本机运行telnet！
既然是直接转发stdio，用来做ssh跳板再方便不过（可以看做不用执行两遍ssh命令就直接跳到了目标主机），所以在ProxyJump面世前（OpenSSH 7.3），ssh -W常被用于构建主机到主机的透明隧道代理，而ProxyJump其实就是基于stdio转发做的简化，专门用于链式的SSH跳板。

使用场景

建立代理

假设你在局域网A，HostB在局域网B，JumpHost有双网卡可以同时连接到局域网A和B。此时的你想要访问HostB上的web服务，便可以通过如下命令建立代理：

ssh -D '[::]:1080' JumpHost

这样，浏览器设置代理socks5://localhost:1080后，就可以直接访问http://HostB了。

当然，还可以通过这个代理ssh登录到HostB:

ssh -oProxyCommand="nc -X 5 -x localhost:1080 %h %p" HostB

其中, nc需要BSD版（Ubuntu和OS X默认就是BSD版本），-X 5指定代理协议为SOCKS5，-x指定了代理地址，%h %p用于ProxyCommand中指代代理目的地（HostB）和目的端口。更多代理用法参见lainme姐的通过代理连接SSH和通过代理使用GIT。

ssh -D也是最基本的翻墙手段之一。

通过公网主机穿透两个内网

好，现在进入一种更复杂的情况：你（HostA）和目标主机（HostB）分属不同的内网，从外界都无法直接连通。不过好在这两个内网都可以访问公网（JumpHost），你考虑通过一台公网机器建立两个内网之间的隧道。

于是在目标网络，你吩咐现场人员帮你连通公网主机：

# Host in LAN-B
ssh -qTfNn -R 2222:localhost:22 JumpHost

-qTfNn用于告知ssh连接成功后就转到后台运行，具体含义见下一节解释。

现在，你只需要同样登录到跳板机JumpHost，就可以通过2222端口登录HostB了：

# in JumpHost, login HostB
ssh -p 2222 localhost

更进一步

如果我们将2222绑定为公网端口，甚至都不用登录跳板机，从而直接穿透到HostB：

ssh -qTfNn -R '[::]:2222:localhost:22' JumpHost

（因为要绑定公网端口，请确保在JumpHost的/etc/ssh/sshd_config里，配置了GatewayPorts yes，否则SSH Server只能绑定回环地址端口。）

在HostA上执行:

ssh -p 2222 JumpHost # Login to HostB

这样还有一个好处，作为管理员可以直接禁用跳板机的shell权限，使他作为纯粹的隧道主机存在（见“安全性”一节）。

当然还有粗暴的方式，通过组合ssh -D和ssh -R打开Socks5代理：

# Host in LAN-B
ssh -qTfNn -D :1080 localhost  &&  \
ssh -qTfNn -R '[::]:12345:localhost:1080' JumpHost

上述命令在HostB创建了SOCKS代理，并且映射到了公网JumpHost的12345端口，整个内网对我们而言已经一览无余，ssh登录更是手到擒来：

# Host in LAN-A
ssh -oProxyCommand="nc -X 5 -x JumpHost:12345 %h %p" localhost

限制访问

然而，直接在公网主机上暴露穿透到内网的端口非常不安全。为提高安全性，我们把远程转发限制到回环地址，这样就限制了只有有权限登录JumpHost的人才能穿透到局域网B。首先在HostB上设定远程转发：

# Host in LAN-B
ssh -qTfNn -R 2222:localhost:22 JumpHost

在HostA执行：

# Host in LAN-A
# 通过ProxyJump跳板登录到目标主机，即使跳板机用户不能分配tty也没关系
ssh -J JumpHost -p 2222 localhost

（如果要限制socks5代理的使用，道理也一样，不过是加一层由本机端口到跳板机socks5端口的本地转发而已）

如果OpenSSH版本<7.3, 需要用stdio转发(ssh -W)代替-J，该命令会先登录JumpHost，继而转发本机stdio到JumpHost，所以接下来的ssh登录操作如同是在JumpHost完成一样：

ssh -oProxyCommand="ssh -W %h:%p JumpHost" -p 2222 localhost

通常意义的”跳板“

通常意义的”跳板“，指的是连接发起端A，经由跳板机B->C->D，连接到目标主机E的过程。连接和数据流都是单向的，比起上述情况反而简单了许多。这里不再赘述，只举两个简单的例子说明。更多示例参见OpenSSH/Cookbook/Proxies and Jump Hosts

ssh -L 1080:localhost:9999 JumpHost -t ssh -D 9999 HostB

这条命令会在登录JumpHost时，建立本机1080端口到JumpHost 9999端口的转发，同时在JumpHost上执行ssh登录HostB，同时监听9999端口动态转发到HostB。于是，所有到本机1080端口的连接，都被代理到了远程的HostB上去。

ssh -J user1@Host1:22,user2@Host2:2222 user3@Host3

这条命令就是经由Host1, Host2，ssh登录到Host3的过程（需ssh版本高于7.3）。

Tips

ssh执行为后台任务

ssh -qTfNn用于建立纯端口转发用途的ssh连接，参数具体含义如下：

-q: quiet模式，忽视大部分的警告和诊断信息（比如端口转发时的各种连接错误）
-T: 禁用tty分配(pseudo-terminal allocation)
-f: 登录成功后即转为后台任务执行
-N: 不执行远程命令（专门做端口转发）
-n: 重定向stdin为/dev/null，用于配合-f后台任务

安全性

建议为端口转发建立专门的账户，使用随机密码（当然使用私钥登录更好），并且禁掉其执行命令的权限。最简单的方式为

# add user tunnel-user for ssh port forwarding
sudo useradd -m tunnel-user
# generate 10 random passwords with 16 length
pwgen -sy1 16 10
# pick one password and set it to tunnel-user
sudo passwd tunnel-user
# disable shell for tunnel-user
sudo chsh -s /bin/false tunnel-user

更多可参考Ask Ubuntu

避免在公网直接暴露动态代理转发，很危险。尽量远程端口转发到目标主机的ssh端口。这样需要远程接入的人可以自行ssh登录或打开本地Socks代理。

保持连接

客户端设置（~/.ssh/config）：

Host *
     ServerAliveInterval 180

每180秒向SSH Server发送心跳包，默认累积三次超时即认为失去连接。

服务器端同样可以设置心跳（/etc/ssh/sshd_config），作用同理：

ClientAliveInterval 180

Windows 客户端

(我是个不喜欢贴图的人。。）以PuTTY为例，假如这台Windows主机在内网，我们要借助公网主机的远程端口转发建立隧道：

和往常一样，在Session菜单输入公网主机的IP和SSH端口
在SSH菜单里勾选Don't start a shell or command at all，以建立一个纯隧道连接（不需要登录shell）
展开SSH菜单，进入Tunnels子菜单：
1. 勾选Remote ports do the same (SSH-2 only)，使远程端口监听公网连接。
2. 输入具体端口配置，比如Source port（也就是远程主机要监听的端口）填写22222，Destination填写HostIP:22，其中HostIP为内网中SSH服务器的IP。
3. 选择Remote, Auto，表示建立远程端口转发。点击Add添加配置
点击Open登录公网主机即可建立隧道。

关于Blueair净化效果的非严谨测试

2016-12-24T14:48:00+00:00

持续一周的重度雾霾刚散去两天，今早就有卷土重来了。正好拿出好久以前从朋友那拿的汉王PM2.5激光检测模组，对室内的空气质量和空气净化器的净化能力做个大致测试。

测试环境

室外pm2.5 200μg/m³（美国大使馆监测数据）五级（重度污染）：心脏病和肺病患者症状显著加剧，运动耐受力降低，健康人群普遍出现症状。

卧室+阳台20m²左右。Blueair 550E 保持2档，滤芯使用半年左右。

租房，无新风系统，房屋密闭性一般，客厅正门关闭后能明显感觉门缝漏风。从昨夜开始所有门窗保持关闭。

PM2.5检测模组和汉王霾表同款，串口转USB接到笔记本上读数。测定原理是使用一个小涡轮风扇带动空气通过传感器，激光传感器检测颗粒物体积和通过速度，进而基于以往的统计数据估算颗粒物质量。所以看原理就知道，家用霾表的读数和监测站几十万一台的专业设备相比一定是有误差的，所以重点看相对变化就好。

PM2.5浓度测试

卧室内净化器保持2档运行，PM2.5平均读数 20μg/m³，客厅没有净化器，平均 80μg/m³。

开窗检测，第一次测定平均浓度140μg/m³，隔10分钟后第二次测定读数95-130μg/m³，平均 110μg/m³。

怀疑第一次是因为窗子开的较小，风速大导致测数偏高。(下文开窗通风后室内浓度也是110μg/m³，故第二次测定值应该更可信）

Blueair净化能力测试

净化器先切换到1档（最低档），1档的风量连安慰剂都算不上。。
卧室开窗，过堂风通风5分钟，检测室内浓度在 110μg/m³。
关闭门窗，保持卧室尽量密闭。将净化器切换到自动档，很可惜，Blueair认为当前空气质量很好，(Dust指数为1），保持在1档运行。
手动设定在3档（最大风量），观察读数：
1. 5分钟, 55μg/m³
2. 12分钟, 30μg/m³
3. 18分钟, 20μg/m³
4. 28分钟, 10μg/m³
5. 35分钟, 5μg/m³, 此后稳定在该值上下。
切换回2档（3档噪音太大），读数稍有上浮，最后稳定在15μg/m³上下。

测试结论

手持霾表和监测站相比确实有较大误差。
室内如果无法保证密封，即使紧闭门窗，空气质量和外界也相差无几。
Blueair 550E的颗粒物浓度探测器就是个辣鸡。之前就觉得这玩意儿不靠谱，空气糟糕时都是手动控制档位，这次算是用数据印证了。当然它的有机气味检测很灵敏，放个屁都能调3档呜呜好几分钟。
Blueair的滤网寿命貌似就是简单的计时器，没什么卵用。

总之Blueair在诚意和做工上都不咋地。结合滤网寿命来看，机器和滤网都不便宜，但至少净化能力摆在这，全靠队友衬托啊。。

UNIX下多进程共享监听socket的方式

2016-01-05T01:08:00+00:00

黑科技：Node.js的cluster不科学啊

上周同事问我一个问题，为什么使用Node.js的cluster时可以在worker进程中随意用 server.listen(1234)来监听某个端口而不冲突？这在直观看来相当不科学啊，不然就不会总是有UNIX网络编程新手问为什么bind socket时遇到”Address in use”的问题了。

今天小搜一下，果然在StackOverFlow有知音：

The worker processes are spawned using the [child_process.fork][] method, so that they can communicate with the parent via IPC and pass server handles back and forth.

When you call server.listen(…) in a worker, it serializes the arguments and passes the request to the master process. If the master process already has a listening server matching the worker’s requirements, then it passes the handle to the worker. If it does not already have a listening server matching that requirement, then it will create one, and pass the handle to the worker.

上述答案援引自Cluster官网，不过第二段在官网中已经删掉，备忘在这里以更清晰的理解其中原理。所以看上去是违反了UNIX常识，实际上只是对 listen方法做了包装，最终还是由master进程监听端口，并派发/路由请求到对应的 worker进程（默认使用round-robin方式路由请求）

UNIX科普：file descriptor可以共享和传递

然而我的好奇心并未止于此。多年没碰UNIX网络编程的我依稀记得一个file descriptor 只能由一个进程持有，可是为什么这样规定？像nginx,node.js这种一个master派发若干个worker进程后，master中创建的file descriptor (TCP socket)在worker进程中不能被使用吗？Google一下才知道，原来我的直观印象是错的，file descriptor当然可以共享和传递：

Yes you can, using sendmsg() with SCM_RIGHTS from one process to another:

SCM_RIGHTS - Send or receive a set of open file descriptors from another process. The data portion contains an integer array of the file descriptors. The passed file descriptors behave as though they have been created with dup(2). http://linux.die.net/man/7/unix

that is not the typical usage tho. more common is when a process inherits sockets from its parent (after a fork()). any file handles (including sockets) not closed will be available to the child process. so the child process inherits the parent’s sockets.

也就是说,fork后的子进程天生就能继承父进程创建的file descriptor。这也是当下 nginx等web server处理和派发请求的方式。

顺便贴个链接复习一下UNIX网络编程的基础(en)：单连接, fork, select: 三种监听socket的方式

更进一步：通过SO_REUSEPORT享受Linux内核提供的进程间负载均衡！

好奇心驱使我仍未止步，在搜索cluster工作原理时，无意中发现BSD后来推出了一个黑科技一般的Socket Option: SO_REUSEPORT，有了这个选项，我们可以让任意进程（ linux下限制必须是同一用户的进程）同时bind相同的source address和port而不报错！切记不要用成SO_REUSEADDR，这两个Option目的不同。Linux在3.9版本以后正式支持了 SO_REUSEPORT，并且提供了进程间负载均衡的隐形福利：

Additionally the kernel performs some “special magic” for SO_REUSEPORT sockets that isn’t found in any other operating system so far: For UDP sockets, it tries to distribute datagrams evenly, for TCP listening sockets, it tries to distribute incoming connect requests (those accepted by calling accept()) evenly across all the sockets that share the same address and port combination. That means while it is more or less random which socket receives a datagram or connect request in other operating systems that allow full address reuse, Linux tries to optimize distribution so that, for example, multiple instances of a simple server process can easily use SO_REUSEPORT sockets to achieve a kind of simple load balancing and that absolutely for free as the kernel is doing “all the hard work” for them.

更多细节请深度阅读StackOverFlow上的答案，虽然略长，但很浅显易懂，建议通读一遍。

所以直觉上来讲，使用SO_REUSEPORT，让内核处理负载均衡应该比让master进程负责监听和派发请求到对应worker进程的方式更有效率，果不其然，nginx在1.9.1版本中的 Socket Sharding就是通过SO_REUSEPORT实现的:

(默认策略：master监听socket，workers使用accept_mutex竞争request connections)

(启用Socket Sharding后)

benchmark能达到默认策略的3倍性能(req/s和latency):

详见官方Blog。顺便也科普一下nginx的架构和原理

所以，未来版本的cluster或许也可以扔掉依靠IPC通信的黑魔法，直接使用 SO_REUSEPORT，以获得更劲爆的性能。

后记

shadowsocks-libev也通过SO_REUSEPORT支持了TCP port reuse. 有多个代理节点的话，可以很方便的在Linux上实现负载均衡。不过在OS X，内核只会将请求全部派发到第一个bind端口的进程，除非该进程挂掉。或许FreeBSD也是如此设计。

Git清理本应ignore却被track的文件

2015-12-15T19:07:00+00:00

来自 #archlinux-cn @freenode IRC 2015-12-15

46 < tg2arch> [Isaac Ge] 我在写根据当前 Git 目录下的 .gitignore 内容来查找出被引入 Git 的垃圾文件
46 < tg2arch> [Isaac Ge] 的脚本
47 < tg2arch> [farseerfc] 爲什麼不直接
47 < tg2arch> [farseerfc] git clean
48 < tg2arch> [Isaac Ge] 都被引入了
48 < tg2arch> [Isaac Ge] 都被 tracked 了
49 < tg2arch> [farseerfc] git rm --cached -n
50 < tg2arch> [farseerfc] git ls-files -ci --exclude-standard -z | xargs -0 git rm --cached 

在git hook中执行后台进程

2015-12-07T21:39:00+00:00

试过N个方案，最终可行的是结合重定向与disown的方案(注释掉的都是不可行的方法)：

COMMAND </dev/null &>/dev/null & disown
#exec COMMAND >&- 2>&- &
#COMMAND |at now
#nohup COMMAND 2>&1 >/dev/null &

附上我在生产环境中使用的前端代码自动部署脚本 (/path/to/my/repo.git/hooks/post-receive):

#!/bin/bash
#to enable code rollback (by `git push -f`):
#git config receive.denynonfastforwards false

SRC_DIR=/Path/to/checkout/your/original/code
ROOT_DIR=/Path/to/your/deployment/target
 
GIT_WORK_TREE=$SRC_DIR git checkout -f
# if set GIT_WORK_TREE twice, file modification time would be overwritten
# GIT_WORK_TREE=$ROOT_DIR git checkout -f

rm -rf ${ROOT_DIR}.old
cp -rp $SRC_DIR ${ROOT_DIR}.new
mv $ROOT_DIR ${ROOT_DIR}.old
mv ${ROOT_DIR}.new $ROOT_DIR
 
config_path=$ROOT_DIR/static/js/lib/require/require-config.js
 
for file in $(grep -oP "(?<=[\'\"])([^\'^\"]+\.js)(?=[^\'^\"]*[\'\"])" $config_path); do
    if [ -f $SRC_DIR/static/js/$file ]; then
        last_modify=$(date +%m%d%H%M -r $SRC_DIR/static/js/$file)
        sed -i "s@$file[^\'^\"]*@${file}?_=$last_modify@g" $config_path
    fi
done

find $ROOT_DIR/static/js -type f -name "*.js" -exec uglifyjs {} -o {} \; </dev/null &>/dev/null & disown

#exec find . -type f -name "*.js" -exec uglifyjs {} -o {} \; >&- 2>&- &
#find . -type f -name "*.js" -exec uglifyjs {} -o {} \; |at now
#nohup find . -type f -name "*.js" -exec uglifyjs {} -o {} \; 2>&1 >/dev/null &
exit

Milestones

2015-12-07T10:35:00+00:00

看了看以前留下的blog，蛮有趣的哈哈。

2010-08-26, 一个通宵+两天，终于真正意义上有了自己的blog site. wordpress 框架，在freewebhostingarea.com找的免费虚拟主机。那时候我还是连SQL都不会写的渣渣，到处找免费的PHP虚拟主机，免费的SSH（翻墙）当时还抄答案挑战过hax.tor.hu
2010-09-29, 第一次修复硬盘分区表，之前只是用FinalData恢复数据的段位。
2010-09-30, 真想回到这天对那时的自己说，千万别碰那本Java书！ XDDDDD
2010-11-04, 第一次知道自己到底有多弱，并决心变强。技术就是正义。
2010-11-25, 带一队志愿者沿昆明宝象河做水环境调查，并使用Google Maps+GPS生成一份水环境地图。
2011-01-01, 使用Grub4Dos硬盘安装Ubuntu10.10，从此爱上了Linux。经典的Gnome2 桌面，鼓捣个3D桌面毫无卡顿。记得11.04就变成了Unity的窗口管理器，那叫一个垃圾，又慢又难用。
2011-05 开始，因为Meego应用开发比赛，开始接触语音识别和NLP。折腾 Festival,Festvox,CMU Sphinx。
2011-09-08, 我也不知道为什么就折腾起LaTeX来了。LyX+TexLive+XeTeX with xeCJK。
2011-10-10, HTML5来了，也跟着玩了玩CSS3和canvas。
2011-10-15，从那时到现在，就一直使用gnome-shell作为桌面环境了。
2012-01-13, 这是个很有意义的冬天，斯坦福发布了两门公开课，分别是人工智能和机器学习，没多久就正式成立了 coursera.org，讲AI的老师也创办了在线教育网站 udacity.com。Andrew Ng浅显易懂的讲课风格让我受益匪浅。
2012-04, 我还折腾过Google Web Toolkit和Google App Engine，还傻傻记录过一些教程。。
2012-05-03, 第一次使用vim忘记是什么时候了，但第一次配置出一个强大的vim是在这天。
2012-07, 开始进入鹅厂实习，负责javascript前端逻辑开发。

下雪

2015-11-19T02:00:00+00:00

窗外又下起了小雪，雪花小到夜幕中完全看不出来。只是把手伸出去，感受到了一丝丝的凉意。比起前些天的初雪，实在是少了些美感在里面。

胖次（我的猫）估计还不知道下雪为何物，这时候正在努力跳上窗台向我炫耀。话说这些天还真没好好陪他，以至于经常听到他哀怨的喵喵声。

去年初雪已经是即将离开帝都的时候。抬头看到路灯下簌簌的雪花，细细拍在脸上，有些寒酸，大抵就如同现在一样。然而那一刻却定格成了最美。就像冬天竟然坐在草坪上傻傻看到的星空，走了很远找到的大半夜还开着门的烧烤店，麦当劳里的那一杯热可可。

晚安。

有些难过

2015-11-13T22:00:00+00:00

放任时间冲淡了心里的起伏，

又怎能责怪它不给一次机会

只是我会很难过

或许也只能是难过

碎碎念: ORM, python non-blocking, Go vs Elixir, MySQL on NUMA

2015-10-05T23:20:00+00:00

这篇文章也算是最近半年的一个总结，所以糅合了多个主题。鉴于可爱的歪果仁们已经有了很棒的总结，我没打算把引用的链接再统统编译一遍，去读原文吧，我自己的吐槽反倒无足轻重。

先说ORM

简言之，ORM sucks: ORM - the Killer of Scalability。文中详述了ORM的七宗罪（为刺激你点开链接我就不引用过来了嗯）。在我看来ORM是个反模式(anti-pattern)。

=======TL;DR; 碎碎念分割线，请无视下文=======

第一次接触ORM正是大学时代使用Java Web开发时。在很傻很天真，图样图森破的年纪，努力去学习并迷恋起这种依靠复杂的配置、叠加各种设计模式以期”解耦”的编程方式。然而随着开发的深入，我发现给SQL穿上这么一套华丽的Object衣服后，很多本来看似简单的问题也会让我手足无措，这让我花在google上的时间远多于花在coding上的，而其中有不少问题都是用plain SQL可以很简单就能做到的事情。这也难怪市面上大把大把的 JaveEE指南，Spring+Hibernate+BlahBlah权威教程之类了。这套衣服不光拖慢了开发的脚步（懂SQL不够，还要精通ORM），甚至SQL走起路来也往往比裸奔慢得多。当时学识尚浅，井中看到的天空是似乎是唯一真理，但我仍然隐约觉得，That’s not the right way.

后面进入了PHP，使用hacking(用于分库分表路由)的ActiveRecord+PDO，比起Java世界轻量了很多，在提供足够自由度的基础上尽量减轻了对开发的羁绊。再往后又来到了 Python web的世界(2015.1)，在这里sqlalchemy已然成为事实标准，而且它提供的ORM 看起来还算不赖，应付一个小项目足够。然而该来的总会来，java orm的历史在python 世界重演了。

sqlalchemy的世界分为两块大陆：core和ORM，贴个最简明教程，我准备将sqlalchemy ORM从我负责的Flask项目中移除，并基于sqlalchemy core封装更轻量级的sql wrapper，从此Say farewell to all the ORM evils.

Python non-blocking (web) programming

你猜我是不是又要写python sucks了？还真没错哈哈。在讲非阻塞前，先聊聊python的并行/异步编程。

Python并行编程

Python是一门”一个赛艇”的语言，它的multiprocessing和threading库也非常优雅，然而，GIL(Global Interpretor Lock)却让threading处于一个相当尴尬的境地：如果多线程还没有单线程效率高，那还用它作甚？相关介绍请参考 Python中的GIL、多进程和多线程

在Web开发中，很多时候也会借助这两个库实现异步处理，不过在Flask开发框架下，这并不总是件很容易的事情，这多是因为Flask的request context stack和application context stack的原因：在派生新进程时，需要拷贝一份请求上下文到新进程中，具体方法就搜一下 StackOverFlow吧，之所以这样的原因可以参考这篇文章

Gevent-Python中的协程库

这里我们说的是协程，不是epoll等非阻塞的系统调用。关于gevent可以在Gevent tutorial快速入门。生产环境中的WSGI服务器，如gunicorn和uWSGI，都是可以通过gevent处理请求从而增大单进程吞吐量的。

然而，gevent也并非看上去那么完美:

Monkey patching - an useful evil. 猴子补丁可以在不改变引用库的条件下使一些原生不支持非阻塞的库支持非阻塞的使用。可惜猴子补丁是error-prone的，尤其是引入多进程后，这个下文会讲。
猴子补丁对C实现的库没有作用，而且python在当前线程执行C实现的库，这就会导致整个主线程阻塞在执行C代码上。比如使用MySQL-python执行MySQL查询。
调试困难。gevent的上下文切换是通过yield完成的，在异常追踪和性能调优时，往往会力不从心。

在How we use gevent to go fast中，介绍了针对gevent的调优策略。

并行+协程并发，看上去很美…

好吧，长话短说，multiprocessing在启用了monkey-patching的gevent环境中是不可用的！有人对multiprocessing做了hack，推出了gipc，在一些简单的场景下，这么搭配也还不错。不过gipc还比较年轻，应用场景很有限。一些细节文档中并没有做说明，这里列举两个：

示例中都是主进程作为生产者，子进程为消费者。然而如果方向反过来以后，管道写端关闭会导致读端抛出EOFError。好在合理处理异常后不会造成管道数据错误。
管道描述符对象(_GIPCHandle)一旦分配给某个进程，那么该对象在当前进程下就不可使用了，在处理进程同步时还是会有点小问题…

看来想要实现并行+协程并发，需要依赖很精巧的设计。可惜即便如此，我在实际开发中还是遇到了各种诡异的问题，比如派生多进程后性能并没有多少提高（系统并未满载），甚至还有性能下降，而原因却难以定位；比如脚本运行的好好地，可Ctrl-C中断执行时，中断处理代码中的数据库逻辑(sqlalchemy session)却抱怨连接丢失等等等等。焦头烂额之下，我决定放弃用python实现高性能处理脚本。

Elixir vs Go

最近Elixir正吸引着越来越多的关注，甚至有人期待Elixir能再次带来当年Ruby on Rails 那样井喷式的革命。两门语言都是为了解决摩尔定律失效后，多核环境下的编程语言效率（语言执行效率和开发效率）问题；通过语言级别的协程支持和进程调度，让编写并发程序和编写一个函数一样简单且健壮。

关于两门语言的选择，应当视应用场景而定。一个简单（但不普适）的结论大概是Go更适合命令行和底层应用的开发，无需虚拟机、直接编译为二进制单文件等特性在这方面具有天生的便利；而Elixir更适合服务器应用开发：

That being said, have you tried writing a web app in Go? You can do it, but it isn’t exactly entertaining. All those nice form-handling libraries you are used to in Python and Ruby? Yeah, they aren’t nearly as good. You can try writing some validation functions for different form inputs, but you’ll probably run into limitations with the type system and find there are certain things you cannot express in the same way you could with the languages you came from. Database handling gets more verbose, models get very ugly with tags for JSON, databases, and whatever else. It isn’t an ideal situation. I’m ready to embrace simplicity, but writing web apps is already pretty menial work, Go only exacerbates that with so many simple tasks.

引用自 The UNIX Philosophy and Elixir as an Alternative to Go

我的第一印象也是这样，Go更像C语言(类型的定义、命令式的语言风格等），而且Go本身也将自己作为一门”System Language”来设计的。而Elixir更面向应用开发：继承Erlang/OTP 的衣钵(电信级的健壮性保证)，Ruby like的语法，管道符等诸多语法糖，代码的热更新部署，逐步完善的包管理体制和开发工具链…这也是在我的技术路线图上Elixir要早于Go的原因。

不光是WhatsApp, 还有一大票应用和游戏（比如使命召唤）选择了Elixir/Erlang, 推荐一篇传教文：Elixir - The next big language for the web

关于两个语言更多的讨论可以参考Hacker News和 Reddit

MySQL在NUMA架构服务器上的SWAP问题

问题用一句话描述就是，MySQL server跑在一台 NUMA架构的机器上，明明还有不少空闲内存，但MySQL却开始了swap数据导致线上服务处于假死不响应的状态。这里是一份简要的中文介绍，MySQL specific的话题建议将下面两篇文章读完，Jeremy Cole大神解释的很细致：