用nodejs的朋友都有了解,node是單線程的,也就是說跑在8核CPU上,只能使用一個核的算力。
單線程一直是node的一個诟病,但隨著0.6版本中引入cluster之後,這個情況則得到了改變,開發人員可以依靠cluster很輕松的將自己的Node服務器擴展為多線程服務器了。
什麼是Cluster
cluster是node提供的一個多線程庫,用戶可以使用它來創建多個線程,線程之間共享一個監聽端口,當有外部請求這個端口時,cluster會將請求轉發到隨機線程裡。因為每個node線程都會占用幾十兆的內存,所以不能像php那樣對每個請求創建一個線程,一般來說創建的線程數最多都不會超過cpu的核心數量。
代碼如下:
var cluster = require('cluster');
var http = require('http');
var numCPUs = require('os').cpus().length;
if (cluster.isMaster) {
// Fork workers.
for (var i = 0; i < numCPUs; i++) {
cluster.fork();
}
cluster.on('exit', function(worker, code, signal) {
console.log('worker ' + worker.process.pid + ' died');
});
} else {
// Workers can share any TCP connection
// In this case its a HTTP server
http.createServer(function(req, res) {
res.writeHead(200);
res.end("hello world\n");
}).listen(8000);
}
如以上代碼所示,程序運行時cluster.isMaster會被設置為true,當調用cluster.fork()之後,程序會創建一個線程,並重新運行,這時cluster.isMaster就被設置為false了。我們就主要通過這個變量來判斷當前線程是不是子線程的。
還可以注意到,每個子線程被創建之後,都會監聽8000端口而不會引起沖突,這就是cluster共享端口的功能了。
線程之間的通信
當線程被創建之後,他們彼此之間是沒有共享內存或者數據的。所有的數據交換只能通過worker.send和worker.on('message',handler)在主線程裡處理,下面列舉一個廣播系統的實例。
代碼如下:
var cluster = require('cluster');
var http = require('http');
var numCPUs = require('os').cpus().length;
if (cluster.isMaster) {
var workers=[];
//新建worker
function newWorker(){
var worker=cluster.fork();
//監聽信息,如果type為broadcast的話,則確定為廣播
worker.on('message', function(msg) {
if(msg.type=='broadcast'){
var event=msg.event;
//向所有worker發送此條廣播
workers.forEach(function(worker){
worker.send(event);
})
}
});
return worker;
}
for (var i = 0; i < numCPUs; i++) {
workers.push(newWorker());
}
cluster.on('online',function(worker){
console.log('worker %d is online',worker.id);
})
} else {
var worker=cluster.worker;
//廣播就是發送一個type為broadcast的信息,event就是廣播內容
worker.broadcast=function(event){
worker.send({
type:'broadcast',
event:event
});
}
//這裡用worker.on貌似不能監聽到返回的信息
process.on('message',function(event){
console.log('worker: '+worker.id+' recived event from '+event.workerId);
})
//發送廣播
worker.broadcast({
message:'online',
workerId:worker.id
})
}
需要注意的問題
在上面也提到,線程之間是不能共享數據的,所有的數據交換只能通過線程之間的通信來交換。而且所交換的數據都是可序列化的,所以函數,文件描述符和HttpResponse之類的東西都不能傳遞。
如果使用cluster,則需要在程序設計的時候考慮到數據交換的問題,我自己的做法就是將類似session的這些數據都存放在redis裡,每個線程都做好存取的工作,所有的數據都不放在node內存裡。
最後一點,cluster目前還被Node官方標記為Experimental狀態,api在將來也許會改變。