rsync介绍
rsync是一个提供快速增量文件传输的开源工具。其基于GNU General Public License 发布,目前主要有 Wayne Davison (http://opencoder.net/)维护。
主页:http://samba.anu.edu.au/rsync/
通过他所提供的功能,rsync是一个用来做备份或者镜像的理想工具。
2009年的5月8好,rsync 3.0.6版本发布,
rsync介绍(3.0.6)
rsync是一个Unix系统的的文件传输程序,通过使用“rsync 算法”,提供远程文件同步的快速方法。顾名思义,rsync就是 remote sync。通过过程中,只是发送发生改变的文件,而不是发送全部的内容。现在是边列表变备份(删除)
他的特性如下:
1、可以更新整个目录树和文件系统;
2、可以保留文件的软链接、硬链接、权限信息、属主信息、设备和时间信息;
3、无须特殊权限即可安装;
4、内部的流水线提高了多文件传输的速度;
5、可以使用ssh、rsh或者socket链接进行传输;
6、支持匿名传输;
rsync安装
rsync的安装通过了Fedora的yum源,yum install rsync.i386 即可安装。
rsync工作原理
在两台电脑间同步数据时,必须设置其中一台安装"rsync server"(rsync必须以daemon的方式运行,关于daemon,可以参考后面的资料),同时配置 /etc/rsyncd.conf。
有了一台rsync服务器以后,我们就可以向其他多台机器上同步数据,来建立数据的备份或者镜像。由于使用了“同步算法”和文件比较压缩机制,所以rsync的工作效率非常高。
使用rsync离不开ssh
rsync 版本的一些问题
rsync备份海量文件时占用大量内存的解决办法(2.X版本的问题)
linux发行版中大多都自带rsync,不过版本比较低,一般都是2.6.X
在2.X的版本中,rsync备份时都是先列表再备份(添加或者删除),在处理大量文件时,会耗费比较多的内存。
备份的时候,rsync扫描到的每个文件(目录也一样),在它的列表中约占100字节的内存,如果加了--delete参数的话,占用的内存会更多。
例如我这里一台服务器,约800万的图片,而且更新比较频繁,文件数增长比较快,差不多每天增加约10万张。备份的时候,rsync大约占用了将近2G的内存,大量内存的占用,造成服务器物理内存不足,进而使用到swap,然后产生更高的iowait(交换内存),进而造成rsync列表更慢,并且影响到服务器上的业务。
对于这样的情况,在rsync 3.X出现之前,人们普遍给出的建议是把备份操作给拆分成若干个小的备份操作。比如原来有10个图片目录一起备份,现在拆成10个备份操作,每次只备份其中一个。另外,还有人建议减小目录的深度,这样可以减小目录的数量,可以减少rsync占用的内存。另外还有个叫做digisync的软件,是专门用来备份G级数量的文件的。
rsync 3.X采用的是incremental file list,与原来的 2.X相比,现在是一边列表一边备份(添加或删除)。这对于大量文件的备份操作来说,无疑节省了很多时间。
实测发现,rsync 3.0.4备份时占用的内存大约时4M,跟一个apache进程占用的内存差不多。
rsync 的主页在http://samba.anu.edu.au/rsync/ 目前最新稳定版本为 rsync-3.0.6
需要注意的是,源主机和目的主机必须都升级到 rsync 3.X 才能使用到rsync 3.X的新特性。
Windows http://sourceforge.net/projects/sereds/files/
Linux http://www.samba.org/ftp/rsync/
主页:http://samba.anu.edu.au/rsync/
通过他所提供的功能,rsync是一个用来做备份或者镜像的理想工具。
2009年的5月8好,rsync 3.0.6版本发布,
rsync介绍(3.0.6)
rsync是一个Unix系统的的文件传输程序,通过使用“rsync 算法”,提供远程文件同步的快速方法。顾名思义,rsync就是 remote sync。通过过程中,只是发送发生改变的文件,而不是发送全部的内容。现在是边列表变备份(删除)
他的特性如下:
1、可以更新整个目录树和文件系统;
2、可以保留文件的软链接、硬链接、权限信息、属主信息、设备和时间信息;
3、无须特殊权限即可安装;
4、内部的流水线提高了多文件传输的速度;
5、可以使用ssh、rsh或者socket链接进行传输;
6、支持匿名传输;
rsync安装
rsync的安装通过了Fedora的yum源,yum install rsync.i386 即可安装。
rsync工作原理
在两台电脑间同步数据时,必须设置其中一台安装"rsync server"(rsync必须以daemon的方式运行,关于daemon,可以参考后面的资料),同时配置 /etc/rsyncd.conf。
有了一台rsync服务器以后,我们就可以向其他多台机器上同步数据,来建立数据的备份或者镜像。由于使用了“同步算法”和文件比较压缩机制,所以rsync的工作效率非常高。
使用rsync离不开ssh
rsync 版本的一些问题
rsync备份海量文件时占用大量内存的解决办法(2.X版本的问题)
linux发行版中大多都自带rsync,不过版本比较低,一般都是2.6.X
在2.X的版本中,rsync备份时都是先列表再备份(添加或者删除),在处理大量文件时,会耗费比较多的内存。
备份的时候,rsync扫描到的每个文件(目录也一样),在它的列表中约占100字节的内存,如果加了--delete参数的话,占用的内存会更多。
例如我这里一台服务器,约800万的图片,而且更新比较频繁,文件数增长比较快,差不多每天增加约10万张。备份的时候,rsync大约占用了将近2G的内存,大量内存的占用,造成服务器物理内存不足,进而使用到swap,然后产生更高的iowait(交换内存),进而造成rsync列表更慢,并且影响到服务器上的业务。
对于这样的情况,在rsync 3.X出现之前,人们普遍给出的建议是把备份操作给拆分成若干个小的备份操作。比如原来有10个图片目录一起备份,现在拆成10个备份操作,每次只备份其中一个。另外,还有人建议减小目录的深度,这样可以减小目录的数量,可以减少rsync占用的内存。另外还有个叫做digisync的软件,是专门用来备份G级数量的文件的。
rsync 3.X采用的是incremental file list,与原来的 2.X相比,现在是一边列表一边备份(添加或删除)。这对于大量文件的备份操作来说,无疑节省了很多时间。
实测发现,rsync 3.0.4备份时占用的内存大约时4M,跟一个apache进程占用的内存差不多。
rsync 的主页在http://samba.anu.edu.au/rsync/ 目前最新稳定版本为 rsync-3.0.6
需要注意的是,源主机和目的主机必须都升级到 rsync 3.X 才能使用到rsync 3.X的新特性。
Windows http://sourceforge.net/projects/sereds/files/
Linux http://www.samba.org/ftp/rsync/