要每次迭代一个字节,使用each_byte 实例方法。记着,它拾取一个字符( 也就是一个整数) 放入块中;如果你想将其转换成真正的字符使用chr 方法。这儿是个例子:
file = File.new("myfile")
e_count = 0
file.each_byte do |byte|
e_count += 1 if byte == ?e
end
21 、将字符串看成文件
有时候人民想知道如何把一个字符串看成一个文件。答案依赖于这个问题的准确含义。
对象大多数被定义在它的方法内。下面代码显示了一个应用于source 对象的迭代器;它每次迭代,输出一行。读这个片断的时候,能告诉你source 的类型吗?
source.each do |line|
puts line
end
实际上,source 应该是个文件,或者是个含有换行符的字符串。所以,像种情况,字符串可以被视做一个文件。
这自然导出写出像IOString类的思想。我们可以在这儿做到,但类的准确设计依赖于你想用它做什么。例如,我们是否应该从String或从IO来继承?第三种可能是创建个库然后添加方法给String类(就像ftools扩展File一样)。
我们没有尝试完整的实现。我们只作出一个框架来显示一种途径( 见Listing4.1) 。可以给它添加祥尽的一套方法和错误检测;这儿的例子即不完整也不健壮。Listing 4.1 Outline of an IOString Class
class IOString < String
def initialize(str="")
@fptr = 0
self.replace(str)
end
def open
@fptr = 0
end
def truncate
self.replace("")
@fptr = 0
end
def seek(n)
@fptr = [n, self.size].min
end
def tell
@fptr
end
def getc
@fptr += 1
self[@fptr-1].to_i
end
def ungetc(c)
self[@fptr -= 1] = c.chr
end
def putc(c)
self[@fptr] = c.chr
@fptr += 1
end
def gets
s = ""
n = self.index("n",@fptr)
s = self[@fptr..n].dup
@fptr += s.length
s
end
def puts(s)
self[@fptr..@fptr+s.length-1] = s
@fptr += s.length
end
end
ios = IOString.new("abcdefghijklnABCn123")
ios.seek(5)
ios.puts("xyz")
puts ios.tell
# 8
puts ios.dump
# "abcdexyzijklnABCn123"
c = ios.getc
puts "c = #{ c} "
# c = 105
ios.ungetc(?w)
puts ios.dump
# "abcdexyzwjklnABCn123"
puts "Ptr = #{ ios.tell} "
s1 = ios.gets
# "wjkl"
s2 = ios.gets
# "ABC"
22 、Reading Data Embedded in a Program
当你12 岁时可以从杂志上学习BASIC ,出于方便你使用了DATA 语句。信息被植入程序内,但它可以被读取,就像它是在外部。
你甚至可以想,在Ruby 中你可做同样的事。Ruby 程序内的指示器__END__ 放在数据后。它可以使用全局常量DATA 来读,像其它样是个IO 对象。( 注意__END__ 标记必须出现在行的开始。) 这儿个例子:
# Print each line backwards...
DATA.each_line do |line|
puts line.reverse
end
__END__
A man, a plan, a canal... Panama!Madam, I'm Adam.
,siht daer nac uoy fI
.drah oot gnikrow neeb ev'uoy
23 、读程序源代码
假设你想访问你自己程序源代码。它可以做为我们在别处使用过的一个变异 ( 见"Reading Data Embedded in a Program") 。
全局常量DATA 是个IO 对象,它引用__END__ 指示器后面的数据。但是,如果你要完成一个回绕操作,它将重置文件指示器到程序 源代码的开始位置。
下面程序将产生它自己的行号列表( 这不特别有用,但是大楖你可找到一些其它更好的用法) :
DATA.rewind
num = 1
DATA.each_line do |line|
puts "#{ '%03d' % num}
#{ line} "
num += 1
end
__END__
注意__END__ 指示器是必须的;没有它,DATA 不能被完全访问。
24 、完成新行符的转换
处理不同操作系统间的区别是件烦心的事,因为它有对行结束符的不同概念。通常的新行是一个回车(CR) 后跟随一个换行符(LF) ;但在早期的Unix 中,决定只存储一个换行符,这会为每个多留出一个完整的字节( 那里512KB 是很多内存了) 。今天我们可以希望文本文件是个文本文件,但Unix 和Windows 之间还是有新行问题。
所以,我们在这儿提供了一个小小解决办法。gets方法将接收两种新行符,并且puts方法将总是以本地格式写。这意思着同样代码将在本地格式和两种操作系统之间转换。我们这儿显示了一个简单的过滤器,它从标准输入读然后写到标准输出:
while line = getsputs line
end
其它情况可能由从未知操作系统接收整个文件引起的。但是Unix使用LF给它的新行,而Windows使用CR-LF,另外的可能性是使用Mac OS,它只使用CR。大多数时候,当Web上的一个TESTAREA被处理时,才会出现这种情形。
这儿是处理这种情况的一种方式,我们希望存储文本区域的内容到我们的Linux Web 服务器上的文件中:tmp=cgi.params["mytextarea"].to_s
File.open("newfile","w") do |f|
newstring = tmp.gsub!(/rn/m,"n") or
tmp.gsub!(/r/m,"n") or tmp
newstring.each {
|line| f.puts line }
end
第一个gsub! 寻找PC 上的CR-LF 对。如果没有找到,它返回nil ,意味着允许下一个gsub! 运行,它工作在Mac OS 系统的文件中。如果没有找到回车符,使用最初捕获的字符串。在转换后,字符串被按行写入到文件中。
25 、用临时文件工作
在很多情况下,我们需要用匿名文件工作。我们不想被它们的名字或不让名字冲突而烦恼,我们也不想为删除它们而操心。
所有这些都在Tempfile 库中。new 方法( 别名open) 将接受一个基本名字做为" 种子字符串" 并与进程ID 和一个唯一的数字连接。可选的第二个参数是使用的目录;它缺省是环境变量TMPDIR, TMP, 或 TEMP 的值,最后的值是"/tmp" 。
在程序运行期间,结果IO 对象可以被多次打开和关闭。在程序的终止,临时文件将被删除。
close 方法有个可选的标志;如果设置为true ,在它关闭后( 代替waiting 直到程序终止) 文件将被立即删除。Path 方法将返回文件的实际路径,你应该需要它。这儿是个例子:
require "tempfile"
temp = Tempfile.new("stuff")
name = temp.path
# "/tmp/stuff17060.0"
temp.puts "Kilroy was here"
temp.close
# Later...
temp.open
str = temp.gets
# "Kilroy was here"
temp.close(true)
# Delete it NOW
26 、更改和设置当前路径
当前目录可以使用Dir.pwd 或它的别名Dir.getwd 来确定;历史上这些缩写分别地代替打印工作目录和获取工作目录。在Windows 环境中,使用反斜线符号。
方法Dir.chdir 可以用于更改当前目录。在Windows 上,驱动器可以出现在字符串前面。这儿是个例子:
Dir.chdir("/var/tmp")
puts Dir.pwd
# "/var/tmp"
puts Dir.getwd
# "/var/tmp"
27 、更改当前根目录
在大多数Unix 变体中,可以修改当前处理的根目录。典型这样做的原因是为了安全( 例如,当运行非安全或未经测试的代码) 。Chroot 方法将用指定的目录设置新的根目录。
Dir.chdir("/home/guy/sandbox/tmp")
Dir.chroot("/home/guy/sandbox")
puts Dir.pwd
# "/tmp"
28 、在目录条目上迭代
类方法foreach 是个迭代器,它将连续传递每个目录入口给块。实例方法each 行为是一样的。这儿个例子:
Dir.foreach("/tmp") {
|entry| puts entry }
dir = Dir.new("/tmp")
dir.each
{
|entry| puts entry }
先前的两个代码片断将打印同样的输出(/tmp内的所有文件和子目录的名称)。
29 、获取目录入口清单
类方法Dir.entries 将返回包含指定目录内所有条目的数组:
list = Dir.entries("/tmp")
# %w[. .. alpha.txt beta.doc]
30 、Creating a Chain of Directories
Sometimes we want to create a chain of directories where the intermediate directories themselves don't necessarily exist yet. At the Unix command line, we would use mkdir -p for this.
Ruby 代码中,我们可以使用makedirs 方法来做,它将ftools 库添 加到File 中:
require "ftools"
File.makedirs("/tmp/these/dirs/need/not/exist")
31 、递归删除目录
在Unix 中,我们可以在命令行输入rm –rf dir 和完整的将被删除的以dir 开始的子目录。很明显,我们在做时应该小心。
如果你想使用代码来完成这些,下面就是:
def delete_all(dir)
Dir.foreach(dir) do |e|
# Don't bother with . and ..
next if [".",".."].include? e
fullname = dir + File::Separator + e
if FileTest::directory?(fullname)
delete_all(fullname)
else
File.delete(fullname)
end
end
Dir.delete(dir)
end
delete_all("dir1")
# Remove dir1 and everything under it!
32 、查找文件和目录
这儿,我们使用标准库find.rb 来创建一个方法,它将找出一个或多个文件并返回含有文件列表的数组。第一个参数是开始目录;第二个即可是文件名( 也就是字符串) 或者是正则表达式:
require "find"
def findfiles(dir, name)
list = []
Find.find(dir) do |path|
Find.prune if [".",".."].include? path
case name
when String
list << path if File.basename(path) == name
when Regexp
list << path if File.basename(path) =~ name
else
raise ArgumentError
end
end
list
end
findfiles "/home/hal", "toc.txt"
# ["/home/hal/docs/toc.txt", "/home/hal/misc/toc.txt"]
findfiles "/home", /^[a-z]+.doc/
# ["/home/hal/docs/alpha.doc", "/home/guy/guide.doc",
#
"/home/bill/help/readme.doc"]
二、完成高级数据访问
我们经常想以更明显的方式来存储和取回数据。Marshal 模块提供了简单的对象永续,Pstore 库则提供更多功能。最后,dbm 库像个哈希表被用于永久地存储于磁盘上。它并不属于这一章,但它相当简单。
1 、简单的 Marshaling
在很多情况下,我们想创建对象并简单地保存它以便在以后使用。Ruby 对对象的永续和排列提供了根本的支持。Marshal 模块能够序列化和反序列化Ruby 对象:
# array of elements [composer, work, minutes]
works = [["Leonard Bernstein","Overture to Candide",11],
["Aaron Copland","Symphony No. 3",45],
["Jean Sibelius","Finlandia",20]]
# We want to keep this for later...
File.open("store","w") do |file|
Marshal.dump(works,file)
end
# Much later...
File.open("store") do |file|
works = Marshal.load(file)
end
这个技术有个缺点不是所有对象都能被转储。如果一个对象包括更低级类的对象,它不能被排列;这包括IO,Proc, 和少数几个。Singleton 对象也不能被序列化。
2 、更复杂的Marshaling