背景 如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。
思路 这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件 假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3 小文件一:2 15 4 小文件二:18 1 9 小文件三:7 12 6 小文件四:5 8 4 小文件五:7 16 3
对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回; 小文件一:2 4 15 小文件二:1 9 18 小文件三:6 7 12 小文件四:4 5 8 小文件五:3 7 16
5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件
min(2 1 6 4 3)=1 存入LinkedList,此时LinkedList值为{1} 继续从小文件二中读取下一个元素9 min(2 9 6 4 3)=2 存入LinkedList,此时LinkedList值为{1,2} 继续从小文件一中读取下一个元素4 min(4 9 6 4 3)=3 存入LinkedList,此时LinkedList值为{1,2,3} 继续从小文件五中读取下一个元素7 min(4 9 6 4 7)=4 存入LinkedList,此时LinkedList值为{1,2,3,4} 继续从小文件一中读取下一个元素15 min(15 9 6 4 7)=4 存入LinkedList,此时LinkedList值为{1,2,3,4,4} 继续从小文件四中读取下一个元素5 min(15 9 6 5 7)=5 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5} 继续从小文件四中读取下一个元素8 min(15 9 6 8 7)=6 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6} 继续从小文件三中读取下一个元素7 min(15 9 7 8 7)=7 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7} 继续从小文件三中读取下一个元素12 min(15 9 12 8 7)=7 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7} 继续从小文件五中读取下一个元素16 min(15 9 12 8 16)=8 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8} 小文件四读取完毕 min(15 9 12 16)=9 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9} 继续从小文件二中读取下一个元素18 min(15 18 12 16)=12 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12} 小文件三读取完毕 min(15 18 16)=15 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15} 小文件一读取完毕 min(18 16)=16 存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16} 小文件五读取完毕 min(18)=18 小文件二读取完毕 存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}
注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以
优化
为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr
ok我话讲完