Golang读取大文件时的内存占用问题

Golang读取大文件时的内存占用问题我使用bufio包中的NewScanner()函数从磁盘读取文件（约570MB），并将Text()返回的行追加到字符串切片中。我想查看程序的内存消耗，于是在Linux中运行了top命令，但令我惊讶的是，我的代码占用的驻留内存大约在950MB-1GB之间徘徊。我理解由于我将整个文件内容读取到字符串切片中，编译器需要分配与文件大小相等的内存来在RAM中保存内容，但额外的约400MB内存去哪儿了？

我的函数-

yibo5220 1楼

嗯…这确实很奇怪 😊

更多关于Golang读取大文件时的内存占用问题的实战系列教程也可以访问 https://www.itying.com/category-94-b0.html

phonegap100 2楼

这可能是切片增长的方式。但这只是一个假设，也可能是因为垃圾回收器尚未收集某些内容。

如果你提前知道行数，尝试设置切片的初始容量，也许这会有所帮助？

ionicwang 3楼

这个问题是17天前发布的读取大文件时的内存使用情况的副本。

ionicwang 4楼

在处理大文件时，Go语言使用bufio.NewScanner和字符串切片存储内容确实会导致内存占用显著增加，这通常是由于以下几个原因造成的：

字符串编码和内存分配：Go语言中的字符串是UTF-8编码的不可变字节序列，每个字符串在内存中占用的大小可能比原始文件字节数更大，因为字符串头部包含长度和指针信息。此外，当您使用scanner.Text()时，它会为每一行创建一个新的字符串，这些字符串被追加到切片中，导致内存碎片和额外开销。
切片增长机制：Go的切片在追加元素时，如果容量不足，会动态分配更大的底层数组（通常是当前容量的两倍），这可能导致临时内存占用远超过实际数据大小。例如，一个570MB的文件在读取过程中，切片可能多次重新分配，累积占用更多内存。
垃圾回收和驻留内存：Go的垃圾回收器可能不会立即释放未使用的内存，导致top命令显示的驻留内存（RSS）较高。此外，扫描器本身使用的缓冲区（默认为64KB）和临时变量也会增加内存使用。
系统级因素：Linux的top命令显示的内存包括进程的所有内存映射，如堆、栈和共享库，这可能比实际数据大小多。

在您的场景中，额外约400MB的内存可能来自于：

字符串切片的重新分配和头部开销。
扫描器的缓冲区和其他临时数据结构。
Go运行时和垃圾回收的保留内存。

为了优化内存占用，建议使用流式处理或更高效的数据结构。以下是一个改进的示例代码，使用bufio.NewReader逐行处理，避免将整个文件加载到内存中：

package main

import (
    "bufio"
    "fmt"
    "log"
    "os"
)

func main() {
    file, err := os.Open("largefile.txt")
    if err != nil {
        log.Fatal(err)
    }
    defer file.Close()

    reader := bufio.NewReader(file)
    for {
        line, err := reader.ReadString('\n')
        if err != nil {
            break // 到达文件末尾或出错
        }
        // 处理每一行，例如打印或分析，而不存储到切片
        fmt.Print(line)
    }
}

如果必须存储所有行，可以考虑使用字节切片或预分配切片容量来减少重新分配：

package main

import (
    "bufio"
    "log"
    "os"
)

func main() {
    file, err := os.Open("largefile.txt")
    if err != nil {
        log.Fatal(err)
    }
    defer file.Close()

    var lines []string
    scanner := bufio.NewScanner(file)
    // 预分配切片容量（如果知道大致行数）
    lines = make([]string, 0, 1000000) // 例如预分配100万行

    for scanner.Scan() {
        lines = append(lines, scanner.Text())
    }

    if err := scanner.Err(); err != nil {
        log.Fatal(err)
    }
    // 使用lines切片
}

通过这些方法，可以显著降低内存占用。如果需要进一步优化，可以使用pprof工具分析内存使用情况。