Nodejs的http parser原来是这样坑爹的

原文在這 http://www.chmod777self.com/2013/08/sigh.html 不解釋自己看求performance也不是這樣搞的

parser->method = (enum http_method) 0; parser->index = 1; switch (ch) { case ‘C’: parser->method = HTTP_CONNECT; /* or COPY, CHECKOUT / break; case ‘D’: parser->method = HTTP_DELETE; break; case ‘G’: parser->method = HTTP_GET; break; case ‘H’: parser->method = HTTP_HEAD; break; case ‘L’: parser->method = HTTP_LOCK; break; case ‘M’: parser->method = HTTP_MKCOL; / or MOVE, MKACTIVITY, MERGE, M-SEARCH / break; case ‘N’: parser->method = HTTP_NOTIFY; break; case ‘O’: parser->method = HTTP_OPTIONS; break; case ‘P’: parser->method = HTTP_POST; / or PROPFIND|PROPPATCH|PUT|PATCH|PURGE / break; case ‘R’: parser->method = HTTP_REPORT; break; case ‘S’: parser->method = HTTP_SUBSCRIBE; / or SEARCH / break; case ‘T’: parser->method = HTTP_TRACE; break; case ‘U’: parser->method = HTTP_UNLOCK; / or UNSUBSCRIBE */ break; default: SET_ERRNO(HPE_INVALID_METHOD); goto error; } parser->state = s_req_method; …

eggper 1楼

标题：Node.js 的 HTTP Parser 原来是这样坑爹的

原文链接：http://www.chmod777self.com/2013/08/sigh.html

解释

在 Node.js 中，HTTP 请求解析器（http-parser）是一个用于解析 HTTP 请求和响应的核心模块。虽然它功能强大且高效，但有时其内部实现会显得不够直观，甚至存在一些潜在的问题。

在上述代码片段中，我们看到的是一个简单的状态机，用于解析 HTTP 请求的方法（如 GET, POST, DELETE 等）。这个状态机通过一个 switch 语句来匹配请求方法的第一个字符，并根据该字符设置相应的枚举值。这种实现方式看似简洁，但实际上隐藏了一些问题。

示例代码

const httpParser = require('http-parser-js');

function parseRequestMethod(data) {
    const parser = new httpParser.HttpParser(httpParser.RESPONSE);

    // 模拟接收到的数据
    const requestData = 'GET / HTTP/1.1\r\nHost: example.com\r\n\r\n';
    
    // 解析数据
    const result = parser.execute(requestData);
    
    if (result === httpParser.PARSING_INCOMPLETE) {
        console.log('数据未完全解析');
    } else if (result === httpParser.PARSING_OK) {
        console.log(`解析成功，请求方法: ${httpParser.methods[parser.method]}`);
    } else {
        console.log('解析错误');
    }
}

parseRequestMethod();

问题分析

状态机的复杂性：
- 上述代码中的 switch 语句只是处理了请求方法的第一个字符。如果请求方法是多字符的（如 POST），则需要进一步处理。
- 这种处理方式会导致代码变得冗长且难以维护。
性能问题：
- 虽然 switch 语句在某些情况下可以提高性能，但在处理大量请求时，频繁地切换状态和执行条件判断可能会导致性能瓶颈。
错误处理：
- 如果解析过程中遇到不合法的请求方法，如 X-INVALID-METHOD，则会触发错误处理逻辑。这可能导致不必要的错误日志和调试困难。

结论

尽管 http-parser 在性能上表现良好，但其内部实现的一些细节可能会给开发者带来困扰。对于复杂的 HTTP 请求解析任务，建议使用更高级的抽象或第三方库，以避免潜在的陷阱并提高代码的可读性和可维护性。

希望这些解释和示例代码能帮助你更好地理解 Node.js 的 HTTP 解析器及其潜在问题。

sinazl 2楼

没重复，这样不可以么

nodeper 3楼

果然很烂

sinazl 4楼

好像判断是有问题，仅对首字母进行判断~

eggper 5楼

从这个issue上看，是因为node没做自定义HTTP方法的支持。

sinazl 6楼

目前还是这么判断的

sinazl 7楼

从你提供的内容来看，问题主要在于Node.js的HTTP解析器在处理HTTP请求的方法（如GET、POST等）时存在一些潜在的问题。具体来说，代码中使用了一个switch-case语句来根据字符匹配来设置不同的HTTP方法，这种方式可能会导致一些意想不到的行为。

示例代码

假设我们有一个简单的HTTP服务器，用于接收HTTP请求并打印出请求的方法：

const http = require('http');

const server = http.createServer((req, res) => {
    console.log(`Request method: ${req.method}`);
    res.end('Hello World\n');
});

server.listen(3000, () => {
    console.log('Server listening on port 3000');
});

在这个简单的例子中，req.method会直接获取请求的方法（如GET或POST）。然而，在Node.js的底层HTTP解析器中，处理HTTP方法的方式可能更为复杂，并且存在一些潜在的问题。

解释

在Node.js的HTTP解析器中，处理HTTP方法的方式是通过一个状态机来进行的。例如，当解析器遇到字符’C’时，它可能会将方法设置为HTTP_CONNECT。然而，如果某些字符没有被正确地处理，或者解析器的状态发生了错误，则可能会导致解析出错。

例如，上述代码中的switch-case语句：

parser->method = (enum http_method) 0;
parser->index = 1;
switch (ch) {
    case 'C': parser->method = HTTP_CONNECT; /* or COPY, CHECKOUT */
    case 'D': parser->method = HTTP_DELETE; break;
    // 其他case语句
    default:
        SET_ERRNO(HPE_INVALID_METHOD);
        goto error;
}

如果在case 'C':之后没有break，则所有后续的case语句也会被执行，这会导致错误的HTTP方法被设置。虽然这是一个C语言的例子，但在Node.js的HTTP解析器中也可能存在类似的逻辑问题。

总结

Node.js的HTTP解析器在处理HTTP请求的方法时可能会有一些陷阱，尤其是在状态机的设计和字符处理方面。为了避免这些问题，开发者应该仔细检查和测试HTTP解析器的实现，确保其能够正确处理各种HTTP请求。