Nodejs环境下关于hadoop的定位的困惑

在大学的时候搞过一些hadoop，但是对于hadoop的实际应用场景有些疑惑，hadoop的长处在于对大规模的数据的处理，但是对于一些应用的架构总觉得不适合hadoop，比如：一个移动app，需要上传图片，然后对图片进行处理，返回处理结果这种的场景，总是觉得hadoop不适合做这种的处理，应该用传统的nginx负载均衡的方式来做，不知道有没有哪位大大能够指点一下迷津。

nodeper 1楼

Node.js环境下关于Hadoop的定位的困惑

在大学的时候，我曾经接触过Hadoop，并且了解了一些基本的概念和使用方法。然而，对于Hadoop的实际应用场景，我还是有一些疑惑。Hadoop以其强大的大数据处理能力著称，但当我考虑实际的应用架构时，却感觉它并不适合某些特定的场景。

例如，假设有一个移动应用，用户可以上传图片，应用需要对这些图片进行处理（如缩放、裁剪等），并返回处理后的结果。在这种情况下，我总觉得Hadoop并不是最佳选择，而传统的方法（如使用Nginx进行负载均衡）可能更为合适。

那么，为什么Hadoop在这种场景下可能不是最优的选择呢？以下是我个人的一些思考：

实时性要求：Hadoop主要用于批处理任务，而不是实时处理。对于移动应用来说，实时响应用户请求是非常重要的。如果用户上传一张图片后需要等待较长时间才能看到处理结果，这显然是不可接受的。
复杂度：虽然Hadoop提供了强大的数据处理能力，但它的架构相对复杂，对于简单的图片处理任务来说，显得有些“大材小用”。
成本效益：Hadoop通常部署在大型集群上，维护成本较高。对于小型项目或应用，使用更轻量级的解决方案可能更为经济实惠。

示例代码

尽管如此，我们可以考虑将Hadoop与其他技术结合使用，以实现更好的性能和灵活性。例如，可以使用Node.js来处理用户的请求，并将图片上传到HDFS（Hadoop分布式文件系统）。然后，可以启动MapReduce作业来处理这些图片，并将结果存储回HDFS。最后，Node.js可以从HDFS中读取处理后的图片并返回给用户。

Node.js + Hadoop 示例代码

const http = require('http');
const fs = require('fs');
const { exec } = require('child_process');

// 创建HTTP服务器
const server = http.createServer((req, res) => {
    if (req.url === '/upload') {
        let body = [];
        req.on('data', chunk => {
            body.push(chunk);
        }).on('end', () => {
            const data = Buffer.concat(body).toString();
            
            // 将图片保存到本地
            fs.writeFileSync('image.jpg', data);

            // 启动MapReduce作业
            exec('hadoop jar /path/to/hadoop-streaming.jar -input image.jpg -output /output -mapper "mapper.py" -reducer "reducer.py"', (error, stdout, stderr) => {
                if (error) {
                    console.error(`exec error: ${error}`);
                    return;
                }
                
                // 从HDFS读取处理后的图片
                exec('hadoop fs -cat /output/image_processed.jpg', (error, stdout, stderr) => {
                    if (error) {
                        console.error(`exec error: ${error}`);
                        return;
                    }

                    // 返回处理后的图片
                    res.writeHead(200, {'Content-Type': 'image/jpeg'});
                    res.end(stdout);
                });
            });
        });
    }
});

server.listen(3000, () => {
    console.log('Server is running on port 3000');
});

在这个例子中，我们创建了一个简单的HTTP服务器，用于接收图片上传。然后，通过exec命令调用Hadoop的MapReduce作业来处理图片。最后，从HDFS中读取处理后的图片并返回给客户端。

希望这个示例能帮助你更好地理解如何在Node.js环境中使用Hadoop。

songsunli 2楼

hadoop 是用于大数据。上传图片的 hadoop 的话，图片得够大（分成小块处理），图片处理算法也得是分布式。

yuanlaile 3楼

hadoop的离线应用，你说的是时时应用。

不是同一类型的

caililin 4楼

是这样的，我理解的hadoop是用于超大数据的处理，比如我有1TB的数据，要对数据的内容进行分析，然后hadoop的job tracker会将不同的任务分发到node节点来计算，那么对于这种移动图片上传的应用真的只能用机器堆积的方式进行扩展吗?有没有更好的版本。

vueper 5楼

我觉得这个并不是问题的关键，时时应用和hadoop并不矛盾，我觉得问题的关键在于上传job的切分，对于这种需要对一张图片进行分析的项目确实不适合用hadoop来做，但是有没有更好的架构，总觉得目前的方式有些原始

itying888 6楼作者

应该用七牛啊。

gougou168 7楼

七牛的东西作为静态存储还是不错的，但是我们很多情况下需要对图片进行复杂的处理，不是加水印这样简单的任务。

yuanlaile 8楼

Hadoop 是一个分布式存储和计算框架，主要用于处理大规模数据集。它的强项在于批处理、离线分析和大数据存储。然而，对于实时性和低延迟需求的应用，如图片处理、实时日志分析等场景，Hadoop 并不是最佳选择。

在你的例子中，一个移动 App 需要上传图片并进行处理，这种场景更适合使用一个轻量级的服务来处理这些任务。例如，可以使用 Node.js 来接收上传的图片，并调用其他服务或库来进行图片处理。处理完成后，再将结果返回给客户端。

下面是一个简单的示例代码，展示如何使用 Node.js 接收上传的图片文件并将其保存到本地目录：

const express = require('express');
const multer = require('multer');

const app = express();
const upload = multer({ dest: 'uploads/' });

app.post('/upload', upload.single('image'), (req, res) => {
    const filePath = req.file.path;
    // 调用其他服务或库来处理图片
    processImage(filePath);
    res.send({ message: 'Image uploaded successfully!' });
});

function processImage(filePath) {
    // 使用 ImageMagick 或其他图片处理库进行图片处理
    // 这里只是一个示例
    console.log(`Processing image at ${filePath}`);
}

app.listen(3000, () => {
    console.log('Server is running on port 3000');
});

在这个示例中，我们使用 Express 和 Multer 来处理 HTTP POST 请求中的文件上传。/upload 路径用于接收图片文件，并将其保存到 uploads 目录下。之后，你可以调用其他服务或库（如 ImageMagick）来处理图片。

总结来说，在 Hadoop 环境下，你可以使用 Node.js 来构建一个轻量级的服务来处理这类实时性较高的请求。而对于大规模数据的批处理任务，可以考虑使用 Hadoop。