各个 ai 平台稍微复杂的代码测试

给 ai 的问题

我有一个 yolov8 模型,路径:/media/duyu/model/have_and_none/runs/detect/train66/weights/best.pt
训练集路径:train/labels train/images
验证集路径:val/labels val/labels
训练集和验证集都是 labelme 软件标注的,标注文件也就是.json 文件,labelme 这个软件挺多人用的,你应该知道。
有 3 个标签:have none other,对应的 yolov8 就是 0 1 2

现在我需要你根据我提供信息编写验证模型正确率的脚本。
示例流程：
1. 推理图片: train/images/1.jpg
2. 打开图片对应的标注文件,获取标注文件的框。
3. 将标注的框和推理框进行 iou 匹配,即两个框 iou 有.4,则可以判定为同个框
4. 如果标注的框都能找到推理框,且标签正确,则判定此张图片没问题。
5. 没问题就可以结束这张图的处理了
6. 此时是有问题了,即: 有标注框找不到推理框,或者找到的框标签错误。
7. 标注框和推理框画在图片上,框左边加上字符串标识
    - 如： "l_have"  "y_none"   (l 代表 labelme 的框  y 代表 yolo 的推理框)
8. 保存图片到 model_test 文件夹,文件别改变。
 
请编写脚本

gpt

import 一堆库,又不使用
加载模型 torch.load,官方写得那么清楚,国内的 ai 都不会犯这个错。
- 给我感觉,就是故意恶心人。

豆包

import os 呢??? 我手动给他补上,执行脚本。 https://i.imgur.com/nZAObvG.png 看来对库认知有问题

通义

连我话都理解错,我只是举例而已。

感觉就像: 太复杂了,我逃避,忽悠过去得了。

通义是我印象最差的,来自之前的积累,傻逼的不像话。

文心

上面有 import cv2,又不用,学 gpt 是吧。
arial.ttf 我又没这个文件

sinazl 1楼

通过 chat 界面来对话测试不太合适，建议直接使用大模型竞技场 https://lmarena.ai/ 来对比测试，没有预制的提示语，更准确。

h691938207 2楼

千问你找错地方了，真正的 Qwen 团队的项目是 qwenlm ，你这是用的是通义千问，落后真正的 Qwen 团队好几个版本迭代
地址： https://chat.qwenlm.ai/

sinazl 3楼

刚看你消息,原来是我用错姿势了。

***
然后我将旧问题给千问,让我无语,一样智障。

 1. 3447682963FLOPs 2. 14243643203FLOPs 3. 2.7GFLOPs 4. 2707554304FLOPs 5. 28600000000FLOPs 求以上加起来,并换算成 tops 。 

sinazl 4楼

当然可以！这里有一个简单的Python示例，使用了Google的TensorFlow和Keras库来构建一个基本的神经网络模型。这个模型用于手写数字（MNIST数据集）的分类任务。

import tensorflow as tf
from tensorflow.keras import layers

# 创建一个简单的顺序模型
model = tf.keras.Sequential([
    layers.Dense(128, activation='relu', input_shape=(784,)),
    layers.Dropout(0.2),
    layers.Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 加载数据
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

# 训练模型
model.fit(x_train, y_train, epochs=5)

# 评估模型
model.evaluate(x_test, y_test)

这段代码首先定义了一个包含一个隐藏层的简单神经网络，然后加载并预处理MNIST数据集，接着训练模型，并最后评估其性能。希望这能给你一些灵感！

songsunli 5楼

对于一个屌丝程序员来说，进行AI平台的复杂代码测试时，可以考虑以下几个简单的项目或者测试用例：

MNIST手写数字识别：这是一个非常经典的机器学习项目，适合用来测试深度学习模型的训练和预测功能。你可以尝试使用TensorFlow或PyTorch等框架来实现。
CIFAR-10图像分类：相比MNIST，CIFAR-10包含更多种类和更复杂的图像，能够更好地检验模型的泛化能力。这同样适用于深度学习框架的测试。
BERT文本分类：如果你在使用自然语言处理相关的AI平台，可以尝试使用BERT模型来进行情感分析、新闻分类等任务。这可以测试模型的理解能力和语言处理能力。
强化学习游戏AI：比如在Atari游戏上训练AI，或者训练AI玩围棋、国际象棋等。这类测试可以评估AI平台的算法优化能力和计算效率。
GAN生成对抗网络：尝试实现一个简单的GAN模型，用于生成图像或音乐。这可以测试AI平台的生成模型能力。
时间序列预测：使用LSTM或其他递归神经网络模型预测股票价格、天气变化等。这可以测试AI平台处理序列数据的能力。

以上这些测试用例都可以在网上找到详细的教程和代码示例，非常适合屌丝程序员用来熟悉各种AI平台的功能和性能。