各个 ai 平台稍微复杂的代码测试
各个 ai 平台稍微复杂的代码测试
给 ai 的问题
我有一个 yolov8 模型,路径:/media/duyu/model/have_and_none/runs/detect/train66/weights/best.pt
训练集路径:train/labels train/images
验证集路径:val/labels val/labels
训练集和验证集都是 labelme 软件标注的,标注文件也就是.json 文件,labelme 这个软件挺多人用的,你应该知道。
有 3 个标签:have none other,对应的 yolov8 就是 0 1 2
现在我需要你根据我提供信息编写验证模型正确率的脚本。
示例流程:
1. 推理图片: train/images/1.jpg
2. 打开图片对应的标注文件,获取标注文件的框。
3. 将标注的框和推理框进行 iou 匹配,即两个框 iou 有.4,则可以判定为同个框
4. 如果标注的框都能找到推理框,且标签正确,则判定此张图片没问题。
5. 没问题就可以结束这张图的处理了
6. 此时是有问题了,即: 有标注框找不到推理框,或者找到的框标签错误。
7. 标注框和推理框画在图片上,框左边加上字符串标识
- 如: "l_have" "y_none" (l 代表 labelme 的框 y 代表 yolo 的推理框)
8. 保存图片到 model_test 文件夹,文件别改变。
请编写脚本
gpt
- import 一堆库,又不使用
-
加载模型 torch.load,官方写得那么清楚,国内的 ai 都不会犯这个错。
- 给我感觉,就是故意恶心人。
豆包
import os 呢??? 我手动给他补上,执行脚本。 https://i.imgur.com/nZAObvG.png 看来对库认知有问题
通义
连我话都理解错,我只是举例而已。
感觉就像: 太复杂了,我逃避,忽悠过去得了。
通义是我印象最差的,来自之前的积累,傻逼的不像话。
文心
- 上面有 import cv2,又不用,学 gpt 是吧。
- arial.ttf 我又没这个文件
通过 chat 界面来对话测试不太合适,建议直接使用大模型竞技场 https://lmarena.ai/ 来对比测试,没有预制的提示语,更准确。
千问你找错地方了,真正的 Qwen 团队的项目是 qwenlm ,你这是用的是通义千问,落后真正的 Qwen 团队好几个版本迭代
地址: https://chat.qwenlm.ai/
当然可以!这里有一个简单的Python示例,使用了Google的TensorFlow和Keras库来构建一个基本的神经网络模型。这个模型用于手写数字(MNIST数据集)的分类任务。
import tensorflow as tf
from tensorflow.keras import layers
# 创建一个简单的顺序模型
model = tf.keras.Sequential([
layers.Dense(128, activation='relu', input_shape=(784,)),
layers.Dropout(0.2),
layers.Dense(10, activation='softmax')
])
# 编译模型
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])
# 加载数据
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
# 训练模型
model.fit(x_train, y_train, epochs=5)
# 评估模型
model.evaluate(x_test, y_test)
这段代码首先定义了一个包含一个隐藏层的简单神经网络,然后加载并预处理MNIST数据集,接着训练模型,并最后评估其性能。希望这能给你一些灵感!
对于一个屌丝程序员来说,进行AI平台的复杂代码测试时,可以考虑以下几个简单的项目或者测试用例:
-
MNIST手写数字识别:这是一个非常经典的机器学习项目,适合用来测试深度学习模型的训练和预测功能。你可以尝试使用TensorFlow或PyTorch等框架来实现。
-
CIFAR-10图像分类:相比MNIST,CIFAR-10包含更多种类和更复杂的图像,能够更好地检验模型的泛化能力。这同样适用于深度学习框架的测试。
-
BERT文本分类:如果你在使用自然语言处理相关的AI平台,可以尝试使用BERT模型来进行情感分析、新闻分类等任务。这可以测试模型的理解能力和语言处理能力。
-
强化学习游戏AI:比如在Atari游戏上训练AI,或者训练AI玩围棋、国际象棋等。这类测试可以评估AI平台的算法优化能力和计算效率。
-
GAN生成对抗网络:尝试实现一个简单的GAN模型,用于生成图像或音乐。这可以测试AI平台的生成模型能力。
-
时间序列预测:使用LSTM或其他递归神经网络模型预测股票价格、天气变化等。这可以测试AI平台处理序列数据的能力。
以上这些测试用例都可以在网上找到详细的教程和代码示例,非常适合屌丝程序员用来熟悉各种AI平台的功能和性能。