返回总览
GEN COMPARE
Neta 生成 API 国内海外对比
这页只看生成类。两边用同主题角色和元素,跑同一套案例,再按国内做基准去看海外到底差在哪。国内测试时间是北京时间 2026-03-24 10:32,海外测试时间是北京时间 2026-03-24 10:07。
CN 严格通过
4/10
COM 严格通过
5/10
CN 尝试成功率
50.00%
COM 尝试成功率
52.27%
CN 成功平均
53.09 秒
COM 成功平均
48.37 秒
CN 成功 p95
93.52 秒
COM 成功 p95
85.48 秒
CN 总尝试
44
COM 总尝试
44
一句话结论
以国内为基准,海外生成这轮的真实表现
核心生成链路里,国内严格通过 4/6,海外严格通过 5/6。两边抠图都没站住,说明这里先看工程链路,不要先怪模型。两边成功请求的平均时长差距不大。
最大成功率落差
角色加元素远景出图 的海外相对国内差了 -33.33 个百分点。
最大时延落差
联合出图进视频 这项里,海外成功平均时长大约是国内的 1.07 倍。
接口红绿灯
先看每个生成接口现在在国内和海外分别是什么状态。浅绿表示两边都稳,浅红表示问题已经足够明确。
| 接口 | 状态 | 国内 CN | 海外 COM | 怎么读 |
|---|---|---|---|---|
make_image 角色引用 |
好 | 5 / 5 成功,平均 41.07 秒。 | 5 / 5 成功,平均 42.91 秒。 | 两边都稳,差距不大。 |
make_image 元素引用 |
波动 | 4 / 5 成功,有 1 次 303.90 秒后超时。 | 5 / 5 成功,平均 40.09 秒。 | 这项反而是国内更不稳。 |
make_image 角色加元素联合出图 |
好 | 5 / 5 成功,平均 42.84 秒。 | 5 / 5 成功,平均 40.20 秒。 | 两边都稳。 |
make_image 远景变体 |
差 | 3 / 3 成功,但最慢 109.89 秒。 | 2 / 3 成功,有 1 次 Network Error。 | 国内更慢,海外更不稳,这项现在不能算稳态能力。 |
make_video |
好 | 3 / 3 成功,平均 82.69 秒。 | 3 / 3 成功,平均 88.68 秒。 | 两边都能成,但都偏慢。 |
make_song |
波动 | 2 / 3 成功。 | 3 / 3 成功。 | 歌曲这项是国内额外掉了一次。 |
remove_background |
差 | 生成图 0 / 5,角色原图 0 / 5,都是找不到源图。 | 生成图 0 / 5,角色原图 0 / 5,也都是接不住图。 | 两边同类故障,优先看工程链路。 |
remove_background_nocrop |
差 | 生成图 0 / 5,角色原图 0 / 5,都是找不到源图。 | 生成图 0 / 5,角色原图 0 / 5,而且海外 5 / 5 直接限流。 | 这是现在最硬的生成故障。 |
国内 CN
引用角色
CodexEvalCnChar240324
引用元素
CodexEvalCnElem240324
严格通过
4/10
尝试成功率
50.00%
总尝试
44
成功尝试
22
成功平均
53.09 秒
成功 p95
93.52 秒
成功 p99
109.89 秒
最常见区间
35-40 秒
海外 COM
引用角色
CodexEvalComChar220246
引用元素
CodexEvalComElem220246
严格通过
5/10
尝试成功率
52.27%
总尝试
44
成功尝试
23
成功平均
48.37 秒
成功 p95
85.48 秒
成功 p99
116.55 秒
最常见区间
35-40 秒
以国内为基准看海外
读法统一。 成功率看稳不稳,完整度看返回字段够不够用,成功平均和 p95 看常态速度和慢尾。海外/国内大于 1 代表海外更慢。
| 案例 | CN 成功率 | COM 成功率 | 差值 | CN 完整度 | COM 完整度 | CN 成功平均 | COM 成功平均 | 海外/国内 | CN p95 | COM p95 | 怎么读 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 角色引用出图 | 100.00% | 100.00% | +0.00 个百分点 | 100.00% | 100.00% | 41.07 秒 | 42.91 秒 | 1.04x | 52.99 秒 | 52.10 秒 | 两边都稳 |
| 元素引用出图 | 80.00% | 100.00% | +20.00 个百分点 | 86.67% | 100.00% | 43.72 秒 | 40.09 秒 | 0.92x | 303.90 秒 | 47.60 秒 | 海外稳,国内不稳 |
| 角色加元素联合出图 | 100.00% | 100.00% | +0.00 个百分点 | 100.00% | 100.00% | 42.84 秒 | 40.20 秒 | 0.94x | 53.08 秒 | 46.33 秒 | 两边都稳 |
| 角色加元素远景出图 | 100.00% | 66.67% | -33.33 个百分点 | 100.00% | 66.67% | 63.17 秒 | 41.70 秒 | 0.66x | 109.89 秒 | 47.67 秒 | 国内稳,海外不稳 |
| 联合出图进视频 | 100.00% | 100.00% | +0.00 个百分点 | 100.00% | 100.00% | 82.69 秒 | 88.68 秒 | 1.07x | 93.52 秒 | 116.55 秒 | 两边都稳 |
| 抠图生成图 | 0.00% | 0.00% | +0.00 个百分点 | 0.00% | 0.00% | 1.35 秒 | 2.67 秒 | 1.98x | 1.43 秒 | 4.10 秒 | 两边都坏 |
| 抠图角色原图 | 0.00% | 0.00% | +0.00 个百分点 | 0.00% | 0.00% | 1.35 秒 | 2.53 秒 | 1.87x | 1.49 秒 | 3.07 秒 | 两边都坏 |
| 无裁切抠图生成图 | 0.00% | 0.00% | +0.00 个百分点 | 0.00% | 0.00% | 1.31 秒 | 2.58 秒 | 1.97x | 1.38 秒 | 2.89 秒 | 两边都坏 |
| 无裁切抠图角色原图 | 0.00% | 0.00% | +0.00 个百分点 | 0.00% | 0.00% | 1.35 秒 | 2.67 秒 | 1.98x | 1.40 秒 | 3.53 秒 | 两边都坏 |
| 歌曲生成 | 66.67% | 100.00% | +33.33 个百分点 | 77.78% | 100.00% | 68.04 秒 | 49.00 秒 | 0.72x | 73.51 秒 | 52.42 秒 | 海外稳,国内不稳 |
逐项原始数字
| 线路 | 案例 | 成功/次数 | 成功率 | 完整度 | 平均 | p50 | p75 | p90 | p95 | p99 | 区间 | 最常见区间 | 样本 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CN | 角色引用出图 | 5/5 | 100.00% | 100.00% | 41.07 秒 | 38.71 秒 | 50.89 秒 | 52.99 秒 | 52.99 秒 | 52.99 秒 | 28-53 秒 | 50-55 秒 | 打开 |
| CN | 元素引用出图 | 4/5 | 80.00% | 86.67% | 95.75 秒 | 46.76 秒 | 59.01 秒 | 303.90 秒 | 303.90 秒 | 303.90 秒 | 32-304 秒 | 30-40 秒 | 打开 |
| CN | 角色加元素联合出图 | 5/5 | 100.00% | 100.00% | 42.84 秒 | 44.71 秒 | 45.20 秒 | 53.08 秒 | 53.08 秒 | 53.08 秒 | 35-53 秒 | 30-35 秒 | 打开 |
| CN | 角色加元素远景出图 | 3/3 | 100.00% | 100.00% | 63.17 秒 | 42.66 秒 | 109.89 秒 | 109.89 秒 | 109.89 秒 | 109.89 秒 | 37-110 秒 | 35-40 秒 | 打开 |
| CN | 联合出图进视频 | 3/3 | 100.00% | 100.00% | 82.69 秒 | 87.50 秒 | 93.52 秒 | 93.52 秒 | 93.52 秒 | 93.52 秒 | 67-94 秒 | 65-70 秒 | 打开 |
| CN | 抠图生成图 | 0/5 | 0.00% | 0.00% | 1.35 秒 | 1.35 秒 | 1.40 秒 | 1.43 秒 | 1.43 秒 | 1.43 秒 | 1.2-1.4 秒 | 1.0-1.5 秒 | - |
| CN | 抠图角色原图 | 0/5 | 0.00% | 0.00% | 1.35 秒 | 1.31 秒 | 1.33 秒 | 1.49 秒 | 1.49 秒 | 1.49 秒 | 1.3-1.5 秒 | 1.0-1.5 秒 | - |
| CN | 无裁切抠图生成图 | 0/5 | 0.00% | 0.00% | 1.31 秒 | 1.31 秒 | 1.32 秒 | 1.38 秒 | 1.38 秒 | 1.38 秒 | 1.3-1.4 秒 | 1.0-1.5 秒 | - |
| CN | 无裁切抠图角色原图 | 0/5 | 0.00% | 0.00% | 1.35 秒 | 1.34 秒 | 1.35 秒 | 1.40 秒 | 1.40 秒 | 1.40 秒 | 1.3-1.4 秒 | 1.0-1.5 秒 | - |
| CN | 歌曲生成 | 2/3 | 66.67% | 77.78% | 60.81 秒 | 62.58 秒 | 73.51 秒 | 73.51 秒 | 73.51 秒 | 73.51 秒 | 46-74 秒 | 45-50 秒 | 打开 |
| COM | 角色引用出图 | 5/5 | 100.00% | 100.00% | 42.91 秒 | 45.07 秒 | 46.03 秒 | 52.10 秒 | 52.10 秒 | 52.10 秒 | 34-52 秒 | 45-50 秒 | 打开 |
| COM | 元素引用出图 | 5/5 | 100.00% | 100.00% | 40.09 秒 | 39.08 秒 | 40.38 秒 | 47.60 秒 | 47.60 秒 | 47.60 秒 | 35-48 秒 | 35-40 秒 | 打开 |
| COM | 角色加元素联合出图 | 5/5 | 100.00% | 100.00% | 40.20 秒 | 41.24 秒 | 44.79 秒 | 46.33 秒 | 46.33 秒 | 46.33 秒 | 34-46 秒 | 30-35 秒 | 打开 |
| COM | 角色加元素远景出图 | 2/3 | 66.67% | 66.67% | 31.86 秒 | 35.73 秒 | 47.67 秒 | 47.67 秒 | 47.67 秒 | 47.67 秒 | 12-48 秒 | 10-15 秒 | 打开 |
| COM | 联合出图进视频 | 3/3 | 100.00% | 100.00% | 88.68 秒 | 85.48 秒 | 116.55 秒 | 116.55 秒 | 116.55 秒 | 116.55 秒 | 64-117 秒 | 60-65 秒 | 打开 |
| COM | 抠图生成图 | 0/5 | 0.00% | 0.00% | 2.67 秒 | 2.26 秒 | 2.75 秒 | 4.10 秒 | 4.10 秒 | 4.10 秒 | 2-4 秒 | 2.0-2.5 秒 | - |
| COM | 抠图角色原图 | 0/5 | 0.00% | 0.00% | 2.53 秒 | 2.43 秒 | 2.88 秒 | 3.07 秒 | 3.07 秒 | 3.07 秒 | 2-3 秒 | 2.0-2.5 秒 | - |
| COM | 无裁切抠图生成图 | 0/5 | 0.00% | 0.00% | 2.58 秒 | 2.74 秒 | 2.74 秒 | 2.89 秒 | 2.89 秒 | 2.89 秒 | 2.1-2.9 秒 | 2.5-3.0 秒 | - |
| COM | 无裁切抠图角色原图 | 0/5 | 0.00% | 0.00% | 2.67 秒 | 2.63 秒 | 2.66 秒 | 3.53 秒 | 3.53 秒 | 3.53 秒 | 2-4 秒 | 2.0-2.5 秒 | - |
| COM | 歌曲生成 | 3/3 | 100.00% | 100.00% | 49.00 秒 | 51.39 秒 | 52.42 秒 | 52.42 秒 | 52.42 秒 | 52.42 秒 | 43-52 秒 | 50-55 秒 | 打开 |
这轮更像工程问题还是算法问题
先看工程
这页真正有硬数字的是成功率、完整度、时延和错误信息。这几项指向的是服务链路、任务调度、下游处理和返回结构。只要角色引用、元素引用、联合出图这些核心入口能连续成功,就不能直接把锅甩给模型。
算法侧这轮只做人眼抽看,不做自动打分
生成内容像不像预期,这次不做自动匹配率,避免拿一套站不住的分数误导判断。页面里把样例直接放出来,角色特征和元素氛围是否保住,只做人工抽看。
国内 CN 样例直看
海外 COM 样例直看
指标怎么算
| 指标 | 怎么算 | 这次怎么用 |
|---|---|---|
| 成功率 | 某个案例里,成功尝试数除以总尝试数。成功要求 task_status 是 SUCCESS,首个产物 status 是 SUCCESS,产物类型也要和案例预期一致。 | 看这一项稳不稳,有没有偶发失败。 |
| 严格通过 | 一个案例里,所有尝试都成功,且平均完整度等于 100%。 | 看这一项能不能当成稳定能力,而不是偶尔撞上。 |
| 返回完整度 | 先算顶层字段填充率,再算首个产物字段填充率,最后两者取平均。顶层字段和产物字段是人工定义的最小可用字段,不是临时猜的,也不是从数据库反推的。 | 看接口回来的东西够不够后续链路继续用。 |
| 延迟 | 从命令发出到结果返回的总时长。页面给平均、p50、p75、p90、p95、p99、最快到最慢区间,还补了最常见延迟区间。 | 平均看常态速度,p95 和 p99 看慢尾。 |
| 最常见延迟区间 | 把时长按固定宽度分桶后,样本最多的那个区间。短请求用更细的桶,长请求用更宽的桶。 | 看常见等待感受,不只盯平均值。 |
| 人工字段定义 | 直接写在评测数据集里。因为当前不能靠一次请求自动拿到完整、可信、可执行的返回字段定义,所以先用每个接口最小可用字段集来评测。 | 保证不同线路跑的是同一把尺子。 |