Could This Be a Better Test for AGI?

Featured

Why the ability to explain complex ideas simply might be the truest sign of general intelligence.


Introduction

How do we know when we’ve truly built an artificial general intelligence (AGI)? The traditional tests — like the Turing Test — measure whether a machine can mimic human conversation. But what if we set the bar higher?

What if we asked an AI to explain the world to us?

In this post, I propose a human-centric, communication-first alternative to AGI testing. One that goes beyond mimicking us — and instead, helps us understand.


A Simpler, Sharper Benchmark: Can an AI Explain Science in Plain English?

The core idea is simple:

Can an AI take a complex scientific concept and explain it in clear, plain English — the kind of explanation any adult with a basic education could understand?

To succeed, the AI needs to:

  • Truly understand the original concept

  • Know what a non-expert likely does and doesn’t know

  • Identify the core message

  • Use analogy, metaphor, and simple structure to bring that idea to life

This isn’t just translation. It’s teaching. And teaching requires a type of intelligence that’s flexible, context-aware, and empathetic — traits we should expect from any true AGI.


Benchmark Example: Time Dilation

To test this idea, we created a “gold standard” explanation — a benchmark all other AI-generated outputs can be measured against. Here’s how an ideal explanation might look:

When you move really, really fast — close to the speed of light — something strange happens: time actually slows down for you compared to someone who isn’t moving as fast.

It’s not just your imagination or a trick of the clock. It’s real. According to Einstein’s theory of special relativity, time stretches out when you go faster. Scientists call this “time dilation.”

Let’s say two twins are born at the same time. One of them takes a super-fast spaceship ride around the galaxy. When they return, they might have only aged a few years — but the twin who stayed on Earth has aged decades.

This isn’t science fiction — it’s been confirmed with atomic clocks. Time isn’t fixed — it flows differently depending on how fast you’re moving.

This explanation hits the sweet spot: accurate, clear, engaging, and metaphorically rich.


✍️ Bonus Test: From Nonlinear Speech to Logical Clarity

But explaining science isn’t the only measure of understanding. What if an AI could also translate the way people naturally speak — especially when that speech is raw, emotional, or fragmented — into structured, logical reasoning?

We called this the Nonlinear Thought Structuring Test (NTST). Here’s how it works:

Nonlinear Input:

“You trust those people? They said one thing last year, now they say the opposite. First it’s ‘safe,’ then it’s ‘wait for data.’ If they were really sure, they wouldn’t keep changin’ their tune. Makes you think they ain’t got a clue.”

Linear Output:

  1. Authorities have contradicted themselves over time.

  2. This inconsistency creates doubt about their confidence or competence.

  3. If someone keeps changing their position, it suggests uncertainty or lack of knowledge.

  4. Therefore, it’s hard to fully trust them.

This type of task requires an AI to:

  • Recognize unstated premises and implied logic

  • Reconstruct arguments buried in storytelling, slang, or poetic form

  • Retain emotional tone and context — without distortion

In other words: it has to understand the speaker’s mindset, not just their words.


AGI Testing That Centers Humans

These tests don’t just challenge AI — they challenge our assumptions about what intelligence is. Instead of:

  • Solving abstract math problems

  • Winning Go

  • Passing standardized exams

…we’re asking AI to meet us where we are, and explain the world in ways that make sense.

And if it can do that consistently — across physics, ethics, poetry, and emotion?

Then maybe that’s the true sign of general intelligence.


Next Steps: Building the Test Suite

Here’s a vision for how we could formalize this into a scalable AGI benchmark:

1. Scientific Clarity Test (ACB)

  • Input: technical excerpt

  • Output: plain English explanation

  • Evaluation: clarity, accuracy, engagement, and confidence (human-rated)

2. Nonlinear Reasoning Test (NTST)

  • Input: raw or emotional spoken text

  • Output: logically structured argument

  • Evaluation: preservation of meaning, tone, and clarity

3. Bonus Modes

  • Metaphor conversion (“Explain CRISPR like a kitchen tool”)

  • Cultural adaptation (“Reframe for a 12-year-old in Ghana”)

  • Back-translation challenge (Can another AI reverse it?)


Final Thoughts

If an AI can:

  • Teach a child why CRISPR matters,

  • Translate a poet’s frustration into a rational argument,

  • And explain quantum mechanics using a vending machine metaphor…

…then maybe we’re closer to AGI than we think.

Or at the very least, we’ll have built a machine that makes us all a little smarter.

And that’s a test worth running.

Amsterdam & AI: Een persoonlijke kijk op een stad in transitie

Amsterdam heeft altijd een speciale plaats in mijn hart gehad. Mijn band met deze stad begon in 1995, toen ik Mario Lap bezocht, destijds hoofd van de in Amsterdam gevestigde stichting Drugtext, om te spreken over het vooruitstrevende Nederlandse drugsbeleid. Tijdens die bezoeken ontmoette ik ook de voorzitter van de coffeeshopvereniging — ervaringen die mijn respect voor de ethische en pragmatische houding van Nederland alleen maar versterkten. Die benadering had invloed ver buiten de landsgrenzen, tot zelfs in de legaliseringsbewegingen in de VS.

In recentere jaren is mijn band met Amsterdam opnieuw verdiept via mijn professionele werk met het AI- en roboticabedrijf SingularityNET. Ons hoofd van de community, Peter, woont in Amsterdam en speelt een actieve rol in onze wereldwijde activiteiten. Hoewel het officiële hoofdkantoor van het bedrijf inmiddels om strategische en operationele redenen naar Zwitserland is verplaatst, blijft Amsterdam een belangrijke stad binnen ons netwerk — zowel qua talent als ideeën. Juist daarom is het relevant om stil te staan bij de vraag hoe Nederland zich positioneert binnen het mondiale AI-landschap.


Nederland en AI: Te laat, te voorzichtig?

Hoewel Nederland bekendstaat om zijn innovatiekracht, is het AI-beleid van de Nederlandse overheid onderwerp van groeiende kritiek. Experts, bedrijven en maatschappelijke organisaties stellen dat de benadering te reactief is geweest, met onvoldoende visie en daadkracht.

Te laat en te terughoudend

Waar landen als Frankrijk en het VK al jaren werken aan proactieve AI-strategieën, lijkt Nederland vooral in te grijpen nadat er problemen ontstaan. Zo moest het risicoselectiesysteem SyRI, dat bedoeld was om fraude in de sociale zekerheid op te sporen, in 2020 worden stopgezet nadat een rechter oordeelde dat het mensenrechten schond. Het systeem discrimineerde aantoonbaar tegen mensen met een migratieachtergrond en mensen met een laag inkomen.

Ook in Rotterdam veroorzaakte een algoritme voor fraude-opsporing grote onrust: alleenstaande moeders en inwoners met een niet-westerse achtergrond werden onevenredig vaak als ‘risicogeval’ bestempeld — zonder transparantie of duidelijke mogelijkheid tot bezwaar.

Bedrijven vluchten weg

Een ander pijnlijk gevolg van de strikte regelgeving is het vertrek van innovatieve bedrijven. Zo kondigde het Nederlandse softwarebedrijf Bird begin 2025 aan dat het zijn activiteiten grotendeels uit Europa zou terugtrekken, met name vanwege wat het noemt een “verstikkend regelgevingsklimaat” dat niet meegroeit met de AI-tijdgeest. Ook bedrijven zoals Bunq, de digitale bank, vochten juridische gevechten uit over het gebruik van AI bij witwasbestrijding.

⚖️ Goede bedoelingen, maar weinig ruimte voor innovatie

Nederland heeft zich altijd gepositioneerd als voorvechter van ethische technologie. Die ambitie is prijzenswaardig, maar dreigt zonder pragmatiek en innovatiebeleid zijn doel voorbij te schieten. Als bedrijven geen ruimte krijgen om met AI te experimenteren binnen duidelijke kaders, zullen ze hun vleugels elders uitslaan — en dat is precies wat nu gebeurt.


Wat is er nodig?

Voor Nederland om AI-leider te worden zonder zijn ethische kernwaarden te verliezen, zijn een paar duidelijke stappen nodig:

  • Vooruitdenken, niet alleen reageren
    Maak beleid dat risico’s anticipeert in plaats van pas in te grijpen als het misgaat.

  • Transparantie als standaard
    Eis dat AI-systemen uitlegbaar zijn en dat burgers controle hebben over besluiten die hen raken.

  • Samenwerken met het veld
    Betrek niet alleen juristen, maar ook bedrijven, onderzoekers en burgers in beleidsontwikkeling.

  • Een testvriendelijk klimaat
    Creëer veilige experimenteerruimtes waarin AI-initiatieven binnen verantwoorde kaders getest kunnen worden.

When Probabilistic AIs Scale Socially — and Why Ben Goertzel Thinks That Matters

Can randomness organise itself into structure—and might that be our best shot at decentralised AGI?

Benedict Evans recently captured AI’s central tension:

> “If we make probabilistic systems big and complicated enough they might become deterministic. But if we make deterministic systems big and complicated enough, they become probabilistic.”

Most debate focuses on computational scale—larger models, more data. Yet a new Guardian-covered study shows something subtler: when many small language-model agents chat in pairs, they converge on shared norms without any global plan or memory.

In other words, probabilistic systems scale socially.

Emergence in the Wild

Researchers paired 24-100 LLM agents at random and asked each pair to agree on a name from a fixed list. Over successive interactions the entire population adopted one common label, and a tiny minority later tipped the group to a new label. Local noise produced global order—no monolithic model required.

A Micro-Experiment in Life-Hack Land

Borrowing the protocol, we set ten toy agents loose to champion their favourite single life hack.
After three debate rounds (with short-term memory only) the crowd went from 10 different hacks → 1 winner:

Round Followers of “25-minute focus timer”

1 0
2 4
3 8

The timer wasn’t objectively “best”; it was catchy, clear and contagious. Social scaling made a probabilistic crowd behave as if deterministic consensus had been programmed.

Enter Dr Ben Goertzel: Why Size Alone Isn’t Enough

At Consensus 2025, Dr Ben Goertzel (SingularityNET / ASI Alliance) argued that merely scaling today’s transformer LLMs is an “off-ramp” to AGI. His alternative, OpenCog Hyperon, is a modular, hybrid framework where symbolic reasoning, neural nets and evolutionary learning interact inside a distributed knowledge hypergraph .

Goertzel’s thesis fits our micro-experiment like a glove:

Goertzel’s Point Link to Social-Scaling Insight

LLM-only paths plateau Our toy agents needed interaction, not bigger parameters, to generate new order.

Hybrid sub-systems outperform monoliths A network of specialised agents can out-create any single giant model.

Decentralised infrastructure (ASI Alliance) will host the first AGI Emergent norms thrive when cognition is distributed—exactly what a blockchain-based AGI grid provides.

> “If scaling transformers is the crux of AGI, Big Tech wins; but if AI arises from many minds co-operating, decentralisation changes the game.” — B. Goertzel, Consensus 2025 (paraphrased).

Why This Matters for Everyone Building AI

1. Order from Interaction, Not Size
Social scaling shows that modest models, richly connected, can outperform solitary behemoths.

2. Alignment Risks & Opportunities
If agents can invent useful conventions, they can also drift into harmful ones. Understanding social dynamics is now an AI-safety imperative.

3. A Roadmap for Decentralised AGI
Goertzel’s Hyperon aims to harness these dynamics on open, permissionless rails—putting the future of intelligence in everyone’s hands.

For Rejuve.AI and other DeSci projects, the take-away is clear: the next breakthroughs may come less from chasing trillion-parameter models and more from designing vibrant, well-governed agent societies that learn—and align—together.

*What would your crowd of tiny AIs debate? And how would you steer the norms they invent?*