AI LLM text vs image speed

AI LLM text vs image speed
Text vs obrazový datový tok

@ylecun

* Language is low bandwidth: less than 12 bytes/second. A person can read 270 words/minutes, or 4.5 words/second, which is 12 bytes/s (assuming 2 bytes per token and 0.75 words per token). A modern LLM is typically trained with 1x10^13 two-byte tokens, which is 2x10^13 bytes.… https://t.co/FtCnxkVukK
— Yann LeCun (@ylecun) March 9, 2024

Nature would not use "metrics" in the form we have invented them; as strict quantitative measures used to evaluate various aspects of a system's performance, and/or as a kind of "distance" between elements of a set.

Such constrained evaluation only makes sense when framing a…
— Sean McClure (@sean_a_mcclure) March 9, 2024

Sean McClure

@sean_a_mcclure

https://twitter.com/sean_a_mcclure/status/1766532982075216153

Vlastnost	Vzorec	Typická hodnota	Popis
Šířka pásma vize	2 * počet optických nervů * počet nervových vláken * počet bajtů na nervové vlákno	40 MB/s	Množství informací přenášených zrakem za sekundu.
Datový tok vize	Šířka pásma vize * Čas	40 MB (pro 1 sekundu) 2.4 GB (pro 1 minutu)	Celkové množství dat přenášených zrakem za daný čas.
Šířka pásma jazyka	Rychlost čtení člověka	12 bajtů/s	Množství informací přenášených jazykem za sekundu.
Datový tok jazyka	Šířka pásma jazyka * Čas	720 bajtů (pro 1 minutu čtení)	Celkové množství dat přenášených jazykem za daný čas.
Poměr datových toků	Datový tok vize / Datový tok jazyka	3333	Zobrazuje, kolikrát je datový tok vize větší než datový tok jazyka.

Výpočty čtení a zraku

Čtení: Osoba může číst 270 slov za minutu, což je 4,5 slova za sekundu.

Předpoklady: Každé slovo je 2 bajty. Předpokládá se, že 0,75 slova na token, což je 1,333 tokenu na slovo.

Bajty za sekundu při čtení: 4,5 (slova za sekundu) × 2 (bajty za slovo) × 1,333 (tokeny za slovo) =

Výpočet celkového počtu let pro čtení LLM dat:

Celkový počet bajtů: 2 × 10¹³

Výpočet:

Sekundy potřebné na přečtení: 2 × 10¹³ / 12
Dny potřebné na přečtení: Sekundy / (12 × 60 × 60)
Roky potřebné na přečtení: Dny / 365,25

Vizuální šířka pásma:

Každý z optických nervů má 1 milion nervových vláken a každé vlákno přenáší přibližně 10 bajtů za sekundu.

Celkové šířka pásma pro oba nervy: 10 × 1,000,000 × 2 = MB/s

Celkové množství dat zpracované čtyřletým dítětem:

Hodiny vzhůru: 16,000

Výpočet celkového počtu bajtů: Šířka pásma × (16,000 × 60 × 60)

Calculation of Reading Time

We can estimate the time required for a human to read a text by using the following formula:

Time (seconds) = (Number of Tokens * Bytes per Token) / Reading Speed (bytes/second)

Where:

Number of Tokens: The total number of words or meaning-carrying units in the text.
(Example: 1x10^13 for a large LLM)
Bytes per Token: We assume 2 bytes represent a token.
(This can be adjusted based on your assumptions)
Reading Speed: Average human reading speed is around 4.5 words/second.
We can convert this to bytes/second assuming 0.75 words per token.

**Example Calculation:**

Time (seconds) = (1x10^13 tokens * 2 bytes/token) / 
(4.5 words/second * 0.75 words/token)

This simplifies to approximately 5,926,100,000 seconds.

Converting this to years: (assuming 365 days a year)

Time (years) = Time (seconds) / (Seconds per day * Days per year)

This results in approximately 101,444 years.

Vzorce pro obrazovou informaci a datový tok

Můžeme kvantifikovat množství informací přenášených zrakem pomocí následujícího vzorce:

Šířka pásma vize (bajtů/sekundu) = 2 * počet optických nervů 
* počet nervových vláken * počet bajtů na nervové vlákno

Kde:

Počet optických nervů: Lidé mají dva optické nervy přenášející informace z očí do mozku.
Počet nervových vláken: Každý optický nerv obsahuje přibližně 1 milion nervových vláken.
Počet bajtů na nervové vlákno: Předpokládáme, že každé nervové vlákno přenáší v daný moment asi 10 bajtů informací.

Dosazením typických hodnot získáme:

Šířka pásma vize ≈ 2 * 1 000 000 * 10 ≈ 40 MB/s

**Datový tok:**

Množství dat přenášených za určitý čas můžeme vypočítat pomocí vzorce:

Datový tok (bajtů/sekundu) = Šířka pásma (bajtů/sekundu) * Čas (sekundy)

**Porovnání s jazykem:**

Šířku pásma viděného můžeme porovnat s datovým tokem jazyka, konkrétně s rychlostí čtení člověka. Pokud předpokládáme, že člověk přečte text rychlostí 12 bajtů za sekundu a čtení textu trvá 100 000 let, můžeme vypočítat datový tok jazyka takto:

Datový tok jazyka = 12 bajtů/sekundu * 100 000 let 
* 365 dní/rok * 24 hodin/den * 3600 sekund/hodinu

Tento výpočet vyžaduje pokročilé funkce, které nejsou v rámci Bloggeru dostupné. Nicméně, porovnáním šířky pásma vize (40 MB/s) a šířky pásma jazyka (12 bajtů/sekundu) je zřejmé, že vizuální informace má mnohem vyšší datový tok.

1. Implikace pro umělou inteligenci:

Výzva pro vývoj AI: Tweet zdůrazňuje, že zrak je pro člověka dominantním smyslem a jeho šířka pásma je 3 333krát větší než šířka pásma jazyka. To představuje značnou výzvu pro vývojáře AI, kteří se snaží napodobit a překonat lidské kognitivní schopnosti v oblasti vnímání a zpracování vizuálních informací.

Důležitost multimodální integrace: Diskuze se dotýká důležitosti modelování multimodální integrace v AI systémech. To znamená, že AI by měla být schopna integrovat informace z různých smyslů (zrak, sluch, hmat atd.) pro komplexnější a hlubší pochopení světa.

2. Neurověda a vnímání:

Souvislost mezi šířkou pásma a kapacitou mozku: Šířka pásma zraku a jazyka odráží kapacitu mozku pro zpracování informací z daného smyslu. Zrak je náročnější na kognitivní zdroje, a proto má i větší šířku pásma.

Rozdíly v kognitivních procesech: Diskuze se dotýká i rozdílů v kognitivních procesech zraku a jazyka. Zrak je vnímán jako "pasivní" smysl, kdy informace proudí do mozku bez vědomého úsilí. Jazyk je naproti tomu "aktivní" smysl, kdy je nutná aktivní produkce řeči a interpretace sdělení.

3. Technologické inovace:

Potenciál rozhraní mozek-počítač a rozšířené reality: Diskuze se dotýká potenciálu technologií, jako jsou rozhraní mozek-počítač a rozšířená realita, které by mohly překonat limity jazyka a umožnit efektivnější přenos informací.

Využití vizuálních a multimodálních dat: Zmíněno je i využití vizuálních a multimodálních dat v oblasti strojového učení a umělé inteligence. Využití těchto dat otevírá nové možnosti pro vývoj pokročilých systémů rozpoznávání obrazu, strojového překladu a dalších aplikací.

Několik zajímavých podnětů:

"Zrak je dominantní smysl pro člověka a AI se ho teprve učí napodobovat."
Důležitost vnímání pro lidské poznání a výzvu, kterou představuje jeho modelování v AI.

"Mozek je neuvěřitelně efektivní v kompresi a interpretaci vizuálních dat."
Kognitivní schopnosti lidského mozku a jeho efektivitu v práci s vizuálními informacemi.

"Budoucnost AI spočívá v integraci různých smyslů a modalit."
Tento příspěvek zdůrazňuje důležitost multimodálního přístupu pro vývoj pokročilé AI, která bude schopna lépe napodobovat a překonat lidské kognitivní funkce.

Yann LeCun

poukazuje na rozdíly mezi datovou šířkou pásma jazyka a vizuálního vnímání. Uvádí, že vizuální vnímání má mnohonásobně vyšší datovou šířku pásma než jazyk, což znamená, že děti během několika let přijmou obrovské množství vizuálních dat ve srovnání s tím, co mohou přečíst nebo slyšet. Dále zdůrazňuje význam samostatného učení a potřebu zpracovávání vysokorychlostních senzorických vstupů pro dosažení úrovně umělé inteligence srovnatelné s lidskou. LeCun tvrdí, že zatímco jazyk je důležitý, většina lidského a zvířecího poznání pochází ze senzorické zkušenosti s fyzickým světem.

Reakce od Sean McClure:

Sean McClure kritizuje použití kvantitativních metrik, jako je datová šířka pásma, k hodnocení komplexních systémů, jako je vizuální vnímání a jazyk. Poukazuje na to, že přirozené procesy nelze plně pochopit prostřednictvím snížení na nízkorozměrné konstrukty. McClure zpochybňuje spojitost mezi vizuálním vnímáním a datovou šířkou pásma a tvrdí, že lidé a příroda neoperují pouze na základě transakcí nebo vyměňovaných datových množství. Namítá, že vědecká přesnost a použití metrik by neměly být ztotožňovány s hlubokým porozuměním přírodním jevům. Nakonec vyzývá k opatrnosti při aplikaci přesně definovaných metrik na komplexní a propojené přírodní jevy.

Shrnutí:

LeCunův původní text zdůrazňuje význam a potenciál vizuálního vnímání ve srovnání s jazykem ve vývoji umělé inteligence, zatímco McClure kritizuje tento přístup jako příliš zjednodušený a opomíjející hlubší aspekty přírodních jevů a lidského vnímání. Diskuse mezi oběma stranami odhaluje rozdílné pohledy na to, jak by měli vědci a vývojáři AI přistupovat k modelování a pochopení složitých systémů.

Výhody pohledu Yann LeCun:

Zdůraznění významu senzorického vnímání:

Poukazuje na klíčovou roli vizuálního a senzorického vnímání v lidském učení a poznání.

Naznačuje cestu k vytvoření AI, která lépe napodobuje lidské schopnosti díky využití bohatých senzorických dat.

Důraz na samostatné učení:

Upozorňuje na potřebu využití redundance v datech pro samostatné učení, což může zlepšit schopnost AI zachytit strukturu dat.

Podporuje rozvoj AI, která se učí z rozmanitějších a realističtějších vstupů.

Podpora pro vysokorychlostní senzorické vstupy:

Argumentuje, že pro dosažení úrovně lidské inteligence je nezbytné, aby stroje zpracovávaly vysokorychlostní senzorické vstupy, jako je vizuální vnímání.

Nevýhody pohledu Yann LeCun:

Možné přeceňování kvantitativních metrik:

Fokus na datovou šířku pásma a kvantitativní porovnání může zjednodušovat složitost vizuálního vnímání a jazyka.

Může opomíjet hlubší, kvalitativní aspekty lidského poznání a zkušenosti.

Výhody pohledu Sean McClure:

Kritika redukcionismu:

Upozorňuje na omezení používání striktně kvantitativních metrik k hodnocení složitých systémů.

Podporuje holističtější přístup k pochopení přírodních jevů a lidského vnímání.

Zdůraznění složitosti a propojenosti přírody:

Poukazuje na to, že přírodní jevy a lidské vnímání nelze plně pochopit pomocí jednoduchých "metrik" nebo "vzdáleností".

Nevýhody pohledu Sean McClure:

Možná nedostatečná uznání významu kvantitativní analýzy:

Zatímco kritizuje používání metrik, může tím potenciálně opomíjet jejich užitečnost v určitých kontextech pro rozvoj AI a vědeckého poznání.

Synergie a obohacení:

Kombinace kvantitativních a kvalitativních přístupů:

Integrací kvantitativních metrik a holističtějšího, kvalitativního pochopení přírodních jevů a lidského vnímání může dojít k vyváženějšímu a úplnějšímu přístupu k vývoji AI.

Použití kvantitativních dat pro podporu samostatného učení může být obohaceno o hlubší pochopení kontextu a významu, což vede k rozvoji sofistikovanějších modelů AI.

Vývoj adaptabilnějších a robustnějších AI systémů:

Poučení z obou pohledů může pomoci vytvořit AI systémy, které jsou schopné zpracovávat širokou škálu dat a adaptovat se na složité a měnící se prostředí.

Rozvoj AI, která lépe rozumí a interaguje s fyzickým světem, může být podpořen kombinací přístupů zaměřených na vysokorychlostní senzorické vstupy a hlubší analýzu zkušeností a vnímání.

Tato synergická interakce nabízí cestu k rozvoji AI, která je schopnější porozumění a interakce s komplexním světem, a zároveň respektuje hlubší aspekty lidského vnímání a poznání.

**Závěr?:**

Debata mezi Yannem LeCunem a Seanem McClurem ilustruje důležitou diskusi v oblasti umělé inteligence,
která se týká rovnováhy mezi kvantitativním a kvalitativním přístupem k pochopení a modelování lidského vnímání a poznání.
LeCunův důraz na význam vysokorychlostních senzorických vstupů a samostatného učení poukazuje na potenciální cesty k vytváření sofistikovanějších a realističtějších AI systémů. McClureova kritika, zaměřená na omezení redukcionismu a kvantitativních metrik, připomíná, že plné pochopení složitých přírodních a lidských jevů vyžaduje širší perspektivu a hlubší analýzu.

Synergie mezi kvantitativními daty a kvalitativním porozuměním nabízí slibný způsob, jak postoupit vpřed. Kombinací obou přístupů můžeme rozvíjet AI, která lépe napodobuje lidské schopnosti vnímání, učení a adaptace. Výsledkem může být umělá inteligence, která je nejen schopná zpracovávat a reagovat na složité senzorické vstupy, ale také chápat kontext a význam za nimi. Tato vyváženost může vést k vytvoření systémů, které jsou nejen technologicky pokročilé, ale také citlivější k nuancím lidského zkušenosti a vnímání.

V konečném důsledku, diskuse naznačuje, že budoucnost vývoje umělé inteligence bude pravděpodobně vyžadovat integraci široké škály disciplín, od strojového učení po neurovědu a filozofii. Tímto způsobem může AI nejen dosáhnout nových výšek v technologických schopnostech, ale také se stát hluboce integrovanou a užitečnou součástí našeho pochopení a interakce s komplexním světem kolem nás.

Porovnání přístupů k měření a vnímání v přírodě a umělé inteligenci

Text od Sean McClure

Hlavní myšlenky:

Kritika používání metrik: Příroda nepoužívá metriky ve formě, jakou jsme vymysleli.
Přirozený výkon vs. umělé metriky: Výkon v přírodě je otázkou přežití, nikoli dodržování přesných definic.
Pochybnosti o vědecké přesnosti a relevanci použitých příkladů: Zpochybnění srovnání vizuálního vnímání a jazyka z hlediska "přenosové šířky pásma".
Kritika základních předpokladů a cílů používání metrik: Otázky ohledně původu a kvality informací v metrikách.

Text od Yann LeCun

Hlavní myšlenky:

Srovnání přenosové šířky jazyka a vidění: Jazyk má nízkou přenosovou šířku pásma, vidění má vyšší.
Význam redundance pro samořízené učení (SSL): Redundance v datech je klíčová pro SSL.
Zdroje lidského a zvířecího poznání: Většina znalostí pochází ze smyslových zkušeností.
Nutnost vysokopřenosových smyslových vstupů pro AI: Důraz na učení se z vysokopřenosových smyslových vstupů pro dosažení pokročilé AI.

Využití vzorců pro šířku pásma a datový tok nám umožňuje kvantifikovat rozdíl v množství informací přenášených zrakem a jazykem.
Toto zjištění podporuje tvrzení, že smyslová zkušenost a učení ze senzorických vstupů, jako je zrak, jsou klíčové pro dosažení umělé inteligence na lidské úrovni.

333 - How to?

9. března 2024