Text vs obrazový datový tok
* Language is low bandwidth: less than 12 bytes/second. A person can read 270 words/minutes, or 4.5 words/second, which is 12 bytes/s (assuming 2 bytes per token and 0.75 words per token). A modern LLM is typically trained with 1x10^13 two-byte tokens, which is 2x10^13 bytes.… https://t.co/FtCnxkVukK
— Yann LeCun (@ylecun) March 9, 2024
Nature would not use "metrics" in the form we have invented them; as strict quantitative measures used to evaluate various aspects of a system's performance, and/or as a kind of "distance" between elements of a set.
— Sean McClure (@sean_a_mcclure) March 9, 2024
Such constrained evaluation only makes sense when framing a…
Vlastnost | Vzorec | Typická hodnota | Popis |
---|---|---|---|
Šířka pásma vize | 2 * počet optických nervů * počet nervových vláken * počet bajtů na nervové vlákno | 40 MB/s | Množství informací přenášených zrakem za sekundu. |
Datový tok vize | Šířka pásma vize * Čas | 40 MB (pro 1 sekundu) 2.4 GB (pro 1 minutu) |
Celkové množství dat přenášených zrakem za daný čas. |
Šířka pásma jazyka | Rychlost čtení člověka | 12 bajtů/s | Množství informací přenášených jazykem za sekundu. |
Datový tok jazyka | Šířka pásma jazyka * Čas | 720 bajtů (pro 1 minutu čtení) |
Celkové množství dat přenášených jazykem za daný čas. |
Poměr datových toků | Datový tok vize / Datový tok jazyka | 3333 | Zobrazuje, kolikrát je datový tok vize větší než datový tok jazyka. |
Výpočty čtení a zraku
Čtení: Osoba může číst 270 slov za minutu, což je 4,5 slova za sekundu.
Předpoklady: Každé slovo je 2 bajty. Předpokládá se, že 0,75 slova na token, což je 1,333 tokenu na slovo.
Bajty za sekundu při čtení: 4,5 (slova za sekundu) × 2 (bajty za slovo) × 1,333 (tokeny za slovo) =
Výpočet celkového počtu let pro čtení LLM dat:
Celkový počet bajtů: 2 × 1013
Výpočet:
- Sekundy potřebné na přečtení: 2 × 1013 / 12
- Dny potřebné na přečtení: Sekundy / (12 × 60 × 60)
- Roky potřebné na přečtení: Dny / 365,25
Vizuální šířka pásma:
Každý z optických nervů má 1 milion nervových vláken a každé vlákno přenáší přibližně 10 bajtů za sekundu.
Celkové šířka pásma pro oba nervy: 10 × 1,000,000 × 2 = MB/s
Celkové množství dat zpracované čtyřletým dítětem:
Hodiny vzhůru: 16,000
Výpočet celkového počtu bajtů: Šířka pásma × (16,000 × 60 × 60)
Calculation of Reading Time
We can estimate the time required for a human to read a text by using the following formula:
Time (seconds) = (Number of Tokens * Bytes per Token) / Reading Speed (bytes/second)
Where:
- Number of Tokens: The total number of words or meaning-carrying units in the text.
(Example: 1x10^13 for a large LLM) - Bytes per Token: We assume 2 bytes represent a token.
(This can be adjusted based on your assumptions) - Reading Speed: Average human reading speed is around 4.5 words/second.
We can convert this to bytes/second assuming 0.75 words per token.
Time (seconds) = (1x10^13 tokens * 2 bytes/token) / (4.5 words/second * 0.75 words/token)
This simplifies to approximately 5,926,100,000 seconds.
Converting this to years: (assuming 365 days a year)
Time (years) = Time (seconds) / (Seconds per day * Days per year)
This results in approximately 101,444 years.
Vzorce pro obrazovou informaci a datový tok
Můžeme kvantifikovat množství informací přenášených zrakem pomocí následujícího vzorce:
Šířka pásma vize (bajtů/sekundu) = 2 * počet optických nervů * počet nervových vláken * počet bajtů na nervové vlákno
Kde:
- Počet optických nervů: Lidé mají dva optické nervy přenášející informace z očí do mozku.
- Počet nervových vláken: Každý optický nerv obsahuje přibližně 1 milion nervových vláken.
- Počet bajtů na nervové vlákno: Předpokládáme, že každé nervové vlákno přenáší v daný moment asi 10 bajtů informací.
Dosazením typických hodnot získáme:
Šířka pásma vize ≈ 2 * 1 000 000 * 10 ≈ 40 MB/s**Datový tok:**
Množství dat přenášených za určitý čas můžeme vypočítat pomocí vzorce:
Datový tok (bajtů/sekundu) = Šířka pásma (bajtů/sekundu) * Čas (sekundy)
**Porovnání s jazykem:**
Šířku pásma viděného můžeme porovnat s datovým tokem jazyka, konkrétně s rychlostí čtení člověka. Pokud předpokládáme, že člověk přečte text rychlostí 12 bajtů za sekundu a čtení textu trvá 100 000 let, můžeme vypočítat datový tok jazyka takto:
Datový tok jazyka = 12 bajtů/sekundu * 100 000 let * 365 dní/rok * 24 hodin/den * 3600 sekund/hodinu
Tento výpočet vyžaduje pokročilé funkce, které nejsou v rámci Bloggeru dostupné. Nicméně, porovnáním šířky pásma vize (40 MB/s) a šířky pásma jazyka (12 bajtů/sekundu) je zřejmé, že vizuální informace má mnohem vyšší datový tok.
1. Implikace pro umělou inteligenci:
Výzva pro vývoj AI: Tweet zdůrazňuje, že zrak je pro člověka dominantním smyslem a jeho šířka pásma je 3 333krát větší než šířka pásma jazyka. To představuje značnou výzvu pro vývojáře AI, kteří se snaží napodobit a překonat lidské kognitivní schopnosti v oblasti vnímání a zpracování vizuálních informací.
Důležitost multimodální integrace: Diskuze se dotýká důležitosti modelování multimodální integrace v AI systémech. To znamená, že AI by měla být schopna integrovat informace z různých smyslů (zrak, sluch, hmat atd.) pro komplexnější a hlubší pochopení světa.
2. Neurověda a vnímání:
Souvislost mezi šířkou pásma a kapacitou mozku: Šířka pásma zraku a jazyka odráží kapacitu mozku pro zpracování informací z daného smyslu. Zrak je náročnější na kognitivní zdroje, a proto má i větší šířku pásma.
Rozdíly v kognitivních procesech: Diskuze se dotýká i rozdílů v kognitivních procesech zraku a jazyka. Zrak je vnímán jako "pasivní" smysl, kdy informace proudí do mozku bez vědomého úsilí. Jazyk je naproti tomu "aktivní" smysl, kdy je nutná aktivní produkce řeči a interpretace sdělení.
3. Technologické inovace:
Potenciál rozhraní mozek-počítač a rozšířené reality: Diskuze se dotýká potenciálu technologií, jako jsou rozhraní mozek-počítač a rozšířená realita, které by mohly překonat limity jazyka a umožnit efektivnější přenos informací.
Využití vizuálních a multimodálních dat: Zmíněno je i využití vizuálních a multimodálních dat v oblasti strojového učení a umělé inteligence. Využití těchto dat otevírá nové možnosti pro vývoj pokročilých systémů rozpoznávání obrazu, strojového překladu a dalších aplikací.
Několik zajímavých podnětů:
"Zrak je dominantní smysl pro člověka a AI se ho teprve učí napodobovat."
Důležitost vnímání pro lidské poznání a výzvu, kterou představuje jeho modelování v AI.
"Mozek je neuvěřitelně efektivní v kompresi a interpretaci vizuálních dat."
Kognitivní schopnosti lidského mozku a jeho efektivitu v práci s vizuálními informacemi.
"Budoucnost AI spočívá v integraci různých smyslů a modalit."
Tento příspěvek zdůrazňuje důležitost multimodálního přístupu pro vývoj pokročilé AI, která bude schopna lépe napodobovat a překonat lidské kognitivní funkce.
Yann LeCun
poukazuje na rozdíly mezi datovou šířkou pásma jazyka a vizuálního vnímání. Uvádí, že vizuální vnímání má mnohonásobně vyšší datovou šířku pásma než jazyk, což znamená, že děti během několika let přijmou obrovské množství vizuálních dat ve srovnání s tím, co mohou přečíst nebo slyšet. Dále zdůrazňuje význam samostatného učení a potřebu zpracovávání vysokorychlostních senzorických vstupů pro dosažení úrovně umělé inteligence srovnatelné s lidskou. LeCun tvrdí, že zatímco jazyk je důležitý, většina lidského a zvířecího poznání pochází ze senzorické zkušenosti s fyzickým světem.
Reakce od Sean McClure:
Sean McClure kritizuje použití kvantitativních metrik, jako je datová šířka pásma, k hodnocení komplexních systémů, jako je vizuální vnímání a jazyk. Poukazuje na to, že přirozené procesy nelze plně pochopit prostřednictvím snížení na nízkorozměrné konstrukty. McClure zpochybňuje spojitost mezi vizuálním vnímáním a datovou šířkou pásma a tvrdí, že lidé a příroda neoperují pouze na základě transakcí nebo vyměňovaných datových množství. Namítá, že vědecká přesnost a použití metrik by neměly být ztotožňovány s hlubokým porozuměním přírodním jevům. Nakonec vyzývá k opatrnosti při aplikaci přesně definovaných metrik na komplexní a propojené přírodní jevy.
Shrnutí:
LeCunův původní text zdůrazňuje význam a potenciál vizuálního vnímání ve srovnání s jazykem ve vývoji umělé inteligence, zatímco McClure kritizuje tento přístup jako příliš zjednodušený a opomíjející hlubší aspekty přírodních jevů a lidského vnímání. Diskuse mezi oběma stranami odhaluje rozdílné pohledy na to, jak by měli vědci a vývojáři AI přistupovat k modelování a pochopení složitých systémů.
Výhody pohledu Yann LeCun:
Zdůraznění významu senzorického vnímání:
Poukazuje na klíčovou roli vizuálního a senzorického vnímání v lidském učení a poznání.
Naznačuje cestu k vytvoření AI, která lépe napodobuje lidské schopnosti díky využití bohatých senzorických dat.
Důraz na samostatné učení:
Upozorňuje na potřebu využití redundance v datech pro samostatné učení, což může zlepšit schopnost AI zachytit strukturu dat.
Podporuje rozvoj AI, která se učí z rozmanitějších a realističtějších vstupů.
Podpora pro vysokorychlostní senzorické vstupy:
Argumentuje, že pro dosažení úrovně lidské inteligence je nezbytné, aby stroje zpracovávaly vysokorychlostní senzorické vstupy, jako je vizuální vnímání.
Nevýhody pohledu Yann LeCun:
Možné přeceňování kvantitativních metrik:
Fokus na datovou šířku pásma a kvantitativní porovnání může zjednodušovat složitost vizuálního vnímání a jazyka.
Může opomíjet hlubší, kvalitativní aspekty lidského poznání a zkušenosti.
Výhody pohledu Sean McClure:
Kritika redukcionismu:
Upozorňuje na omezení používání striktně kvantitativních metrik k hodnocení složitých systémů.
Podporuje holističtější přístup k pochopení přírodních jevů a lidského vnímání.
Zdůraznění složitosti a propojenosti přírody:
Poukazuje na to, že přírodní jevy a lidské vnímání nelze plně pochopit pomocí jednoduchých "metrik" nebo "vzdáleností".
Nevýhody pohledu Sean McClure:
Možná nedostatečná uznání významu kvantitativní analýzy:
Zatímco kritizuje používání metrik, může tím potenciálně opomíjet jejich užitečnost v určitých kontextech pro rozvoj AI a vědeckého poznání.
Synergie a obohacení:
Kombinace kvantitativních a kvalitativních přístupů:
Integrací kvantitativních metrik a holističtějšího, kvalitativního pochopení přírodních jevů a lidského vnímání může dojít k vyváženějšímu a úplnějšímu přístupu k vývoji AI.
Použití kvantitativních dat pro podporu samostatného učení může být obohaceno o hlubší pochopení kontextu a významu, což vede k rozvoji sofistikovanějších modelů AI.
Vývoj adaptabilnějších a robustnějších AI systémů:
Poučení z obou pohledů může pomoci vytvořit AI systémy, které jsou schopné zpracovávat širokou škálu dat a adaptovat se na složité a měnící se prostředí.
Rozvoj AI, která lépe rozumí a interaguje s fyzickým světem, může být podpořen kombinací přístupů zaměřených na vysokorychlostní senzorické vstupy a hlubší analýzu zkušeností a vnímání.
Tato synergická interakce nabízí cestu k rozvoji AI, která je schopnější porozumění a interakce s komplexním světem, a zároveň respektuje hlubší aspekty lidského vnímání a poznání.
**Závěr?:**
Debata mezi Yannem LeCunem a Seanem McClurem ilustruje důležitou diskusi v oblasti umělé inteligence,
která se týká rovnováhy mezi kvantitativním a kvalitativním přístupem k pochopení a modelování lidského vnímání a poznání.
LeCunův důraz na význam vysokorychlostních senzorických vstupů a samostatného učení poukazuje na potenciální cesty k vytváření sofistikovanějších a realističtějších AI systémů. McClureova kritika, zaměřená na omezení redukcionismu a kvantitativních metrik, připomíná, že plné pochopení složitých přírodních a lidských jevů vyžaduje širší perspektivu a hlubší analýzu.
Synergie mezi kvantitativními daty a kvalitativním porozuměním nabízí slibný způsob, jak postoupit vpřed. Kombinací obou přístupů můžeme rozvíjet AI, která lépe napodobuje lidské schopnosti vnímání, učení a adaptace. Výsledkem může být umělá inteligence, která je nejen schopná zpracovávat a reagovat na složité senzorické vstupy, ale také chápat kontext a význam za nimi. Tato vyváženost může vést k vytvoření systémů, které jsou nejen technologicky pokročilé, ale také citlivější k nuancím lidského zkušenosti a vnímání.
V konečném důsledku, diskuse naznačuje, že budoucnost vývoje umělé inteligence bude pravděpodobně vyžadovat integraci široké škály disciplín, od strojového učení po neurovědu a filozofii. Tímto způsobem může AI nejen dosáhnout nových výšek v technologických schopnostech, ale také se stát hluboce integrovanou a užitečnou součástí našeho pochopení a interakce s komplexním světem kolem nás.
Text od Sean McClure
Hlavní myšlenky:
- Kritika používání metrik: Příroda nepoužívá metriky ve formě, jakou jsme vymysleli.
- Přirozený výkon vs. umělé metriky: Výkon v přírodě je otázkou přežití, nikoli dodržování přesných definic.
- Pochybnosti o vědecké přesnosti a relevanci použitých příkladů: Zpochybnění srovnání vizuálního vnímání a jazyka z hlediska "přenosové šířky pásma".
- Kritika základních předpokladů a cílů používání metrik: Otázky ohledně původu a kvality informací v metrikách.
Text od Yann LeCun
Hlavní myšlenky:
- Srovnání přenosové šířky jazyka a vidění: Jazyk má nízkou přenosovou šířku pásma, vidění má vyšší.
- Význam redundance pro samořízené učení (SSL): Redundance v datech je klíčová pro SSL.
- Zdroje lidského a zvířecího poznání: Většina znalostí pochází ze smyslových zkušeností.
- Nutnost vysokopřenosových smyslových vstupů pro AI: Důraz na učení se z vysokopřenosových smyslových vstupů pro dosažení pokročilé AI.
Využití vzorců pro šířku pásma a datový tok nám umožňuje kvantifikovat rozdíl v množství informací přenášených zrakem a jazykem.
Toto zjištění podporuje tvrzení, že smyslová zkušenost a učení ze senzorických vstupů, jako je zrak, jsou klíčové pro dosažení umělé inteligence na lidské úrovni.
Žádné komentáře:
Okomentovat