Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Arvind Narayanan
Princeton CS prof. Direktør @PrincetonCITP. Jeg bruker X til å dele min forskning og kommentarer om den samfunnsmessige effekten av AI.
BOK: AI slangeolje. Visninger mine.
Min erfaring med ChatGPT Agent så langt: Jeg har ikke klart å finne noen brukstilfeller som _ikke_ kan håndteres av Deep Research og likevel kan fullføres av Agent uten å støte på noen snublesteiner som janky nettskjemaer eller tilgangsbegrensninger.
Jeg er sikker på at jeg vil finne noen bruksområder, men det vil ende opp med å være en liten brøkdel av oppgavene som kommer opp i arbeidsflytene mine.
Hvis dette er tilfelle, vil det ikke være fornuftig å prøve å gjøre nye oppgaver ved hjelp av Agent med mindre det er en oppgave jeg ellers ville brukt timer på (eller må gjenta på daglig basis). Hvis min forventning er at Agent vil lykkes med 5 % sannsynlighet, og det tar 10-20 minutter med smertefullt hardt å prøve hardt før jeg gir opp, er det ikke verdt tiden min å engang finne ut om Agent kan gjøre det. Jeg ville bare brukt det hvis jeg på en eller annen måte allerede visste at det er en oppgave som agenten kan håndtere.
Gitt alt dette, fortsetter jeg å tro at oppgavespesifikke agenter vil være mer vellykkede i overskuelig fremtid.
7,79K
Arvind Narayanan lagt ut på nytt
🧠Nytt på CITP-bloggen fra doktorgradsstudent Boyi Wei (@wei_boyi) fra POLARIS Lab: "Risikoboblen: Forbedring av vurderinger for offensive cybersikkerhetsagenter"
Les om hvordan motstandere kan tilpasse og modifisere åpen kildekode-modeller for å omgå sikkerhetstiltak. 👇
3,18K
Tilbake på videregående skole, da jeg innså hvordan «markedsplassen for ideer» faktisk fungerer, føltes det som om jeg hadde funnet juksekodene til en forskerkarriere. I dag er dette det viktigste jeg lærer studenter, mer enn noe relatert til innholdet i forskningen vår.
Et raskt forord: når jeg snakker om forskningssuksess, mener jeg ikke å publisere mange artikler. De fleste publiserte artikler samler støv fordi det er for mye forskning på noe felt til at folk kan ta hensyn til. Og spesielt gitt hvor enkelt det er å gi ut pre-prints, trenger ikke forskning å være offisielt publisert for å lykkes. Så selv om publikasjoner kan være en forutsetning for karriereutvikling, bør de ikke være målet. For meg er forskningssuksess forfatterskap av ideer som påvirker dine jevnaldrende og gjør verden til et bedre sted.
Så den grunnleggende innsikten er at det er for mange ideer som kommer inn på markedet for ideer, og vi må forstå hvilke som ender opp med å være innflytelsesrike. Den gode nyheten er at kvalitet betyr noe – alt annet likt vil bedre forskning være mer vellykket. Den dårlige nyheten er at kvalitet bare er svakt korrelert med suksess, og det er mange andre faktorer som betyr noe.
Først, gi deg selv flere skudd på mål. Flaksens rolle er et fast tema i mine karriereråd. Det er sant at flaks betyr mye for å avgjøre hvilke artikler som er vellykkede, men det betyr ikke at du må avfinne deg med det. Du kan øke "flaksoverflaten".
For eksempel, hvis du alltid legger ut preprints, får du flere sjanser for at arbeidet ditt blir lagt merke til: en gang med preprinten og en gang med publikasjonen (pluss hvis du er i et felt med store publikasjonsforsinkelser, kan du sørge for at forskningen ikke er scooped eller irrelevant når den kommer ut).
Mer generelt, behandle forskningsprosjekter som startups – aksepter at det er en veldig høy variasjon i resultater, med noen prosjekter som er 10 ganger eller 100 ganger mer vellykkede enn andre. Dette betyr å prøve mange forskjellige ting, ta store svingninger, være villig til å forfølge det jevnaldrende anser som dårlige ideer, men med en idé om hvorfor du potensielt kan lykkes der andre før deg mislyktes. Vet du noe som andre ikke vet, eller vet de noe du ikke vet? Og hvis du finner ut at det er sistnevnte, må du være villig til å avslutte prosjektet raskt, uten å bli offer for den sunkne kostnadsfeilslutningen.
For å være tydelig, suksess er ikke bare ned til flaks – kvalitet og dybde betyr mye. Og det tar noen år med forskning å gå dypt inn i et emne. Men å bruke noen år på å undersøke et emne før du publiserer noe er ekstremt risikabelt, spesielt tidlig i karrieren. Løsningen er enkel: forfølge prosjekter, ikke problemer.
Prosjekter er langsiktige forskningsagendaer som varer i 3-5 år eller mer. Et produktivt prosjekt kan lett produsere et dusin eller flere artikler (avhengig av feltet). Hvorfor velge prosjekter i stedet for problemer? Hvis metoden din er å hoppe fra problem til problem, vil de resulterende artiklene sannsynligvis være noe overfladiske og kanskje ikke ha stor innvirkning. Og for det andre, hvis du allerede er kjent for artikler om et bestemt emne, er det mer sannsynlig at folk tar hensyn til fremtidige artikler om det emnet. (Ja, forfatterens omdømme betyr mye. Enhver egalitær forestilling om hvordan folk velger hva de skal lese er en myte.)
For å oppsummere, jobber jeg vanligvis med 2-3 langsiktige prosjekter om gangen, og innenfor hvert prosjekt er det mange problemer som undersøkes og mange artikler som produseres på ulike stadier av pipelinen.
Det vanskeligste er å vite når du skal avslutte et prosjekt. For øyeblikket vurderer du et nytt prosjekt, sammenligner du noe som vil ta noen år å virkelig realisere med et emne der du allerede er svært produktiv. Men du må avslutte noe for å gi plass til noe nytt. Å slutte til rett tid føles alltid som å slutte for tidlig. Hvis du går med magefølelsen, vil du bli i samme forskningsområde altfor lenge.
Til slutt, bygg din egen distribusjon. Tidligere tjente den offisielle publiseringen av en artikkel to formål: å gi den troverdigheten som kommer fra fagfellevurdering, og å distribuere artikkelen til dine jevnaldrende. Nå har disse to funksjonene blitt fullstendig kuttet. Publisering gir fortsatt troverdighet, men distribusjon er nesten helt opp til deg!
Dette er grunnen til at sosiale medier betyr så mye. Dessverre introduserer sosiale medier usunne insentiver for å overdrive funnene dine, så jeg synes blogger/nyhetsbrev og lange videoer er mye bedre kanaler. Vi er i en andre gullalder for blogging, og det er en ekstrem mangel på folk som kan forklare banebrytende forskning fra sine disipliner på en tilgjengelig måte, men uten å fordumme det som i pressemeldinger eller nyhetsartikler. Det er aldri for tidlig – jeg startet en blogg under doktorgraden, og den spilte en stor rolle i å spre doktorgradsforskningen min, både i forskningsmiljøet mitt og utenfor det.
Sammendrag
* Forskningssuksess betyr ikke bare publisering
* Markedsplassen for ideer er mettet
* Gi deg selv flere skudd på mål
* Velg prosjekter, ikke problemer
* Behandle prosjekter som oppstartsbedrifter
* Bygg din egen distribusjon
44,24K
Arvind Narayanan lagt ut på nytt
Eksperter på kroppsdysmorfisk lidelse har advart om at folk som sliter med det har blitt stadig mer avhengige av AI-chatbots for å evaluere deres selvopplevde feil og anbefale kosmetiske operasjoner. "Det kommer nesten opp i hver eneste økt," forteller en terapeut meg.

106,85K
Hvis vi sammenlignet AI-evner med mennesker uten tilgang til verktøy, for eksempel internett, ville vi sannsynligvis finne at AI allerede overgikk mennesker på mange eller de fleste kognitive oppgaver vi utfører på jobben. Men dette er selvfølgelig ikke en nyttig sammenligning og forteller oss ikke mye om AIs økonomiske konsekvenser. Vi er ingenting uten verktøyene våre.
Og likevel er mange spådommer om virkningen av "AGI" basert på hypotetiske sammenligninger mellom mennesker og AI der menneskene har internettilgang, men ingen AI-tilgang. Denne typen sammenligning er like irrelevant.
Det virkelige spørsmålet er mennesker + AI vs AI alene. I en slik sammenligning kommer ikke AI til å overgå menneske-AI-par, bortsett fra i smale, beregningstunge domener som spill der hastighet er avgjørende og det å ha et menneske i bildet bare bremser ting.*
Så hvorvidt AI vil erstatte mennesker eller ikke, kommer ned til faktorer utover nøyaktighet – ting som ansvarlighet, evnen til å håndtere ukjente ukjente og potensielle preferanser fra kunder og andre arbeidere for å samhandle med et menneske, alt veid opp mot kostnadene ved å ansette et menneske.
Dette er ikke å si at AI ikke vil fortrenge jobber. Men å se på evnestandarder og gå rett til påstander om tap av jobb er helt naivt.
* Det er mange studier der arbeidere feilaktig overstyrer AI for ofte, men det er fordi de ikke fikk opplæring i når de skulle overstyre og når de ikke skulle, noe som er en viktig ferdighet i AI-aktiverte arbeidsflyter.
12,68K
Arvind Narayanan lagt ut på nytt
SB1047 var en dårlig idé. Men senator Wieners siste SB53 er på rett vei, og det er viktig å påpeke fremgangen. Her er mitt resonnement.
Min tilnærming til å regulere nye teknologilignende modeller er: vi vet ikke hvordan vi skal definere «god» avbøtende tiltak og forsikring, men vi vet det når – og hvis – vi ser det.
Det er to implikasjoner.
#1. Vi bør ikke foreskrive risikoterskler eller standarder for omsorg for modellutvikling. Vi kan ikke bli enige om risikoene som betyr noe, hvordan vi skal måle dem eller hvor mye som er for mye. Den eneste veiledningen for utviklere, regulatorer og domstoler er et sett med gryende praksiser som først og fremst bestemmes av lukkede kildeselskaper som er avhengige av betalingsmurer for å gjøre de tunge løftene. Å gjøre det kan kjøle ned åpen innovasjon ved å utsette utviklere for vagt eller økt ansvar for utbredt utgivelse.
Det var SB1047 i et nøtteskall, sammen med ~5 ekvivalenter den inspirerte over hele USA denne økten, for eksempel RAISE Act i NY. Vi bør unngå den tilnærmingen. Disse forslagene er – i snevre, men avgjørende henseender – for langt over skiene.
Og likevel:
#2. Vi må kaste lys over bransjepraksis for bedre å forstå fliden, eller mangelen på den, som brukes av forskjellige firmaer. Hvis utviklere må forplikte seg til en sikkerhetspolicy, vise hvordan de jobber og legge igjen et papirspor, kan vi bedre vurdere styrken til kravene deres, overvåke for nye risikoer og bestemme fremtidig intervensjon.
Det er EUs AI Act og endelige Code of Practice i et nøtteskall, som både OpenAI og Mistral har støttet, og det er @Scott_Wiener nyeste versjon av SB53 også.
Hvis vi skal regulere modellutvikling, er det grunnleggende den beste tilnærmingen: å regulere åpenhet – ikke evner, avbøtende tiltak eller akseptabel risiko. Det ville gi minst én amerikansk jurisdiksjon tilsynsmyndighet i Brussel, og det ville unngå utilsiktede effekter på åpen utvikling.
For å være tydelig, det er fortsatt isfjell fremover:
> kompleksitet. Big Tech eller ikke, dette er tyngende dokumentasjons- og rapporteringsforpliktelser. Taktisk sett, jo mer komplekst, jo mer sårbart vil dette lovforslaget bli.
> insentiver. Obligatorisk offentlig rapportering av frivillige risikovurderinger skaper et perverst insentiv for utviklere til å underteste modellene sine, og lukke øynene for vanskelige risikoer. Å tillate utviklere å offentliggjøre resultatene sine til revisorer eller byråer i stedet for offentlig kan bidra til å fremme større åpenhet i deres interne vurderinger.
> trojansk hest. Californias hyperaktive tarm-og-endre-kultur kan gjøre det vanskelig å undersøke disse regningene. Hvis SB53 forvandles til en standardregning som SB1047 eller RAISE, bør den slås tilbake av samme grunner som før. Jo flere kuler som legges til dette juletreet, jo mer omstridt blir lovforslaget.
> Bredde. Lovforslaget kaster et bredt nett med ekspansive definisjoner av katastrofal risiko og farlig evne. For et lovforslag om "obligatorisk rapportering / frivillig praksis" fungerer de. Hvis dette lovforslaget var en standard for omsorgslov, ville de være ugjennomførbare.
I sum: hatten av for senator Wiener for gjennomtenkt engasjement og respons på tilbakemeldinger det siste året. Det er forfriskende å se et lovforslag som faktisk bygger på tidligere kritikk. Det er fortsatt mange veier dette lovforslaget kan ta – og det har utviklet seg langt utover det opprinnelige varslingsforslaget – men banen er lovende.

6K
Arvind Narayanan lagt ut på nytt
Nytt innlegg: Datacenter vrangforestillinger
Blant mellommaktene har De forente arabiske emirater den klareste AI-strategien: bli en «AI-oljestat» med meningsfull global databehandlingsandel. De fleste andre land bygger datasentre uten å sikte mot levedyktige suverenitetsterskler.
🧵

10,03K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til